본문 바로가기

반응형

Learning/Statistics & Data analysis

(6)
[ ML / 머신러닝 ] Contents / 목차 머신러닝 개념을 목차별로 정리해보았다. 책 "Hands-On Machine Learning with Scikit-Learn & tensorFlow" 목차를 참조하면서도 내가 아는 최신 개념도 몇개 추가로 목차에 넣었다. 특히 XGBoost 의 경우, 현재 캐글에서 높은 performance를 보이는 알고리즘 중 하나이며, Graph-based clustering과 Density-based clusetering 은 빅 데이터를 다루는데 점점 많이 쓰이는 알고리즘이다. 1. 지도학습 (Supervised learning) with labeled data For Classification or Regression Decision tree Random forests Support vector machines (..
[ Summary part .1 ] Understanding Representation Learning With Autoencoder: Everything You Need to Know About Representation and Feature Learning This 1st part of summary is about a post with a title "Understanding Representation Learning With Autoencoder: Everything You Need to Know About Representation and Feature Learning". I summarized the post here by using the exact words of the author(Nilesh Barla) of the post (quotation mark area). A link to the original post is written below as "Original post". The machine learning limitation "Th..
[ technique review / RNA-seq. data analysis / Bulk RNA-seq / advanced ] nf-core/rnaseq I've been doing troubleshooting to install nf-core/rnaseq by nextflow in cluster. Primary summary of how nf-core/rnaseq work ( taken from the webiste https://nf-co.re/rnaseq/3.1 ) Download FastQ files via SRA, ENA or GEO ids and auto-create input samplesheet (ENA FTP; if required) Merge re-sequenced FastQ files (cat) Read QC (FastQC) UMI extraction (UMI-tools) Adapter and quality trimming (Trim ..
[ technique review / RNA-seq. data analysis / Bulk RNA-seq / Basic ] STAR & Salmon & paired-end reads 0. Conda 0-1. To make an environment ('salmon') with Conda and install all reuquired tools inside the env 'salmon' # install an environment named "salmon" and install package "salmon" conda create -n salmon salmon # -n # activate the "salmon" environment conda activate salmon # install star, cutadapt, trim-galore in the the "salmon" environment conda install -c b..
[ Paper review ] ATAC-seq analysis / pipeline paper review "From reads to insight: a hitchhiker’s guide to ATAC-seq data analysis" published in 2020, Genome biology 1.Pre-analysis: quality control and alignment 1-1. Read trimming * tools : cutadapt, AdapterRemoval v2, Skewer, trimmomatic * Goal : to remove overrepresentation of Nextera sequencing adapters which is often observed * Notes: (1) These tools require the adapter sequences to trim..
t-test 두 데이터를 비교하는데, 보통은 평균을 많이 이용한다. t-test는 평균과 더불어, 데이터가 얼마나 넓게 혹은 얼마나 좁게 분포하는지 보고, 평균값과 함께 이 분산정보를 데이터 비교에 이용한다. 두 데이터의 평균과 그 두 데이터의 차이에서 만들어지는 표준편차 값을 이용해서 평균값을 보정한 t-score 를 계산하고, 이 t-score 와 데이터 수에 상응하는 자유도 값을 이용하여 p-value 를 구한 후, 두 데이터가 유사하다는 귀무가설이 기각되어야 하는지 아닌지 판단하는 것. FOR WHAT * 두 데이터 비교 * 독립성이 없는 두 데이터 비교 ( 실험 전/후 ) : 두 데이터의 차이 값의 평균이 0이다 (귀무) / 아니다 ( 대응표본 t-test ) * 독립성이 있는 두 데이터 비교 ( 다른 두 ..

반응형