Registed Pipeline

No Analysis Type Pipeline Description Detail Info
1 Whole Exome Analysis Pipeline BIG_DATA_GWAS_PIPING Preprocessing, Variants Calling, Variants Annotation으로 크게 세 가지모듈로 구성된 해당 파이프라인은 다음과 같은 과정으로 분석된다. Preprocessing 단계에서 sequencing library의 quality control을 하기 위해 FastQC와 NGSQCToolkit을 이용해 품질이 안좋은 reads를 걸러낸다. 이렇게 얻어진 forwards reads와 reverse reads를 input으로 사용한다. 우선 bwa index를 이용해 reference를 indexing하고 bwa mem을 이용해 만들어진 index에 mapping한다. reads group name을 붙이고 정렬을 하기 위해 PICARDS의 AddOrReplaceReadsGroup을 사용한다. Mapping과정에서 누락됐을 수 있는 paired end의 mate information을 고정하기 위해 PICARDS의 FixmateInformation을 사용해 정보를 교정해준다. 마지막으로 mark duplicates단계에서는 PCR duplicates를 제거하기 위해 PICARDS의 MarkDuplicates를 사용한다. Preprocessing이 끝난 Analysis_ready bam file을 이용해 Variants Calling을 하며 GATK 모듈을 사용한다. 우선 library의 base pair quality가 기계적 오류에 민감하기 때문에 이를 sample 전체에서 일정하도록 보정하기 위해 BaseRecalibrator를 사용한다. 그 후 indel주변에서 쉽게 나타날 수 있는 local alignments error를 보정하기 위해 IndelRealigner를 이용하 local alignments를 다시 수행한다. 해당 보정이 끝난 Analysis_ready alignments를 HaplotypeCaller를 이용해 Variants Calling과 local de novo assembly를 수행한다. 해당 과정으로 발굴된 snp와 indel은 false positive가 섞여 있을 수 있으므로 VariantsRecalibrator를 이용해 발굴된 Variants의 Variants Quality Score를 계산하고 이를 이용해 확실한 Variants만을 선별한다.
2 Whole Exome Analysis Pipeline CANCER_XENOGRAFT_GENOME_ANALYSIS_PIPING 기본적으로는 일반적인 CanerGenome pipeline과 유사한 구조를 띠고 있으나, Xenograft genome을 분석하기 위해 mapping 과정에서 약간의 공정이 추가되어 있다. Tumor human, Normal Human, Tumor xenograft 에 해당하는 raw data를 인간 유전체 기준으로 분석하기 위해서 Xenograft genome은 human reference와 model 동물의 reference 둘 다에 mapping 한 다음 model genome에 해당하는 Reads를 filtering하는 과정이 존재한다. filtering 된 data는 나머지 2개의 data와 함께 GATK_HaplotypeCaller와 SnpEff_ SnpSift를 통해 variant calling과 annotation이 이루어진다.