Registed Pipeline

No Analysis Type Pipeline Description Detail Info
1 Whole Exome Analysis Pipeline BAC_CLONE_ASSEMBLY_PIPING BAC clone을 통해 생성된 read를 assembly를 통해 유전체를 완성하려면 여려단계의 맵핑과 필터링 단계를 거쳐 최종 assembler 프로그램을 통해 완성시킬수가 있다. 우선 생성한 read를 기존 E.coli genome에 (DB download)에 BWA를 통해 맵핑하여 기존 박테리아에 맵핑되지 않은 unique read를 찾는다. Picard를 이용해 정보를 추가한 다음 맵핑되지 않은 read를 samtools를 이용해 추출한다. 이때 추출된 read의 형태는 bam file형식으로 추출되는데 bamtofastq를 이용해 fastq파일 형태로 변환해준다. Fastqscreen으로 read의 순수도를 측정해주며 Trimmomatic으로 adatopr를 걸러준다. 최종적으로 Ray assembler를 통해 완성된 genome을 생성해낸다.
2 Whole Exome Analysis Pipeline EPISODIC_PERVASIVE_POSITIVE_SELECTION_PIPING 게놈의 진화율을 결정하는 주요요인을 분석하는 방법에는 전통적으로 유전자의 치명도, 유전자의 기능이 개체의 생존에 얼마나 필수적인가하는 것이 그 유전자의 진화율을 결정하는 가장 중요한 요인으로 생각되어져 왔다. 즉 기능이 중요한 유전자는 아주 사소한 돌연변이라 할지라도 그 영향이 심각하여 natural selection에 의해 진화적으로 그 돌연변이가 제거됨으로써, 유전자의 진화가 어렵고, 반대로 기능이 중요하지 않는 유전자는 돌연변이에 대해 어느정도 tolerable 하므로, 진화적으로 그 돌연변이가 게놈에 남아 있을수 있게 되어 진화가 진행될 수 있다고 여겨져왔다. 개체 수준에서의 positive selection은 수많은 생태진화학적 연구를 통해 증명된가 있으며 이를 분자수준의 연구를 통해 증명하고자 하는 연구가 많이 진행되어왔다. 개체간 변이와 개체내 변이 연구를 통계적 기법으로 연구하는 것이 가장 일반적인 것으로 Ka/Ks ratio, McDonald-Krietman test등이 대표적인 예라 할 수 있으며 이 파이프라인은 PAML을 기본으로 한 positive selection을 측정을 중점에 두었다.
3 Whole Exome Analysis Pipeline GERMLINE_CNV_ANLAYSIS_PIPING CNV 분석 중 하나로, mrFast software를 사용하여 Reference genome(hard masked)을 Indexing 하고, 우리의 Sample(PE)을 mrFAST를 이용하여 Reference Genome에 매핑한다. 동시에 mrCaNaVar를 이용하여 CNV 분석을 위한 Reference genome 의 configuration file을 만든다.(시간이 오래 걸림) 그 후, mrFast에 매핑 된 분석하고자 하는 sample의 sam file을 mrCaNaVar를 통해 Read depth와 CNV를 계산 한 뒤, R로 시각화 한다.
4 Whole Exome Analysis Pipeline CANCER_GENOME_VARIANT_ANNOTATION_PIPING SnpSift와 SnpEff를 annotation을 통해 genome variants를 발굴하기 위한 파이프라인으로, 기본적으로 bwa mapping, picard, GATK haplotypCaller variants call 등, GATK를 이용한 best practice form을 따라가고 있다. Normal과 Tumor data에서 calling한 Variants들은 1000genome, hapmap, dbsnp 등 known variants data를 통해 annotation 된다.
5 Whole Exome Analysis Pipeline GENOCORE_PIPING GenoCore는 genotypic error를 최소화 하는 샘플을 filtering하고 모집단을 가장 많이 커버하는 샘플을 선택하고 동시에 diversity가 작은 샘플을 선별한다. 각 단계마다 하나의 샘플을 선택하고 coverage가 특정 cut off를 넘거나 증가율이 특정 cut off를 넘지 않으면 최종 핵심집단을 저장하고 process를 종료한다.
6 Whole Exome Analysis Pipeline HUMAN_DIELECTRIC_VARIATION_ANNOTATION_INFORMATION_PIPING 분석단계는 크게 5개로 분리될 수 있음. 우선 FASTQ파일에서 gVCF 파일까지 생성하는 (Genotyping2.sh) 가 있고, 생성된 gVCF 파일은 step별로 차례로 실행함. 생성된 gVCF 파일을 8개 파라미터를 통해서 필터링하며 snpEff를 이용한 GENCODE human v25로 gene annotation하고 SnpSift를 이용하여 ANNOVAR에서 다운로드 받은 각종데이터베이스를 annotation 함. 얻은 결과를 통합하여 하나의 큰 text 파일로 생성함 (최종 파일 이름은 ${SAMPLE}.annotated.snpEff.extractFields.merged.txt 로 생성됨.
7 Whole Exome Analysis Pipeline ANIMAL_PLANTS_REPEATING_SEQUENCING_PREDICTION_PIPING 반복서열을 판독하는 방법은 크게 2가지로 나뉘는데 기존 reference genome이 있을 경우와 없을때로 나뉜다. 기존 reference가 없을 경우 denovo prediction인 경우에는 repeat library가 존재하지 않기 때문에 prediction을 통해 생성하게 된다. RepeatModeler를 이용하여 기존에 알려진 repeat sequence를 mapping하게 되는데 이때 TRF, RECON의 library를 활용하게 된다. 이렇게 생성된 repeat library 결과를 RepeatMasker를 통해 예측하게 되는데 out파일은 예측된 repeat의 모든 데이터가 담긴 output를 출력하고 또한 -excln 옵션을 활용할시 tbl파일이 나오는데 table형식으로 repeat family에 따라 정리된 데이터를 얻을수 있다. Reference가 존재할 경우 별도의 library의 예측이 필요없이 RepeatMasker의 species 옵션을 참고하여 가장 비슷하거나 맞는 종을 선택해 반복서열을 예측할수 있다. 또한 기존에 알려져있는 반복서열의 protein sequence를 활용한 반복서열의 예측이 두 경우 모두 가능하다. RepeatMasker의 경우 반복서열을 판독하는데에 여러 알고리즘을 사용할수 있는데 abblast/wublast, rmblast, crosslink등의 방법이 있는데 rmblast를 많이 사용하며 protein sequnce를 활용하는 경우 속도개선을 위해 wublast를 선호하는 경향이 있다.
8 Whole Exome Analysis Pipeline NGSGD_PIPING Array-based SNP genotyping technology uses a few markers for gender determination, but they are not applicable to next generation sequencing (NGS) data. Reads from sex chromosomes can be aligned onto opposite chromosomes because they have many homologous regions. It may cause false positive genotyping results. Gender needs be determined a priori before preparing reference genomes for male (XY) and female (XX) to increase accuracy of genotypes of sex chromosomes. This pipeline report an open-source and easy-to-use R script that can determine gender by support vector machine (SVM) classification. It aligns reads onto gender marker sequences extracted from homologous regions between X and Y chromosomes, and counts numbers of mapped reads. NGSGD gives putative genders within a few minutes for Exome-Seq and RNA-Seq data.
9 Whole Exome Analysis Pipeline WHOLE_EXOME_DETECTION_VARIANTS_SNPEFF_ANNOTATION_INFORMATION_PIPING Preprocessing, Variants Calling, Variants Annotation으로 크게 세 가지모듈로 구성된 해당 파이프라인은 다음과 같은 과정으로 분석된다. Preprocessing 단계에서 sequencing library의 quality control을 하기 위해 FastQC를 이용해 먼저 체크한다. 해당 reads의 quality가 낮은 low quality reads를 filtering하기 위해 NGSQCToolkit을 이용해 품질이 안좋은 reads를 걸러낸다. 이렇게 얻어진 forwards reads와 reverse reads를 input으로 사용한다. 우선 bwa index를 이용해 reference를 indexing하고 bwa mem을 이용해 만들어진 index에 mapping한다. 이렇게 얻어진 Binary sequence Alignment/Map(BAM) format file에 reads group name을 붙이고 정렬을 하기 위해 PICARDS의 AddOrReplaceReadsGroup을 사용한다. Mapping과정에서 누락됐을 수 있는 paired-end의 mate information을 고정하기 위해 PICARDS의 FixmateInformation을 사용해 정보를 교정해준다. 마지막으로 mark duplicates단계에서는 PCR duplicates를 제거하기 위해 PICARDS의 MarkDuplicates를 사용한다. Preprocessing이 끝난 Analysis-ready bam file을 이용해 Variants Calling을 하며 Genome Analysis ToolKit(GATK)의 모듈을 사용한다. 우선 library의 base pair quality가 기계적 오류에 민감하기 때문에 이를 sample 전체에서 일정하도록 보정하기 위해 BaseRecalibrator를 사용한다. 그 후 indel주변에서 쉽게 나타날 수 있는 local alignments error를 보정하기 위해 IndelRealigner를 이용하 local alignments를 다시 수행한다. 해당 보정이 끝난 Analysis-ready alignments를 HaplotypeCaller를 이용해 Variants Calling과 local de novo assembly를 수행한다. 해당 과정으로 발굴된 snp와 indel은 false positive가 섞여 있을 수 있으므로 VariantsRecalibrator를 이용해 발굴된 Variants의 Variants Quality Score를 계산하고 이를 이용해 확실한 Variants만을 선별한다. 최종적으로 발굴된 Variants의 유전자 정보와 변이 정보를 확인하기 위해 SnpEff를 사용하여 Annotation한다. 우선 이미 알려진 변이정보와 비교해 보기 위해 database에서 발굴된 변이 위치를 확인한다. 해당되는 database의 변이 정보는 position으로 혹은 region으로 제공되기 때문에 두 가지 모두 확인하여 annotation table을 만든다. 이후 발굴된 돌연변이가 단백질로 번역될 때 나타내는 효과를 예측하기 위해 snpEff를 사용한다. 이렇게 만들어진 두가지 annotation table을 변이 위치마다 표시한 하나로 통합된 파일로 만들어 최종 변이 후보를 선별한다.
10 Whole Exome Analysis Pipeline BIG_DATA_GWAS_PIPING Preprocessing, Variants Calling, Variants Annotation으로 크게 세 가지모듈로 구성된 해당 파이프라인은 다음과 같은 과정으로 분석된다. Preprocessing 단계에서 sequencing library의 quality control을 하기 위해 FastQC와 NGSQCToolkit을 이용해 품질이 안좋은 reads를 걸러낸다. 이렇게 얻어진 forwards reads와 reverse reads를 input으로 사용한다. 우선 bwa index를 이용해 reference를 indexing하고 bwa mem을 이용해 만들어진 index에 mapping한다. reads group name을 붙이고 정렬을 하기 위해 PICARDS의 AddOrReplaceReadsGroup을 사용한다. Mapping과정에서 누락됐을 수 있는 paired end의 mate information을 고정하기 위해 PICARDS의 FixmateInformation을 사용해 정보를 교정해준다. 마지막으로 mark duplicates단계에서는 PCR duplicates를 제거하기 위해 PICARDS의 MarkDuplicates를 사용한다. Preprocessing이 끝난 Analysis_ready bam file을 이용해 Variants Calling을 하며 GATK 모듈을 사용한다. 우선 library의 base pair quality가 기계적 오류에 민감하기 때문에 이를 sample 전체에서 일정하도록 보정하기 위해 BaseRecalibrator를 사용한다. 그 후 indel주변에서 쉽게 나타날 수 있는 local alignments error를 보정하기 위해 IndelRealigner를 이용하 local alignments를 다시 수행한다. 해당 보정이 끝난 Analysis_ready alignments를 HaplotypeCaller를 이용해 Variants Calling과 local de novo assembly를 수행한다. 해당 과정으로 발굴된 snp와 indel은 false positive가 섞여 있을 수 있으므로 VariantsRecalibrator를 이용해 발굴된 Variants의 Variants Quality Score를 계산하고 이를 이용해 확실한 Variants만을 선별한다.