사용 통계

No 분석 파이프라인 이름 설명 이용 횟수
1 RNASeq_TOPHAT2_CUFFLINKS_PIPELINE This pipeline Analyze and processes RNA_seq sample _then it assembles transcripts_ estimates their abundances_ and tests for differential expression and regulation in RNA_Seq samples using CUFFLINK_ 142
2 POSTECH_EPIGENOME_SEQUENCING_FASTQC_BOWTIE_MACS_PIPING 각 단계에서 진행되는 분석 과정은 다음과 같다. Quality control 단계에서 입력 데이터의 sequencing quality를 확인한다. Quality filter 단계에서 데이터 중 quality가 낮은 reads를 제거한다. Alignment 단계에서 참조 서열에 기반 해 데이터를 mapping 한다. Cross correlation 단계에서 그 결과에 대해 quality control을 한다. Peak calling 단계에서 유의미한 부위인 peaks를 탐색한다. 이 때, MACS을 사용한다. Annotation 단계에서는 앞 단계에서 찾은 부위들에 대한 상세한 설명을 덧붙인다. Visualization 단계에서는 mapping 데이터와 peaks 데이터를 시각화 한다. 123
3 RNASeq_EMSAR_PPIPELINE This pipeline Analyze the RNA_seq to get isoform_level esitmates by EMSAR_ and then it will give you gene_level expression level estimates using isoform_level esitmates_ 117
4 RNASeq_STAR_RSEM_PIPELINE This pipeline is an RNA sequencing pipeline that aligns with the STAR program and performs quntification with RSEM. 105
5 RNASeq_STAR_HTSEQ_PIPELINE This pipeline is an RNA sequencing pipeline that aligns with the STAR program and performs quantification with HTSeq. 98
6 POSTECH_EPIGENOME_SEQUENCING_FASTQC_BOWTIE_MACS_PIPELINE 각 단계에서 진행되는 분석 과정은 다음과 같다. Quality control 단계에서 입력 데이터의 sequencing quality를 확인한다. Quality filter 단계에서 데이터 중 quality가 낮은 reads를 제거한다. Alignment 단계에서 참조 서열에 기반 해 데이터를 mapping 한다. Cross correlation 단계에서 그 결과에 대해 quality control을 한다. Peak calling 단계에서 유의미한 부위인 peaks를 탐색한다. 이 때, MACS을 사용한다. Annotation 단계에서는 앞 단계에서 찾은 부위들에 대한 상세한 설명을 덧붙인다. Visualization 단계에서는 mapping 데이터와 peaks 데이터를 시각화 한다. 75
7 GATK_VARIANTS_CALLING_PIPELINE GATK variants calling pipeline (v3.5) 67
8 RNASeq_KALLISTO_PIPELINE This pipeline is an RNA sequencing pipeline that performs pseudo alignment and quntification quickly using the Kallisto program_ 56
9 RNASeq_STARFUSION_PIPELINE STAR_Fusion을 이용한 RNA_Seq에서의 Fusion detection pipeline은 Quality Check와 Alignment _ Fusion Prediction의 총 2단계 과정으로 구성된다_ 각 단계에서 진행되는 분석 과정은 다음과 같다_ 첫 번째 분석 단계인_ Quality Check는 입력 데이터의 sequencing quality를 FastQC로 체크한다_ Alignment _ Fusion Prediction 단계로 넘어가기 전에 reference file_reference genome fasta file_ transcriptome annotation file_ blast matching gene pair file_ fusion annotation file_을 indexing하여 reference index를 생성한다_ 이렇게 얻어진 library index 파일을 reference로 mapping을 진행하고 Fusion prediction 과정을 거치면 최종적으로 fusion_prediction_tsv 파일을 얻게 된다_ 여러 옵션을 사용해서 결과에 annotation을 포함할 수도 있으며 fusion_prediction_tsv파일은 후속 분석에 이용하게 된다_ 54
10 mtDNA_Workflow This repository includes the new mtDNA-Server workflow starting with BAM files. The workflow can be executed locally without transfering any data. For initial read mapping (FASTQ to BAM), we recommend using bwa mem. 49
11 RNASeq_RSEM_VOOM_PIPELINE Quality control_ Adaptive trimming_ Alignment_ Filter reads_ Quantification_ Differential expression 총 6단계의 모듈로 구성된다_ 각 단계에서 진행되는 분석 과정은 다음과 같다_ 첫 번째 분석 단계인_ Quality control은 입력 데이터의 sequencing quality를 FastQC로 체크한다_ 그리고_ Adaptive trimming 단계는 Sickle를 이용하여 입력 데이터의 quality가 낮은reads와 adaptor를 제거한 후_ R1과 R2의pair를 맞춰서 공통 서열을 얻는다_ 이렇게 얻어진 R1과 R2의 공통서열을 Alignment 단계에서 입력으로 활용하여_ Bowtie1을 이용한 reference의 index를 생성하고_ MapSplice2로 mapping한다_ Filter reads 단계는 mapping된 데이터를 입력으로 활용하여 Picard를 이용하여 mapping된 bam file을 정렬한 후_ SamTools로 genomic location 별로 정렬한 후 performace 를 높여주기위해 indexing 한다_ 그 다음 perl script를 이용하여 reference의 순서와 같도록 chromosome order로 재정렬한 후_ Java scrpit를 이용하여 transcriptome을 annotation한 후 Indel_ Insert가 크거나 mapping이 잘되지 않은 read를 제거한다_ 이렇게 얻어진 bam file을 RSEM을 이용하여 Quantification하여 read를 count한다_ 이 과정에서 FPKM_ TPM_ read count값을 얻을 수 있다_ 마지막 Differential expression 단계에서는 R package Limma voom을 이용하여 유전자 transcripts의 expression levels를 비교하여 differentially expressed genes _DEG_를 얻는다. 42
12 DEGs_PIPELINE Tumor와 Normal 그룹의 Expression Value를 계산하고 EdgeR을 이용하여 두 그룹 간 Differential Expression을 분석하는 파이프라인 41
13 VARIANT_ANNOTATION_PIPELINE 정상 조직과 암 조직의 DNA Sequence를 입력 받아 Read Map to Reference_ Read Merge_ CleanUp등의 과정을 거쳐 bam 파일을 만들어주고_ GATK4를 이용하여 보다 빠른 SNV _ InDel의 somatic variant를 찾아_ variant annotate를 수행하는 파이프라인 주는 파이프라인 29
14 POSTECH_INFINIUM450K_RNBEADS_PIPING 각 단계에서 진행되는 분석 과정은 다음과 같다_ 우선 Infinium450K microarray 데이터를 RnBeads 분석에 맞는 RnBSet 객체로 변환한다_ Quality control 단계에서 입력 데이터의 quality를 확인 한 후 SNP_enriched site_ High coverage outlier site_ Low coverage_ Sex chromosome 등 부적합한 데이터를 필터링하고 Normalization을 진행한다_ Explorary analysis 단계에서 유전자 요소 별 메틸화 레벨 프로파일링_ Principal Component Analysis _PCA__ Multidimensional Scaling _MDS__ 클러스터링 등 다양한 글로벌 레벨 분석 수행한다_ Differential methylation analysis에서 샘플간 Methylation 관계를 계산하여 샘플 클러스터링 결과를 보여주고 통계적인 유의성을 표시해준다_ Annotation 단계에서 chromosome site_ color_ context_ GC__ SNP 개수 등의 정보를 얻는다_ Visualization 단계에서 기본적으로 bed 형식 뿐만아니라 다른 트랙허브 사용을 위해 bigbed_ bigwig 형식으로 methylation data를 출력한다_ 위 분석단계는 RnBeads를 이용해 하나의 과정으로 통합하여 진행한다_ 24
15 POSTECH_BROAD_SOURCE_CHIP_SEQ_FASTQC_BWA_MACS2_PIPELINE 각 단계에서 진행되는 분석 과정은 다음과 같다. Quality control 단계에서 입력데이터의 sequencing quality를 확인한다. Quality filter 단계에서 데이터 중 quality가 낮은 reads를 제거한다. Alignment 단계에서 참조 서열에 기반 해 데이터를 mapping 한 후 Mapping이 끝난 데이터의 Mapping Quality 및 duplication level을 확인한다. Visualization 단계에서는 mapping 데이터와 peaks 데이터를 시각화 한다. Peak calling 단계에서 broad-source factor에 특화된 RSEG/SICER/hiddenDomains/BCP/MACS2를 이용해 유의미한 부위인 peak(또는 domain)를 탐색한다. Annotation 단계에서는 앞 단계에서 찾은 부위들에 대한 상세한 설명을 덧붙인다. 19
16 RNASeq_TOPHAT2_CUFFLINKS_PIPING This pipeline Analyze and processes RNA_seq sample _then it assembles transcripts_ estimates their abundances_ and tests for differential expression and regulation in RNA_Seq samples using CUFFLINK_ 14
17 WHOLE_GENOME_SOMATIC_MUTATION_CALLING_PIPELINE_WITH_ANNOTATION 정상 조직과 암 조직의 DNA Sequence를 입력 받아 Read Map to Reference_ Read Merge_ CleanUp등의 과정을 거쳐 bam 파일을 만들어주고_ GATK4를 이용하여 보다 빠른 SNV _ InDel의 somatic variant를 찾아_ variant annotate를 수행하는 파이프라인 주는 파이프라인 10
18 RNASeq_STAR_HTSEQ_PIPING This pipeline is an RNA sequencing pipeline that aligns with the STAR program and performs quantification with HTSeq 9
19 RNASeq_STAR_RSEM_PIPING This pipeline is an RNA sequencing pipeline that aligns with the STAR program and performs quntification with RSEM 9
20 POSTECH_INFINIUM450K_MICROARRAY_ANALYSIS_RNBEADS_PIPELINE 각 단계에서 진행되는 분석 과정은 다음과 같다_ 우선 Infinium450K microarray 데이터를 RnBeads 분석에 맞는 RnBSet 객체로 변환한다_ Quality control 단계에서 입력 데이터의 quality를 확인 한 후 SNP_enriched site_ High coverage outlier site_ Low coverage_ Sex chromosome 등 부적합한 데이터를 필터링하고 Normalization을 진행한다_ Explorary analysis 단계에서 유전자 요소 별 메틸화 레벨 프로파일링_ Principal Component Analysis _PCA__ Multidimensional Scaling _MDS__ 클러스터링 등 다양한 글로벌 레벨 분석 수행한다_ Differential methylation analysis에서 샘플간 Methylation 관계를 계산하여 샘플 클러스터링 결과를 보여주고 통계적인 유의성을 표시해준다_ Annotation 단계에서 chromosome site_ color_ context_ GC__ SNP 개수 등의 정보를 얻는다_ Visualization 단계에서 기본적으로 bed 형식 뿐만아니라 다른 트랙허브 사용을 위해 bigbed_ bigwig 형식으로 methylation data를 출력한다_ 위 분석단계는 RnBeads를 이용해 하나의 과정으로 통합하여 진행한다_ 7
21 COLLECTIVE_GENOME_PCA_KIMURA_PIPING Kimura two parameter를 이용한 PCA와 Phylogentic tree pipe 라인은 총 5단계에 걸쳐서 진행되며, 우선 Pipe의 Output 디렉토리를 생성한 후, 첫 번째로 VCF 파일을 Plink format으로 변환, 두 번 째로, 변환된 Plink format의 파일 중 PED 파일을 Fasta 형식의 파일로 변환한다. 셋째, 이 변한된 Fasta 파일을 이용하여, 모든 샘플에 대한 Kimura two paramter distance의 Pariwise matrix를 생성한다. 넷째, 생성된 Pairwise matrix를 이용하여 PCA의 Plot과, Scree Plot을 그리고, 마지막으로 다시 Pairwise matrix를 이용하여 Phylogenetic tree를 그리고, 추가적으로 MEGA7 등에 이용할 수 있는 Newic format을 생성한다. 5
22 POSTECH_BROAD_SOURCE_CHIP_SEQ_FASTQC_BWA_MACS2_PIPING 각 단계에서 진행되는 분석 과정은 다음과 같다. Quality control 단계에서 입력데이터의 sequencing quality를 확인한다. Quality filter 단계에서 데이터 중 quality가 낮은 reads를 제거한다. Alignment 단계에서 참조 서열에 기반 해 데이터를 mapping 한 후 Mapping이 끝난 데이터의 Mapping Quality 및 duplication level을 확인한다. Visualization 단계에서는 mapping 데이터와 peaks 데이터를 시각화 한다. Peak calling 단계에서 broad-source factor에 특화된 RSEG/SICER/hiddenDomains/BCP/MACS2를 이용해 유의미한 부위인 peak(또는 domain)를 탐색한다. Annotation 단계에서는 앞 단계에서 찾은 부위들에 대한 상세한 설명을 덧붙인다. 5
23 RNASeq_EMSAR_PIPING This pipeline Analyze the RNA_seq to get isoform_level esitmates by EMSAR_ and then it will give you gene_level expression level estimates using isoform_level esitmates 4
24 RNASeq_STARFUSION_PIPING STAR_Fusion을 이용한 RNA_Seq에서의 Fusion detection pipeline은 Quality Check와 Alignment _ Fusion Prediction의 총 2단계 과정으로 구성된다_ 각 단계에서 진행되는 분석 과정은 다음과 같다_ 첫 번째 분석 단계인_ Quality Check는 입력 데이터의 sequencing quality를 FastQC로 체크한다_ Alignment _ Fusion Prediction 단계로 넘어가기 전에 reference file_reference genome fasta file_ transcriptome annotation file_ blast matching gene pair file_ fusion annotation file_을 indexing하여 reference index를 생성한다_ 이렇게 얻어진 library index 파일을 reference로 mapping을 진행하고 Fusion prediction 과정을 거치면 최종적으로 fusion_prediction_tsv 파일을 얻게 된다_ 여러 옵션을 사용해서 결과에 annotation을 포함할 수도 있으며 fusion_prediction_tsv파일은 후속 분석에 이용하게 된다. 3
25 RNASeq_RSEM_VOOM_PIPING Quality control Adaptive trimming_ Alignment_ Filter reads_ Quantification_ Differential expression 총 6단계의 모듈로 구성된다_ 각 단계에서 진행되는 분석 과정은 다음과 같다_ 첫 번째 분석 단계인_ Quality control은 입력 데이터의 sequencing quality를 FastQC로 체크한다_ 그리고_ Adaptive trimming 단계는 Sickle를 이용하여 입력 데이터의 quality가 낮은reads와 adaptor를 제거한 후_ R1과 R2의pair를 맞춰서 공통 서열을 얻는다_ 이렇게 얻어진 R1과 R2의 공통서열을 Alignment 단계에서 입력으로 활용하여_ Bowtie1을 이용한 reference의 index를 생성하고_ MapSplice2로 mapping한다_ Filter reads 단계는 mapping된 데이터를 입력으로 활용하여 Picard를 이용하여 mapping된 bam file을 정렬한 후_ SamTools로 genomic location 별로 정렬한 후 performace 를 높여주기위해 indexing 한다_ 그 다음 perl script를 이용하여 reference의 순서와 같도록 chromosome order로 재정렬한 후_ Java scrpit를 이용하여 transcriptome을 annotation한 후 Indel_ Insert가 크거나 mapping이 잘되지 않은 read를 제거한다_ 이렇게 얻어진 bam file을 RSEM을 이용하여 Quantification하여 read를 count한다_ 이 과정에서 FPKM_ TPM_ read count값을 얻을 수 있다_ 마지막 Differential expression 단계에서는 R package Limma voom을 이용하여 유전자 transcripts의 expression levels를 비교하여 differentially expressed genes DEG를 얻는다. 3
26 RNASeq_KALLISTO_PIPING This pipeline is an RNA sequencing pipeline that performs pseudo alignment and quntification quickly using the Kallisto program 2
27 COLLECTIVE_GENOME_PCA_R_PIPING 이 파이프라인은 Sample sequence data로부터 샘플 간 distance를 계산하고, 이것으로부터 주성분분석을 실행하여 PCA plot을 생성하고, neighbor-joining 방법을 이용하여 phylogenetic tree를 생성하며, R의 MST 패키지를 이용하여 bayesian tree와 VisAnt에서 tree를 편집할 수 있는 input 파일을 제공한다. 2
28 CANCER_XENOGRAFT_GENOME_ANALYSIS_PIPING 기본적으로는 일반적인 CanerGenome pipeline과 유사한 구조를 띠고 있으나, Xenograft genome을 분석하기 위해 mapping 과정에서 약간의 공정이 추가되어 있다. Tumor human, Normal Human, Tumor xenograft 에 해당하는 raw data를 인간 유전체 기준으로 분석하기 위해서 Xenograft genome은 human reference와 model 동물의 reference 둘 다에 mapping 한 다음 model genome에 해당하는 Reads를 filtering하는 과정이 존재한다. filtering 된 data는 나머지 2개의 data와 함께 GATK_HaplotypeCaller와 SnpEff_ SnpSift를 통해 variant calling과 annotation이 이루어진다. 2
29 BIG_DATA_GWAS_PIPING Preprocessing, Variants Calling, Variants Annotation으로 크게 세 가지모듈로 구성된 해당 파이프라인은 다음과 같은 과정으로 분석된다. Preprocessing 단계에서 sequencing library의 quality control을 하기 위해 FastQC와 NGSQCToolkit을 이용해 품질이 안좋은 reads를 걸러낸다. 이렇게 얻어진 forwards reads와 reverse reads를 input으로 사용한다. 우선 bwa index를 이용해 reference를 indexing하고 bwa mem을 이용해 만들어진 index에 mapping한다. reads group name을 붙이고 정렬을 하기 위해 PICARDS의 AddOrReplaceReadsGroup을 사용한다. Mapping과정에서 누락됐을 수 있는 paired end의 mate information을 고정하기 위해 PICARDS의 FixmateInformation을 사용해 정보를 교정해준다. 마지막으로 mark duplicates단계에서는 PCR duplicates를 제거하기 위해 PICARDS의 MarkDuplicates를 사용한다. Preprocessing이 끝난 Analysis_ready bam file을 이용해 Variants Calling을 하며 GATK 모듈을 사용한다. 우선 library의 base pair quality가 기계적 오류에 민감하기 때문에 이를 sample 전체에서 일정하도록 보정하기 위해 BaseRecalibrator를 사용한다. 그 후 indel주변에서 쉽게 나타날 수 있는 local alignments error를 보정하기 위해 IndelRealigner를 이용하 local alignments를 다시 수행한다. 해당 보정이 끝난 Analysis_ready alignments를 HaplotypeCaller를 이용해 Variants Calling과 local de novo assembly를 수행한다. 해당 과정으로 발굴된 snp와 indel은 false positive가 섞여 있을 수 있으므로 VariantsRecalibrator를 이용해 발굴된 Variants의 Variants Quality Score를 계산하고 이를 이용해 확실한 Variants만을 선별한다. 2
30 COLLECTIVE_GENOME_BETWEEN_GROUPS_XP_EHH_CALCULATION_PIPING XP-EHH software를 이용하여 WG 두 그룹간의 haplotype 동질성을 이용하여 Positive selection된 부근을 통계적으로 찾고, Manhattan plot으로 시각화하는 Pipe 라인은 총 7단계에 걸쳐서 진행되며, 우선 Pipe의 Output 디렉토리를 생성한 후, 첫 째로 각 그룹의 VCF 파일을 Impute format으로 변환하고, 둘째, 변환된 각 그룹의 Imput 파일 중 hap 파일을 각 그룹에 대한 XPEHH input 파일로 변환한다. 셋 째, XPEHH를 계산하기위한 Reference file(=Map file)을 생성하기 위해, 전체 VCF를 이용하여 Map 파일을 생성한다. 넷 째, 두 그룹에 대한 XPEHH input 파일과 Map 파일을 이용하여 XPEHH를 계산한다. 다섯 째, 계산된 XPEHH outfile을 Plot을 그리기 위한 파일을 재조정하기 위하여 전체 VCF를 이용하여 Plot을 그리기 위한 input file을 생성한다. 그리고 마지막으로 두 그룹에 대한 XPEHH output을 Manhattan plot으로 시각화 한다. 1
31 GERMLINE_CNV_ANLAYSIS_PIPING CNV 분석 중 하나로, mrFast software를 사용하여 Reference genome(hard masked)을 Indexing 하고, 우리의 Sample(PE)을 mrFAST를 이용하여 Reference Genome에 매핑한다. 동시에 mrCaNaVar를 이용하여 CNV 분석을 위한 Reference genome 의 configuration file을 만든다.(시간이 오래 걸림) 그 후, mrFast에 매핑 된 분석하고자 하는 sample의 sam file을 mrCaNaVar를 통해 Read depth와 CNV를 계산 한 뒤, R로 시각화 한다. 1
32 CANCER_GENOME_VARIANT_ANNOTATION_PIPING SnpSift와 SnpEff를 annotation을 통해 genome variants를 발굴하기 위한 파이프라인으로, 기본적으로 bwa mapping, picard, GATK haplotypCaller variants call 등, GATK를 이용한 best practice form을 따라가고 있다. Normal과 Tumor data에서 calling한 Variants들은 1000genome, hapmap, dbsnp 등 known variants data를 통해 annotation 된다. 1
33 HUMAN_DIELECTRIC_VARIATION_ANNOTATION_INFORMATION_PIPING 분석단계는 크게 5개로 분리될 수 있음. 우선 FASTQ파일에서 gVCF 파일까지 생성하는 (Genotyping2.sh) 가 있고, 생성된 gVCF 파일은 step별로 차례로 실행함. 생성된 gVCF 파일을 8개 파라미터를 통해서 필터링하며 snpEff를 이용한 GENCODE human v25로 gene annotation하고 SnpSift를 이용하여 ANNOVAR에서 다운로드 받은 각종데이터베이스를 annotation 함. 얻은 결과를 통합하여 하나의 큰 text 파일로 생성함 (최종 파일 이름은 ${SAMPLE}.annotated.snpEff.extractFields.merged.txt 로 생성됨. 1
34 NGSGD_PIPING Array-based SNP genotyping technology uses a few markers for gender determination, but they are not applicable to next generation sequencing (NGS) data. Reads from sex chromosomes can be aligned onto opposite chromosomes because they have many homologous regions. It may cause false positive genotyping results. Gender needs be determined a priori before preparing reference genomes for male (XY) and female (XX) to increase accuracy of genotypes of sex chromosomes. This pipeline report an open-source and easy-to-use R script that can determine gender by support vector machine (SVM) classification. It aligns reads onto gender marker sequences extracted from homologous regions between X and Y chromosomes, and counts numbers of mapped reads. NGSGD gives putative genders within a few minutes for Exome-Seq and RNA-Seq data. 1
35 WHOLE_EXOME_DETECTION_VARIANTS_SNPEFF_ANNOTATION_INFORMATION_PIPING Preprocessing, Variants Calling, Variants Annotation으로 크게 세 가지모듈로 구성된 해당 파이프라인은 다음과 같은 과정으로 분석된다. Preprocessing 단계에서 sequencing library의 quality control을 하기 위해 FastQC를 이용해 먼저 체크한다. 해당 reads의 quality가 낮은 low quality reads를 filtering하기 위해 NGSQCToolkit을 이용해 품질이 안좋은 reads를 걸러낸다. 이렇게 얻어진 forwards reads와 reverse reads를 input으로 사용한다. 우선 bwa index를 이용해 reference를 indexing하고 bwa mem을 이용해 만들어진 index에 mapping한다. 이렇게 얻어진 Binary sequence Alignment/Map(BAM) format file에 reads group name을 붙이고 정렬을 하기 위해 PICARDS의 AddOrReplaceReadsGroup을 사용한다. Mapping과정에서 누락됐을 수 있는 paired-end의 mate information을 고정하기 위해 PICARDS의 FixmateInformation을 사용해 정보를 교정해준다. 마지막으로 mark duplicates단계에서는 PCR duplicates를 제거하기 위해 PICARDS의 MarkDuplicates를 사용한다. Preprocessing이 끝난 Analysis-ready bam file을 이용해 Variants Calling을 하며 Genome Analysis ToolKit(GATK)의 모듈을 사용한다. 우선 library의 base pair quality가 기계적 오류에 민감하기 때문에 이를 sample 전체에서 일정하도록 보정하기 위해 BaseRecalibrator를 사용한다. 그 후 indel주변에서 쉽게 나타날 수 있는 local alignments error를 보정하기 위해 IndelRealigner를 이용하 local alignments를 다시 수행한다. 해당 보정이 끝난 Analysis-ready alignments를 HaplotypeCaller를 이용해 Variants Calling과 local de novo assembly를 수행한다. 해당 과정으로 발굴된 snp와 indel은 false positive가 섞여 있을 수 있으므로 VariantsRecalibrator를 이용해 발굴된 Variants의 Variants Quality Score를 계산하고 이를 이용해 확실한 Variants만을 선별한다. 최종적으로 발굴된 Variants의 유전자 정보와 변이 정보를 확인하기 위해 SnpEff를 사용하여 Annotation한다. 우선 이미 알려진 변이정보와 비교해 보기 위해 database에서 발굴된 변이 위치를 확인한다. 해당되는 database의 변이 정보는 position으로 혹은 region으로 제공되기 때문에 두 가지 모두 확인하여 annotation table을 만든다. 이후 발굴된 돌연변이가 단백질로 번역될 때 나타내는 효과를 예측하기 위해 snpEff를 사용한다. 이렇게 만들어진 두가지 annotation table을 변이 위치마다 표시한 하나로 통합된 파일로 만들어 최종 변이 후보를 선별한다. 1
No 분석 프로그램 설명 형태 이용 횟수
1 big_bwa_mem Hadoop to boost the performance of the Burrows-Wheeler Aligner (BWA - works by seeding alignments with maximal exact matches (MEMs) and then extending seeds with the affine-gap Smith-Waterman algorithm (SW)). (Hadoop 기반으로 BWA의 affine-gap Swmith-Watemant 알고리즘으로 시드를 확장하여 정렬하는 과정) HADOOP 4
2 bowtie2_build bowtie2-build builds a Bowtie index from a set of DNA sequences. bowtie2-build outputs a set of 6 files with suffixes .1.bt2, .2.bt2, .3.bt2, .4.bt2, .rev.1.bt2, and .rev.2.bt2. LINUX 41
3 bowtie_build bowtie-build builds a Bowtie index from a set of DNA sequences. bowtie-build outputs a set of 6 files with suffixes .1.ebwt, .2.ebwt, .3.ebwt, .4.ebwt, .rev.1.ebwt, and .rev.2.ebwt. (If the total length of all the input sequences is greater than about 4 billion, then the index files will end in ebwtl instead of ebwt LINUX 43
4 bwa_aln_sampe Find the SA coordinates of the input reads. Maximum maxSeedDiff differences are allowed in the first seedLen subsequence and maximum maxDiff differences are allowed in the whole sequencea enerate alignments in the SAM format given paired-end reads. Repetitive read pairs will be placed randomly LINUX 1
5 bwa_index Index database sequences in the FASTA format LINUX 139
6 bwa_mem Align 70bp-1Mbp query sequences with the BWA-MEM algorithm. Briefly, the algorithm works by seeding alignments with maximal exact matches (MEMs) and then extending seeds with the affine-gap Smith-Waterman algorithm (SW) LINUX 141
7 cmpfastq A simple perl program that allows the user to compare QC filtered fastq files LINUX 18
8 cuffdiff Comparing expression levels of genes and transcripts in RNA-Seq experiments is a hard problem. Cuffdiff is a highly accurate tool for performing these comparisons, and can tell you not only which genes are up- or down-regulated between two or more conditions, but also which genes are differentially spliced or are undergoing other types of isoform-level regulation LINUX 47
9 cufflinks Cufflinks is both the name of a suite of tools and a program within that suite. Cufflinks the program assembles transcriptomes from RNA-Seq data and quantifies their expression LINUX 48
10 decompress This program decompresses compressed files(tar.gz, tar.bz2, tar.xz, tar, gz, bz2, xz, zip) LINUX 6
11 fastqc FastQC aims to provide a simple way to do some quality control checks on raw sequence data coming from high throughput sequencing pipelines. It provides a modular set of analyses which you can use to give a quick impression of whether your data has any problems of which you should be aware before doing any further analysis LINUX 222
12 gatk4_applybqsr Apply base quality score recalibration This tool performs the second pass in a two-stage process called Base Quality Score Recalibration (BQSR). Specifically, it recalibrates the base qualities of the input reads based on the recalibration table produced by the BaseRecalibrator tool, and outputs a recalibrated BAM or CRAM file LINUX 27
13 gatk4_baserecalibrator First pass of the base quality score recalibration. Generates a recalibration table based on various covariates. The default covariates are read group, reported quality score, machine cycle, and nucleotide context. This walker generates tables based on specified covariates. It does a by-locus traversal operating only at sites that are in the known sites VCF. ExAc, gnomAD, or dbSNP resources can be used as known sites of variation. We assume that all reference mismatches we see are therefore errors and indicative of poor base quality. Since there is a large amount of data one can then calculate an empirical probability of error given the particular covariates seen at this site, where p(error) = num mismatches / num observations. The output file is a table (of the several covariate values, num observations, num mismatches, empirical quality score) LINUX 27
14 gatk4_filtermutectcalls Filtering thresholds for both normal-artifact-lod (default threshold 0.0) and tumor-lod (default threshold 5.3) can be set in this tool. If the normal artifact log odds is larger than the threshold, then FilterMutectCalls applies the artifact-in-normal filter. For matched normal analyses with tumor contamination in the normal, consider increasing the normal-artifact-lod threshold. If the tumor log odds is smaller than the threshold, then FilterMutectCalls filters the variant. LINUX 27
15 gatk4_indexfeaturefile This tool creates an index file for the various kinds of feature-containing files supported by GATK (such as VCF and BED files). An index allows querying features by a genomic interval LINUX 27
16 gatk4_mutect2 Call somatic short variants via local assembly of haplotypes. Short variants include single nucleotide (SNV) and insertion and deletion (indel) variants. The caller combines the DREAM challenge-winning somatic genotyping engine of the original MuTect (Cibulskis et al., 2013) with the assembly-based machinery of HaplotypeCaller. LINUX 27
17 gatk_analyzecovariates_single Evaluate and compare base quality score recalibration tables This tool generates plots to assess the quality of a recalibration run as part of the Base Quality Score Recalibration (BQSR) procedure. Summary of the BQSR procedure The goal of this procedure is to correct for systematic bias that affects the assignment of base quality scores by the sequencer. The first pass consists of calculating error empirically and finding patterns in how error varies with basecall features over all bases. The relevant observations are written to a recalibration table. The second pass consists of applying numerical corrections to each individual basecall based on the patterns identified in the first step (recorded in the recalibration table) and writing out the recalibrated data to a new BAM or CRAM file. (with single file) LINUX 89
18 gatk_baserecalibrator First pass of the base quality score recalibration. Generates a recalibration table based on various covariates. The default covariates are read group, reported quality score, machine cycle, and nucleotide context. This walker generates tables based on specified covariates. It does a by-locus traversal operating only at sites that are in the known sites VCF. ExAc, gnomAD, or dbSNP resources can be used as known sites of variation. We assume that all reference mismatches we see are therefore errors and indicative of poor base quality. Since there is a large amount of data one can then calculate an empirical probability of error given the particular covariates seen at this site, where p(error) = num mismatches / num observations. The output file is a table (of the several covariate values, num observations, num mismatches, empirical quality score) LINUX 106
19 gatk_haplotypecaller Call germline SNPs and indels via local re-assembly of haplotypes The HaplotypeCaller is capable of calling SNPs and indels simultaneously via local de-novo assembly of haplotypes in an active region. In other words, whenever the program encounters a region showing signs of variation, it discards the existing mapping information and completely reassembles the reads in that region. This allows the HaplotypeCaller to be more accurate when calling regions that are traditionally difficult to call, for example when they contain different types of variants close to each other. It also makes the HaplotypeCaller much better at calling indels than position-based callers like UnifiedGenotyper. In the GVCF workflow used for scalable variant calling in DNA sequence data, HaplotypeCaller runs per-sample to generate an intermediate GVCF (not to be used in final analysis), which can then be used in GenotypeGVCFs for joint genotyping of multiple samples in a very efficient way. The GVCF workflow enables rapid incremental processing of samples as they roll off the sequencer, as well as scaling to very large cohort sizes LINUX 76
20 gatk_indelrealigner The local realignment process is designed to consume one or more BAM files and to locally realign reads such that the number of mismatching bases is minimized across all the reads. In general, a large percent of regions requiring local realig ment are due to the presence of an insertion or deletion (indels) in the individual’s genome with respect to the reference genome. Such alignment artifacts result in many bases mismatching the reference near the misalignment, which are easily mistaken as SNPs. Moreover, since read mapping algorithms operate on each read independently, it is impossible to place reads on the reference genome such at mismatches are minimized across all reads. Consequently, even when some reads are correctly mapped with indels, reads covering the indel near just the start or end of the read are often incorrectly mapped with respect the true indel, also requiring realignment. Local realignment serves to transform regions with misalignments due to indels into clean reads containing a consensus indel suitable for standard variant discovery approaches LINUX 124
21 gatk_printreads Write reads from SAM format file (SAM/BAM/CRAM) that pass criteria to a new file. A common use case is to subset reads by genomic interval using the -L argument. Note when applying genomic intervals, the tool is literal and does not retain mates of paired-end reads outside of the interval, if any. Data with missing mates will fail ValidateSamFile validation with MATE_NOT_FOUND, but certain tools may still analyze the data. If needed, to rescue such mates, use either FilterSamReads or ExtractOriginalAlignmentRecordsByNameSpark.By default, PrintReads applies the WellformedReadFilter at the engine level. What this means is that the tool does not print reads that fail the WellformedReadFilter filter. You can similarly apply other engine-level filters to remove specific types of reads with the --read-filter argument. See documentation category 'Read Filters' for a list of available filters. To keep reads that do not pass the WellformedReadFilter, either disable the filter with --disable-read-filter or disable all default filters with --disable-tool-default-read-filters. The reference is strictly required when handling CRAM files. LINUX 123
22 gatk_realignertargetcreator Define intervals to target for local realignment LINUX 124
23 gatk_selectvariants Select a subset of variants from a VCF file This tool makes it possible to select a subset of variants based on various criteria in order to facilitate certain analyses. Examples of such analyses include comparing and contrasting cases vs. controls, extracting variant or non-variant loci that meet certain requirements,or troubleshooting some unexpected results, to name a few LINUX 75
24 gatk_variantannotator This tool is designed to annotate variant calls based on their context (as opposed to functional annotation). Various annotation modules are available; see the "Annotation Modules" page linked in the Tool Documentation sidebar for a complete list. LINUX 27
25 gatk_variantfiltration Filter variant calls based on INFO and/or FORMAT annotations This tool is designed for hard-filtering variant calls based on certain criteria. Records are hard-filtered by changing the value in the FILTER field to something other than PASS. Filtered records will be preserved in the output unless their removal is requested in the command line LINUX 18
26 gtf2bed A program that converts the gtf format file to bed format LINUX 15
27 hadoop_bam_cat Hadoop-BAM is a Java library for the manipulation of files in common bioinformatics formats using the Hadoop MapReduce framework with the Picard SAM JDK, and command line tools similar to SAMtools. Cat is concatenation of partial SAM and BAM files HADOOP 1
28 hadoop_bam_fixmate Hadoop-BAM is a Java library for the manipulation of files in common bioinformatics formats using the Hadoop MapReduce framework with the Picard SAM JDK, and command line tools similar to SAMtools. Fixmate algorism has BAM and SAM mate information fixing HADOOP 1
29 hadoop_bam_index Hadoop-BAM is a Java library for the manipulation of files in common bioinformatics formats using the Hadoop MapReduce framework with the Picard SAM JDK, and command line tools similar to SAMtools. Index algorism is indexing BAM file HADOOP 1
30 hadoop_bam_sort Hadoop-BAM is a Java library for the manipulation of files in common bioinformatics formats using the Hadoop MapReduce framework with the Picard SAM JDK, and command line tools similar to SAMtools. Sort algorism does sorting and merging BAM or SAM file HADOOP 1
31 hadoop_blastp An algorithm for comparing primary biological sequence information, such as the amino-acid sequences of different proteins or the nucleotides of DNA sequences, based on hadoop.(Hadoop 기반의 단백질의 아미노선 서열 또는 DNA 서열의 nucleotides와 같은 생물학적 서열 정보를 비교하는 과정) HADOOP 2
32 haplogrep We provide a fast and free haplogroup classification web service. You can upload your mtDNA profiles aligned to rCRS or RSRS and receive mitochondrial haplogroups in return. So far, HaploGrep and the updated HaploGrep 2 have been cited over 400 times (Google Scholar - June 2018). Please join our HaploGrep Google User Group for future updates and ongoing discussions. LINUX 10
33 htseq_count This script takes one or more alignment files in SAM/BAM format and a feature file in GFF ormat and calculates for each feature the number of reads mapping to it LINUX 2
34 indexing_fai_dict samtools_faidx Index reference sequence in the FASTA format or extract subsequence from indexed reference sequence. If no region is specified, faidx will index the file and create .fai on the disk. If regions are specified, the subsequences will be retrieved and printed to stdout in the FASTA format. Picard_CreateSequenceDictionary Creates a sequence dictionary for a reference sequence. This tool creates a sequence dictionary file (with ".dict" extension) from a reference sequence provided in FASTA format, which is required by many processing and analysis tools. The output file contains a header but no SAMRecords, and the header contains only sequence records LINUX 47
35 mapsplice2 MapSplice is a software for mapping RNA-seq data to reference genome for splice junction discovery that depends only on reference genome, and not on any further annotations LINUX 21
36 mitolib_contchecker Compare mitochondrial profiles from extended report in HaploGrep 2 LINUX 10
37 mitolib_splitter Split mitochondrial variants and heteroplasmies from mtDNA-Server (https://mtdna-server.uibk.ac.at) - in profilesfor HaploGrep 2 LINUX 10
38 mitolib_variants2hsd Create Haplogrep Input for stable variants. LINUX 10
39 mutation_analyse_local Mutation-Server Core is a Java library to detect heteroplasmic and homoplasmic sites in mtDNA data. It is especially used for mtDNA-Server. For scalability, Mutation-Server Core is parallelized with Hadoop MapReduce but is also available as a standalone tool. LINUX 10
40 picard_addorreplacereadgroups Replace read groups in a BAM file.This tool enables the user to replace all read groups in the INPUT file with a single new read group and assign all reads to this read group in the OUTPUT BAM file LINUX 172
41 picard_createsequencedictionary Creates a sequence dictionary for a reference sequence. This tool creates a sequence dictionary file (with ".dict" extension) from a reference sequence provided in FASTA format, which is required by many processing and analysis tools. The output file contains a header but no SAMRecords, and the header contains only sequence records. LINUX 99
42 picard_fixmateinformation Verify mate-pair information between mates and fix if needed.This tool ensures that all mate-pair information is in sync between each read and its mate pair. If no OUTPUT file is upplied then the output is written to a temporary file and then copied over the INPUT file. eads marked with the secondary alignment flag are written to the output file unchanged LINUX 132
43 picard_markduplicates Replace read groups in a BAM file.This tool enables the user to replace all read groups in the INPUT file with a single new read group and assign all reads to this read group in the OUTPUT BAM file LINUX 151
44 picard_sortsam Sorts a SAM or BAM file. This tool sorts the input SAM or BAM file by coordinate, queryname (QNAME), or some other property of the SAM record. The SortOrder of a SAM/BAM file is found in the SAM file header tag @HD in the field labeled SO. LINUX 142
45 rsem_calculate_expression_for_bam Aligns input reads against a reference transcriptome with Bowtie and calculates expression values using the alignments (with bam) LINUX 15
46 rsem_edger RSEM output을 받아 edgeR 을 사용하는 DEGs analysis pipeline LINUX 16
47 rsem_prepare_reference Building references from a genome. RSEM can extract transcript sequences from the genome based on a given GTF file (with bowtie2) LINUX 36
48 samtools_faidx Index reference sequence in the FASTA format or extract subsequence from indexed reference sequence. If no region is specified, faidx will index the file and create .fai on the disk. If regions are specified, the subsequences will be retrieved and printed to stdout in the FASTA format LINUX 100
49 samtools_index Index a coordinate-sorted BAM or CRAM file for fast random access. (Note that this does not work with SAM files even if they are bgzip compressed to index such files, use tabix(1)instead.) LINUX 95
50 samtools_sort Sort alignments by leftmost coordinates, or by read name when -n is used. An appropriate @HD-SO sort order header tag will be added or an existing one updated if necessary LINUX 36
51 samtools_view With no options or regions specified, prints all alignments in the specified input alignment file (in SAM, BAM, or CRAM format) to standard output in SAM format (with no header) LINUX 110
52 sickle_pe Sickle is a tool that uses sliding windows along with quality and length thresholds to determine when quality is sufficiently low to trim the 3'-end of reads and also determines when the quality is sufficiently high enough to trim the 5'-end of reads (with pair file) LINUX 203
53 spark_bwa_mem SparkBWA MEM is a tool that integrates the Burrows-Wheeler Aligner--BWA on a Apache Spark framework running on the top of Hadoop HADOOP 2
54 star_genomegenerate Build index with reference LINUX 16
55 tophat2 TopHat is a fast splice junction mapper for RNA-Seq reads. It aligns RNA-Seq reads to mammalian-sized genomes using the ultra high-throughput short read aligner Bowtie, and then analyzes the mapping results to identify splice junctions between exons LINUX 45
56 ubu_sam_filter Filter reads from a paired end SAM or BAM file (only outputs paired reads) LINUX 15
57 ubu_sam_xlate Translate from genome to transcriptome coordinates LINUX 15
58 ubu_sort_bam Parameterize samtools properly (Alignment를 마친 BAM File 을 reference 순서와 같도록 chromosome 별로 정렬 하는 과정) LINUX 36
59 vina Vina is an open-source program for doing molecular docking. Vina is one of the two generations of distributions of AutoDock. This software uses a sophisticated gradient optimization method in its local optimization procedure. The calculation of the gradient effectively gives the optimization algorithm a “sense of direction” from a single evaluation. By using multithreading, this software can further speed up the execution by taking advantage of multiple CPUs or CPU cores LINUX 2