医疗智能体 EIHEALTH-执行分析作业:配置输入和依赖数据
配置输入和依赖数据
NGS流程中涉及的输入、输出和依赖数据如表1所示。配置数据前,请先参考上传数据,上传原始Fastq文件和依赖数据。
如果在创建应用时打开了“并发”开关,可以设置多个参数值,批量执行作业。
数据上传完成后,在流程设计器页面,分别单击应用参数左侧图标,设置输入和依赖数据。NGS流程中输入输出参数说明如表2所示。
类别 |
类型 |
说明 |
---|---|---|
输入 |
Fastq |
输入基于二代测序得到的原始Fastq文件,支持来源于多个barcode和路径的输入。 |
依赖 |
Reference Genome |
输入的参考基因组序列,已经通过bwa构建了index。 |
依赖 |
Variant Sets |
GATK4在做Variant Calling阶段需要输入的参考Variants数据集。 |
输出 |
FastQC Report |
原始测序数据的质控报告,以HTML文件形式展示。 |
输出 |
BamQC Report |
测序比对数据的质量控制报告,以HTML文件的形式展示。 |
输出 |
VCF |
样本的突变信息,包含有SNP和INDEL信息,以VCF的格式存储。 |
输出 |
VCF Report |
样本突变信息的质量控制报告,以HTML文件的形式展示。 |
应用名称 |
参数 |
名称 |
类型 |
说明 |
---|---|---|---|---|
fastp |
输入参数 |
fastq-file1 |
file |
二代测序fastq的Read1文件。 |
fastq-file2 |
file |
二代测序fastq的Read2文件。 |
||
输出参数 |
fq-file1 |
file |
Read1过滤之后输出fq.gz文件。 |
|
fq-file2 |
file |
Read2过滤之后输出fq.gz文件 |
||
json-file |
file |
以JSON文件的格式输出的质控报告。 |
||
html-file |
file |
以HTML的格式输出易于阅读的质控报告。 |
||
bwa-mem |
输入参数 |
fq-file1 |
file |
测序得到的fastq1文件。 |
fa-file2 |
file |
测序得到的fastq2文件。 |
||
ref-file |
file |
参考基因组序列。 |
||
seq-platform |
string |
测序平台,如MGI、Illumina。 |
||
sample-id |
string |
文件前缀,如NA12878。 |
||
输出参数 |
sorted-bam |
file |
比对和排序之后得到的bam文件。 |
|
flagstat-file |
file |
基于bam做统计。 |
||
qualimap-bamqc |
输入参数 |
bam-file |
file |
输入已经排序好的bam文件。 |
输出参数 |
out-dir |
directory |
质控报告的输出目录。 |
|
picard-insertsize |
输入参数 |
bam-file |
file |
经过比对和排序之后得到的bam文件。 |
ref-file |
file |
参考基因组序列。 |
||
输出参数 |
insertsize-txt |
file |
输出的insert size分布的文本文件。 |
|
insertsize-pdf |
file |
输出的insert size分布的pdf文件。 |
||
gatk-markduplicates |
输入参数 |
bam-file |
file |
输入比对之后经过sort的bam文件。 |
输出参数 |
out-dir |
directory |
经过gatk-markduplicates处理之后得到的bam文件。 |
|
matrics-file |
file |
质控报告文件。 |
||
markduped-bam |
file |
经过gatk-markduplicates处理之后得到的bam文件。 |
||
gatk-bqsr |
输入参数 |
ref-file |
file |
参考基因组序列。 |
markduped-bam |
file |
经过gatk-markduplicates处理之后得到的bam文件。 |
||
know-site1 |
file |
已知变异位点对应的vcf文件(其一)。 |
||
know-site2 |
file |
已知变异位点对应的vcf文件(其二)。 |
||
know-site3 |
file |
已知变异位点对应的vcf文件(其三)。 |
||
输出参数 |
recal-table |
file |
输出经过BQSR评估得到的参数文件。 |
|
gatk-applybqsr |
输入参数 |
markduped-bam |
file |
经过gatk-markduplicates处理之后得到的bam文件。 |
ref-file |
file |
参考基因组序列。 |
||
recal-table |
file |
通过 GATK-BQSR得到参数评估文件。 |
||
输出参数 |
bqsr-bam |
file |
经过BQSR校正的bam文件。 |
|
gatk-haplotypecaller |
输入参数 |
bqsr-bam |
file |
经过gatk-applybqsr处理之后得到的bam文件。 |
ref-file |
file |
参考基因组序列。 |
||
contig-file |
file |
与参考基因组对应的contigs文件,包含contigs清单。 |
||
输出参数 |
out-dir |
directory |
输出的Variant Calling的vcf文件。 |
|
gatk-mergevcfs |
输入参数 |
in-dir |
directory |
分interval进行Variant calling之后得到的vcf的list文件。 |
输出参数 |
vcf-file |
file |
输出合并之后的Variant Calling的vcf文件。 |
|
discvrseq-variantqc |
输入参数 |
ref-file |
file |
参考基因组序列。 |
variants-file |
file |
变异检测软件(gatk4)生成的变异文件(vcf file)。 |
||
输出参数 |
json-file |
file |
以JSON文件的格式输出的质控报告。 |
|
html-file |
file |
以HTML文件的格式输出的质控报告。 |