云服务器内容精选

  • 获取NGS作业配置文件 编写NGS作业配置文件有两种方式,建议您使用第一种,通过获取已经执行成功的NGS配置文件,并在该配置文件基础上进行修改,得到可以用于批量执行NGS的配置文件。本示例介绍使用方法一获取配置文件的方法。 方式一 使用 EIHealth 平台完成NGS流程的搭建,并执行成功,然后在“分析作业”页面导出作业信息.yaml文件。 方式二 使用命令行工具完成NGS流程的搭建,进而获取相应的配置文件。详细的操作请参见命令行工具。 使用switch命令进入NGS流程所在的项目。 例如,使用health switch project ngs-project命令进入到名为ngs-project的项目中。 使用health get job命令获取该项目下所有的作业信息。 查询NGS作业对应的job-id,使用health get job job-id命令获取NGS作业的信息。使用health get workflow命令查询NGS作业对应的workflow-id。获取到的作业信息如图1所示。 图1 NGS作业信息 health get job -s命令获取启动分析作业的模板。依据模板要求,将步骤3中获取到的NGS作业信息和workflow-id填充至模板中,修改好的配置文件示例请参见NGS配置文件示例。 请将该模板保存为.yaml格式至本地,并在本地完成模板修改。例如,命名为ngs.yaml。
  • 编写执行脚本并提交作业 运行分析作业时,流程中的每一个应用称之为一个任务(Task),通过循环读取Task的输入数据,可以实现作业的批量执行。 例如,您可以在本地创建.bat格式的批处理文件,执行该脚本即可批量运行NGS分析作业。 @echo off set list="task-1-fastp.fastq-file1=asset0331:/ngs/NA12878_0.R1.fastq.gz;task-1-fastp.fastq-file2=asset0331:/ngs/NA12878_0.R2.fastq.gz" "task-1-fastp.fastq-file1=asset0331:/ngs/NA12878_0.R1.fastq.gz;task-1-fastp.fastq-file2=asset0331:/ngs/NA12878_0.R2.fastq.gz" health switch project ngs-project for %%a in (%list%) do ( echo %%a health create job -y D:\test\ngs.yaml -i %%a echo/ ) pause 图2 批处理文件说明 如果执行NGS批量任务时需要变更不同的原始数据、参考基因序列、测序平台、文件前缀等,请参考上述批处理文件示例,将需要变更的数据补充完整。 .bat批处理文件需要和命令行工具放在同一路径下,同时,命令行工具需为登录状态。
  • NGS配置文件示例 NGS作业由十个Task执行完成,本示例以fastp和bwa-mem两个Task为例,介绍.yaml文件填写规则,完整的NGS配置文件请参考本示例以及获取NGS作业配置文件章节得到的作业信息和模板填写。 job: name: ngs-test description '' priority: 0 timeout: 1440 output_dir: '' workflow_id: ngs-workflow::1.0.0::ngs-project tasks: - task_name: task-1-fastp inputs: - name: fastq-file1 values: - 'ngs-project:/ngs/NA12878_0.R1.fastq.gz' inputs: - name: fastq-file2 values: - 'ngs-project:/ngs/NA12878_0.R2.fastq.gz' resources: cpu: 0.1C memory: 0.1G gpu_type: '' gpu: '0' - task_name: task-2-bwa-mem inputs: - name: fq-file1 values: - '${task-1-fastp.fq-file1}' - name: fq-file2 values: - '${task-1-fastp.fq-file2}' - name: ref-file values: - 'ngs-project:/ngs/GCA_000001405.15_GRCh38_no_alt_plus_hs38d1_analysis_set.fna' - name: seq-platform values: - 'MGI' - name: sample-id values: - 'NA12878' resources: cpu: 16C memory: 10G gpu_type: '' gpu: '0' ...
  • 配置输入和依赖数据 NGS流程中涉及的输入、输出和依赖数据如表1所示。配置数据前,请先参考上传数据,上传原始Fastq文件和依赖数据。 如果在创建应用时打开了“并发”开关,可以设置多个参数值,批量执行作业。 数据上传完成后,在流程设计器页面,分别单击应用参数左侧图标,设置输入和依赖数据。NGS流程中输入输出参数说明如表2所示。 表1 流程输入、输出和依赖 类别 类型 说明 输入 Fastq 输入基于二代测序得到的原始Fastq文件,支持来源于多个barcode和路径的输入。 依赖 Reference Genome 输入的参考基因组序列,已经通过bwa构建了index。 依赖 Variant Sets GATK4在做Variant Calling阶段需要输入的参考Variants数据集。 输出 FastQC Report 原始测序数据的质控报告,以HTML文件形式展示。 输出 BamQC Report 测序比对数据的质量控制报告,以HTML文件的形式展示。 输出 VCF 样本的突变信息,包含有SNP和INDEL信息,以VCF的格式存储。 输出 VCF Report 样本突变信息的质量控制报告,以HTML文件的形式展示。 表2 参数说明 应用名称 参数 名称 类型 说明 fastp 输入参数 fastq-file1 file 二代测序fastq的Read1文件。 fastq-file2 file 二代测序fastq的Read2文件。 输出参数 fq-file1 file Read1过滤之后输出fq.gz文件。 fq-file2 file Read2过滤之后输出fq.gz文件 json-file file 以JSON文件的格式输出的质控报告。 html-file file 以HTML的格式输出易于阅读的质控报告。 bwa-mem 输入参数 fq-file1 file 测序得到的fastq1文件。 fa-file2 file 测序得到的fastq2文件。 ref-file file 参考基因组序列。 seq-platform string 测序平台,如MGI、Illumina。 sample-id string 文件前缀,如NA12878。 输出参数 sorted-bam file 比对和排序之后得到的bam文件。 flagstat-file file 基于bam做统计。 qualimap-bamqc 输入参数 bam-file file 输入已经排序好的bam文件。 输出参数 out-dir directory 质控报告的输出目录。 picard-insertsize 输入参数 bam-file file 经过比对和排序之后得到的bam文件。 ref-file file 参考基因组序列。 输出参数 insertsize-txt file 输出的insert size分布的文本文件。 insertsize-pdf file 输出的insert size分布的pdf文件。 gatk-markduplicates 输入参数 bam-file file 输入比对之后经过sort的bam文件。 输出参数 out-dir directory 经过gatk-markduplicates处理之后得到的bam文件。 matrics-file file 质控报告文件。 markduped-bam file 经过gatk-markduplicates处理之后得到的bam文件。 gatk-bqsr 输入参数 ref-file file 参考基因组序列。 markduped-bam file 经过gatk-markduplicates处理之后得到的bam文件。 know-site1 file 已知变异位点对应的vcf文件(其一)。 know-site2 file 已知变异位点对应的vcf文件(其二)。 know-site3 file 已知变异位点对应的vcf文件(其三)。 输出参数 recal-table file 输出经过BQSR评估得到的参数文件。 gatk-applybqsr 输入参数 markduped-bam file 经过gatk-markduplicates处理之后得到的bam文件。 ref-file file 参考基因组序列。 recal-table file 通过 GATK-BQSR得到参数评估文件。 输出参数 bqsr-bam file 经过BQSR校正的bam文件。 gatk-haplotypecaller 输入参数 bqsr-bam file 经过gatk-applybqsr处理之后得到的bam文件。 ref-file file 参考基因组序列。 contig-file file 与参考基因组对应的contigs文件,包含contigs清单。 输出参数 out-dir directory 输出的Variant Calling的vcf文件。 gatk-mergevcfs 输入参数 in-dir directory 分interval进行Variant calling之后得到的vcf的list文件。 输出参数 vcf-file file 输出合并之后的Variant Calling的vcf文件。 discvrseq-variantqc 输入参数 ref-file file 参考基因组序列。 variants-file file 变异检测软件(gatk4)生成的变异文件(vcf file)。 输出参数 json-file file 以JSON文件的格式输出的质控报告。 html-file file 以HTML文件的格式输出的质控报告。