云服务器内容精选

  • 创建药物虚拟筛选任务 虚拟药物筛选可以使用资产市场中预置的“Docking Summary”流程对小分子化合物配体和蛋白受体进行对接。 使用步骤如下所示。 登录 医疗智能体 平台,在“资产市场”中订阅“Docking Summary”流程至所需的项目中。 进入“专题”页签,单击“新建研究”。 图1 新建研究 填写任务的基本信息,包括选择任务所属项目,研究的名称和描述。 图2 基本信息 选择配体分子和受体蛋白。 作业名称:自定义名称 。 类型:选择小分子化合物。 流程:选择从资产市场中订阅的“Docking Summary”流程。 配体分子:配体分子文件,支持SMILES、SD SDF、PDBQT格式。 受体蛋白:受体蛋白文件,支持PDB、PDBQT格式。 图3 选择配体分子和受体蛋白 设置数据库。 数据库功能可以将任务运行过程中产生的数据文件按照模板生成数据库。 数据库模板:使用资产市场订阅的流程时,模板已预置,无需选择数据库模板。 数据库名称:数据库的名称。 输出文件格式:可以将流程生成的分子对接结果,保存为.txt、.csv或.vcf格式。使用“Docking Summary”流程时,保存格式为.txt。 相对路径:流程运行完成后,会按照流程子任务的名称生成数据文件,相对路径指按照哪个数据路径中的结果文件生成数据库。 对于“Docking Summary”流程,包含5个子任务,默认在task-5-docking summary中保存有汇总的数据文件。 task-1-ligand 3dsdf to pdbqt:将配体的sdf文件转换为pdbqt文件。 task-2-ligand smiles to 3dsdf:将配体的smiles文件转换为3dsdf文件。 task-3-receptor pdb to pdbqt:将受体的pdb文件转换为pdbqt文件。 task-4-qvina-w:分子对接。 task-5-docking summary:汇总分子对接结果。 图4 数据路径和流程图 图5 设置数据库 设置完成后,单击“提交”,执行药物虚拟筛选任务。 对于“运行中”的任务,允许取消、强制停止或删除。 图6 运行状态
  • 新型冠状病毒(COVID-19)虚拟药物筛选 新型冠状病毒(COVID-19)的出现在全球范围影响了人类健康,寻找有效治愈新冠肺炎的治疗方式是临床医生和药物研发人员最紧迫的工作。 为了全面、系统地评估药物对新冠病毒所有靶点蛋白的结合情况,华为云EI医疗智能体团队与华中科技大学同济医学院基础医学院、华中科技大学同济医学院附属武汉儿童医院、西安交通大学第一附属医院、中科院北京基因组研究所迅速成立联合团队,从新冠病毒蛋白序列开始,针对所有21个靶点蛋白进行同源建模、分子动力学模拟优化,获取靶点蛋白的3D结构,对超过8500个已上市、进入临床的小分子药物进行了约18万种药物-靶点配对情况的计算评估,让研究人员可以同时从21个蛋白的角度,综合、无偏地评估药物效果,从而为后续的药物机制研究、临床试验提供线索。 本案例介绍如何使用EIhealth平台虚拟药物筛选功能复现上述研究成果(https://doi.org/10.1021/acs.jcim.0c00821),并搭建虚拟药物筛选数据库。
  • 虚拟药物筛选功能 医疗智能体平台支持根据靶点蛋白和小分子药物的3D结构,计算蛋白与药物之间的结合能量,进而预测小分子是否有成为候选药物的可能性。 虚拟药物筛选可实现如下功能。 整合分子对接结果,生成结合能矩阵。 整合受体与分子对接产生的配体构象,用于可视化展示。 对配体分子进行注释,包括DrugBank编号、分类、化学式、X LOG P3、TPSA、靶点、Csp3比例、分子量、可旋转键数目。 功能演示请参见视频帮助。
  • NGS配置文件示例 NGS作业由十个Task执行完成,本示例以fastp和bwa-mem两个Task为例,介绍.yaml文件填写规则,完整的NGS配置文件请参考本示例以及获取NGS作业配置文件章节得到的作业信息和模板填写。 job: name: ngs-test description '' priority: 0 timeout: 1440 output_dir: '' workflow_id: ngs-workflow::1.0.0::ngs-project tasks: - task_name: task-1-fastp inputs: - name: fastq-file1 values: - 'ngs-project:/ngs/NA12878_0.R1.fastq.gz' inputs: - name: fastq-file2 values: - 'ngs-project:/ngs/NA12878_0.R2.fastq.gz' resources: cpu: 0.1C memory: 0.1G gpu_type: '' gpu: '0' - task_name: task-2-bwa-mem inputs: - name: fq-file1 values: - '${task-1-fastp.fq-file1}' - name: fq-file2 values: - '${task-1-fastp.fq-file2}' - name: ref-file values: - 'ngs-project:/ngs/GCA_000001405.15_GRCh38_no_alt_plus_hs38d1_analysis_set.fna' - name: seq-platform values: - 'MGI' - name: sample-id values: - 'NA12878' resources: cpu: 16C memory: 10G gpu_type: '' gpu: '0' ...
  • 获取NGS作业配置文件 编写NGS作业配置文件有两种方式,建议您使用第一种,通过获取已经执行成功的NGS配置文件,并在该配置文件基础上进行修改,得到可以用于批量执行NGS的配置文件。本示例介绍使用方法一获取配置文件的方法。 方式一 使用 EIHealth 平台完成NGS流程的搭建,并执行成功,然后在“分析作业”页面导出作业信息.yaml文件。 方式二 使用命令行工具完成NGS流程的搭建,进而获取相应的配置文件。详细的操作请参见命令行工具。 使用switch命令进入NGS流程所在的项目。 例如,使用health switch project ngs-project命令进入到名为ngs-project的项目中。 使用health get job命令获取该项目下所有的作业信息。 查询NGS作业对应的job-id,使用health get job job-id命令获取NGS作业的信息。使用health get workflow命令查询NGS作业对应的workflow-id。获取到的作业信息如图1所示。 图1 NGS作业信息 health get job -s命令获取启动分析作业的模板。依据模板要求,将步骤3中获取到的NGS作业信息和workflow-id填充至模板中,修改好的配置文件示例请参见NGS配置文件示例。 请将该模板保存为.yaml格式至本地,并在本地完成模板修改。例如,命名为ngs.yaml。
  • 编写执行脚本并提交作业 运行分析作业时,流程中的每一个应用称之为一个任务(Task),通过循环读取Task的输入数据,可以实现作业的批量执行。 例如,您可以在本地创建.bat格式的批处理文件,执行该脚本即可批量运行NGS分析作业。 @echo off set list="task-1-fastp.fastq-file1=asset0331:/ngs/NA12878_0.R1.fastq.gz;task-1-fastp.fastq-file2=asset0331:/ngs/NA12878_0.R2.fastq.gz" "task-1-fastp.fastq-file1=asset0331:/ngs/NA12878_0.R1.fastq.gz;task-1-fastp.fastq-file2=asset0331:/ngs/NA12878_0.R2.fastq.gz" health switch project ngs-project for %%a in (%list%) do ( echo %%a health create job -y D:\test\ngs.yaml -i %%a echo/ ) pause 图2 批处理文件说明 如果执行NGS批量任务时需要变更不同的原始数据、参考基因序列、测序平台、文件前缀等,请参考上述批处理文件示例,将需要变更的数据补充完整。 .bat批处理文件需要和命令行工具放在同一路径下,同时,命令行工具需为登录状态。
  • 配置输入和依赖数据 NGS流程中涉及的输入、输出和依赖数据如表1所示。配置数据前,请先参考上传数据,上传原始Fastq文件和依赖数据。 如果在创建应用时打开了“并发”开关,可以设置多个参数值,批量执行作业。 数据上传完成后,在流程设计器页面,分别单击应用参数左侧图标,设置输入和依赖数据。NGS流程中输入输出参数说明如表2所示。 表1 流程输入、输出和依赖 类别 类型 说明 输入 Fastq 输入基于二代测序得到的原始Fastq文件,支持来源于多个barcode和路径的输入。 依赖 Reference Genome 输入的参考基因组序列,已经通过bwa构建了index。 依赖 Variant Sets GATK4在做Variant Calling阶段需要输入的参考Variants数据集。 输出 FastQC Report 原始测序数据的质控报告,以HTML文件形式展示。 输出 BamQC Report 测序比对数据的质量控制报告,以HTML文件的形式展示。 输出 VCF 样本的突变信息,包含有SNP和INDEL信息,以VCF的格式存储。 输出 VCF Report 样本突变信息的质量控制报告,以HTML文件的形式展示。 表2 参数说明 应用名称 参数 名称 类型 说明 fastp 输入参数 fastq-file1 file 二代测序fastq的Read1文件。 fastq-file2 file 二代测序fastq的Read2文件。 输出参数 fq-file1 file Read1过滤之后输出fq.gz文件。 fq-file2 file Read2过滤之后输出fq.gz文件 json-file file 以JSON文件的格式输出的质控报告。 html-file file 以HTML的格式输出易于阅读的质控报告。 bwa-mem 输入参数 fq-file1 file 测序得到的fastq1文件。 fa-file2 file 测序得到的fastq2文件。 ref-file file 参考基因组序列。 seq-platform string 测序平台,如MGI、Illumina。 sample-id string 文件前缀,如NA12878。 输出参数 sorted-bam file 比对和排序之后得到的bam文件。 flagstat-file file 基于bam做统计。 qualimap-bamqc 输入参数 bam-file file 输入已经排序好的bam文件。 输出参数 out-dir directory 质控报告的输出目录。 picard-insertsize 输入参数 bam-file file 经过比对和排序之后得到的bam文件。 ref-file file 参考基因组序列。 输出参数 insertsize-txt file 输出的insert size分布的文本文件。 insertsize-pdf file 输出的insert size分布的pdf文件。 gatk-markduplicates 输入参数 bam-file file 输入比对之后经过sort的bam文件。 输出参数 out-dir directory 经过gatk-markduplicates处理之后得到的bam文件。 matrics-file file 质控报告文件。 markduped-bam file 经过gatk-markduplicates处理之后得到的bam文件。 gatk-bqsr 输入参数 ref-file file 参考基因组序列。 markduped-bam file 经过gatk-markduplicates处理之后得到的bam文件。 know-site1 file 已知变异位点对应的vcf文件(其一)。 know-site2 file 已知变异位点对应的vcf文件(其二)。 know-site3 file 已知变异位点对应的vcf文件(其三)。 输出参数 recal-table file 输出经过BQSR评估得到的参数文件。 gatk-applybqsr 输入参数 markduped-bam file 经过gatk-markduplicates处理之后得到的bam文件。 ref-file file 参考基因组序列。 recal-table file 通过 GATK-BQSR得到参数评估文件。 输出参数 bqsr-bam file 经过BQSR校正的bam文件。 gatk-haplotypecaller 输入参数 bqsr-bam file 经过gatk-applybqsr处理之后得到的bam文件。 ref-file file 参考基因组序列。 contig-file file 与参考基因组对应的contigs文件,包含contigs清单。 输出参数 out-dir directory 输出的Variant Calling的vcf文件。 gatk-mergevcfs 输入参数 in-dir directory 分interval进行Variant calling之后得到的vcf的list文件。 输出参数 vcf-file file 输出合并之后的Variant Calling的vcf文件。 discvrseq-variantqc 输入参数 ref-file file 参考基因组序列。 variants-file file 变异检测软件(gatk4)生成的变异文件(vcf file)。 输出参数 json-file file 以JSON文件的格式输出的质控报告。 html-file file 以HTML文件的格式输出的质控报告。
  • 制作bwa-mem镜像 在本地搭建Docker环境。 要求安装的容器引擎版本必须为1.11.2及以上。 下载bwa和samtools软件。 wget http://downloads.sourceforge.net/project/bio-bwa/bwa-0.7.17.tar.bz2 wget https://github.com/samtools/samtools/releases/download/1.10/samtools-1.10.tar.bz2 编写Dockerfile将bwa和samtool镜像合并。 详细的Dockerfile指令请参见Dockerfile参考。 执行vi Dockerfile命令,进入Dockerfile文件中,编写文件。 FROM centos ENV PATH $PATH:/usr/local/samtools/bin:/usr/local/bwa-0.7.17 ADD ./bwa-0.7.17.tar.bz2 /usr/local ADD ./samtools-1.10.tar.bz2 /opt RUN yum makecache && \ yum install -y make gcc ncurses-devel bzip2-devel xz-devel zlib-devel&& \ cd /usr/local/bwa-0.7.17 && make && \ cd /opt/samtools-1.10 && ./configure --prefix=/usr/local/samtools && make && make install 按Esc键,并执行:wq保存并退出Dockerfile。 制作镜像。 docker build -t bwa_samtools:0.7.17-1.10 .
  • 制作gatk-haplotypecaller镜像 在本地搭建Docker环境。 要求安装的容器引擎版本必须为1.11.2及以上。 编写Dockerfile制作gatk-haplotypecaller镜像。 执行vi Dockerfile命令,进入Dockerfile文件中,编写文件。 FROM broadinstitute/gatk:4.1.9.0 RUN apt-get update RUN apt-get install -y parallel 按Esc键,并执行:wq退出Dockerfile。 制作镜像。 docker build -t gatk-haplotypecaller:4.1.9.0 . 详细的Dockerfile指令请参见Dockerfile参考。
  • 上传数据 NGS流程中需使用二代测序得到的原始fastq文件、参考基因组序列、参考Variants数据集。 本示例中以Windows系统命令行工具为例,介绍如何将本地数据上传到EIHealth平台。更多的命令介绍请参见命令行工具。 使用命令行工具,用switch命令进入待操作的项目。 例如,使用health switch project ngs-project命令进入到名为ngs-project的项目中。 使用命令行工具,用mkdir命令创建存储数据的文件夹。 例如,使用health mkdir input-data命令创建名为input-data的文件夹。 将本地数据上传至项目文件夹中。 例如,将Linux系统下root/health_test路径中xxx.R1.fastq.gz数据上传至ngs-project项目的input-data文件夹中。 ./health upload /root/health_test/xxx.R1.fastq.gz /input-data/ 例如,Windows系统下将本地D盘中xxx.R1.fastq.gz数据上传至ngs-project项目的input-data文件夹中。 health upload D:\local\data\xxx.R1.fastq.gz /input-data/ 父主题: 基于二代测序的基因组突变检测
  • 操作步骤 下载命令行工具。 安装命令行工具。 本示例中以Windows系统为例,介绍安装命令行工具的方法。 下载Windows版本的客户端,得到health.exe文件,health文件无需安装,放置在任一文件夹中即可。 图1 下载命令行工具 使用win键+R,输入cmd打开windows的cmd窗口。进入工具所在的目录,输入health命令,即可使用。 如果cmd窗口显示目录不是health文件所在目录,请使用cd命令切换路径。例如,切换至D盘: cd /d d: 使用Linux版本命令行工具时,您需要在本地搭建Linux环境,并将下载的health文件放至所需的目录下。 如果当前目录为health所在目录,可以使用./health命令使用命令行工具。 如果当前目录不是health所在目录,需要使用绝对路径。如当前目录为/opt,假设health存放在/root/health-toolkit/下,需要指定/root/health-toolkit/health路径进行使用。 如果无法运行,提示Permission denied,请使用chmod 755 health命令设置执行权限。 初始化配置。 在使用命令行工具前,需要初始化配置信息。执行health config add命令配置AK/SK,区 域名 称,华为云项目ID信息,获取方法请参见获取认证信息。 命令结构 health config add [flags] 表1 参数说明 参数 简写 是否必选 说明 --ak -a 是 AK(Access Key ID):访问密钥ID。 --sk -s 是 SK(Secret Access Key):与访问密钥ID结合使用的密钥。 --region -r 是 服务区域名称。 --platform-id -i 是 华为云项目ID,请按获取认证信息中的方法获取。 --log-path -l 否 日志路径,不填写时默认为命令行工具当前路径下healthcli.log文件。 --http-proxy -p 否 HTTP代理配置,格式为“http://username:password@your-proxy:your-port”。 --swr-endpoint -t 是 SWR镜像仓库地址。 获取方式: 登录 容器镜像服务 管理控制台。 单击界面右侧“登录指令”,获取内网登录指令末尾的SWR镜像仓库地址。例如100.78.15.50:20202。 --iam-endpoint -m 是 IAM 终端节点名称,请在地区与终端节点中获取。 --health-endpoint -e 是 EIHealth终端节点名称,请在地区与终端节点中获取。 --obs-endpoint -o 是 OBS终端节点名称,请在地区与终端节点中获取。 --obs-install-path -q 否 设置obsutil安装路径,默认安装在当前运行目录。 设置时,该路径必须为obsutil运行文件名,如/home/path/obsutil、/home/path/obsutil-1.1.1 --obs_down_load_url -D 否 obsutil下载链接,obsutil将下载到obs-install-path上。 参数有改动时才会触发下载。 下载链接的内容可以是zip、tar.gz文件、二进制文件,如果是压缩文件,文件夹内的obsutil必须命名为obsutil(和obsutil官方链接保持一致)。 --force -f 否 强制操作。如果下载obsutil时,指定的obs-install-path上已经有同名文件,不带-f时会提示用户,带上-f会直接覆盖原文件。 命令示例 health config add --ak CAIxxxxxxxxxFE --sk QLFxxxxxxxxxxxxtNvsF --region cn-north-4 --platform-id catdi9fb689 --swr-endpoint 100.78.15.50:20202 --iam-endpoint iam.cn-north-4.myhuaweicloud.com --health-endpoint eihealth.cn-north-4.myhuaweicloud.com --obs-endpoint obs.cn-north-4.myhuaweicloud.com # 执行成功返回结果如下 add ak successfully! add sk successfully! add region successfully! add platform-id successfully! add swr-endpoint successfully! add iam-endpoint successfully! add health-endpoint successfully! add obs-endpoint successfully! 执行以上命令,会在系统所在的用户目录下自动生成“.health”文件夹,文件夹中包含config.ini配置文件,用于存储任务执行所涉及到的配置,如密钥、区域、当前项目等信息。 生成的配置文件不建议直接修改,如需改动请使用命令行工具修改。 配置文件中保存有用户的AK、SK信息,为了避免密钥泄露,会对文件中的SK进行加密以保护密钥安全。
  • 功能介绍 测序数据质量的总体评估 评估测序的Reads数目,测序Base数,测序深度等。 低质量Reads过滤 过滤低质量的测序Reads,得到Clean Reads。 基因组比对 将Clean Reads比对到参考基因组上,同时输出比对率、深度、覆盖度的统计信息。 基因组变异检测 基于上述比对得到的bam文件,通过GATK4做Variant Calling,输出变异检测结果。 基因组变异检测质控 通过VariantQC对vcf进行质量控制,输出变异数目,变异类型统计等指标。
  • 流程执行信息 NGS流程由fastp、bwa-mem、picard-insertsize、qualimap-bamqc、gatk-markduplicates、gatk-bqsr、gatk-applybqsr、gatk-haplotypecaller、gatk-mergevcfs和discvrseq-variantqc应用构成。NGS流程执行步骤如表1所示。 表1 NGS执行步骤 步骤 描述 Read Quality 对测序得到的fastq数据进行质控。 Mapping and Sort and index 将质控之后得到的Clean Reads比对到参考基因组上。 Insert Size Estimation 针对构建Index后的bam文件,统计测序数据的Insert size的分布。 Bam QC 评估比对得到的bam文件的质量。 GATK MarkDuplicates 标记比对bam文件中的重复Reads。 gatk BaseRecalibrator 基于比对bam文件评估矫正参数。 gatk ApplyBQSR 基于比对bam文件进行矫正。 gatk HaplotypeCaller 基于比对和矫正之后的bam文件进行Variant Calling的工作。 gatk MergeVcfs 合并分bin变异检测的VCF文件。 Variant QC 针对输出的VCF文件进行质控。 图1 NGS执行步骤
  • 创建项目 您可以在“项目管理”页面创建一个新的项目。 在“项目管理”页面单击“创建项目”。 配置项目信息。 表1 参数说明 参数 说明 项目名称 项目名称长度限制3-45,以小写字母数字开头结尾,全文包含数字、小写字母、下划线、中划线。 核心项目 如果设置该项目为核心项目,不支持立即删除,会进入待删除项目列表。删除项目需要等待7天保留期,到期后系统自动删除。 说明: 一旦设置为核心项目,不可变为非核心项目,非核心项目支持变为核心项目。 标签 设置项目标签。 描述 设置项目描述。 数据保护策略 数据保护策略介绍请参见数据控制与数据审计。 图1 创建项目 单击“确认”,创建一个新的项目。 项目的创建者默认拥有项目的完整权限,同时项目可以分享给其他用户,并限定其他用户的访问权限。项目角色为项目粒度权限控制,同一用户在不同的项目上可能拥有不同的角色。 创建的项目配额请参见配额管理进行查询。详细添加项目成员并分配角色的方法请参见添加项目成员。 父主题: 项目管理
  • 镜像用途 用于创建分析应用 应用是生物信息学软件的镜像封装。例如,您可将Cell Ranger软件封装为镜像,并上传至EIHealth平台。通过应用把镜像引入,利用应用搭建分析流程,执行分析作业。 用于创建Notebook Notebook是一个交互式应用程序,用于代码的编写、调试、运行。创建Notebook时,您可以选择系统镜像。当系统镜像无法满足您的开发需求时,您可以基于EIHealth提供的基础镜像包制作 自定义镜像 ,并上传至平台。您可以在EIHealth平台“开发环境”中使用此自定义镜像创建Notebook。 创建Notebook时,如果使用自定义镜像。该自定义镜像,需要基于EIHealth平台提供的基础镜像进行制作。