云服务器内容精选

  • 创建药物虚拟筛选任务 虚拟药物筛选可以使用资产市场中预置的“Docking Summary”流程对小分子化合物配体和蛋白受体进行对接。 使用步骤如下所示。 登录 医疗智能体 平台,在“资产市场”中订阅“Docking Summary”流程至所需的项目中。 进入“专题”页签,单击“新建研究”。 图1 新建研究 填写任务的基本信息,包括选择任务所属项目,研究的名称和描述。 图2 基本信息 选择配体分子和受体蛋白。 作业名称:自定义名称 。 类型:选择小分子化合物。 流程:选择从资产市场中订阅的“Docking Summary”流程。 配体分子:配体分子文件,支持SMILES、SD SDF、PDBQT格式。 受体蛋白:受体蛋白文件,支持PDB、PDBQT格式。 图3 选择配体分子和受体蛋白 设置数据库。 数据库功能可以将任务运行过程中产生的数据文件按照模板生成数据库。 数据库模板:使用资产市场订阅的流程时,模板已预置,无需选择数据库模板。 数据库名称:数据库的名称。 输出文件格式:可以将流程生成的分子对接结果,保存为.txt、.csv或.vcf格式。使用“Docking Summary”流程时,保存格式为.txt。 相对路径:流程运行完成后,会按照流程子任务的名称生成数据文件,相对路径指按照哪个数据路径中的结果文件生成数据库。 对于“Docking Summary”流程,包含5个子任务,默认在task-5-docking summary中保存有汇总的数据文件。 task-1-ligand 3dsdf to pdbqt:将配体的sdf文件转换为pdbqt文件。 task-2-ligand smiles to 3dsdf:将配体的smiles文件转换为3dsdf文件。 task-3-receptor pdb to pdbqt:将受体的pdb文件转换为pdbqt文件。 task-4-qvina-w:分子对接。 task-5-docking summary:汇总分子对接结果。 图4 数据路径和流程图 图5 设置数据库 设置完成后,单击“提交”,执行药物虚拟筛选任务。 对于“运行中”的任务,允许取消、强制停止或删除。 图6 运行状态
  • 新型冠状病毒(COVID-19)虚拟药物筛选 新型冠状病毒(COVID-19)的出现在全球范围影响了人类健康,寻找有效治愈新冠肺炎的治疗方式是临床医生和药物研发人员最紧迫的工作。 为了全面、系统地评估药物对新冠病毒所有靶点蛋白的结合情况,华为云EI医疗智能体团队与华中科技大学同济医学院基础医学院、华中科技大学同济医学院附属武汉儿童医院、西安交通大学第一附属医院、中科院北京基因组研究所迅速成立联合团队,从新冠病毒蛋白序列开始,针对所有21个靶点蛋白进行同源建模、分子动力学模拟优化,获取靶点蛋白的3D结构,对超过8500个已上市、进入临床的小分子药物进行了约18万种药物-靶点配对情况的计算评估,让研究人员可以同时从21个蛋白的角度,综合、无偏地评估药物效果,从而为后续的药物机制研究、临床试验提供线索。 本案例介绍如何使用EIhealth平台虚拟药物筛选功能复现上述研究成果(https://doi.org/10.1021/acs.jcim.0c00821),并搭建虚拟药物筛选数据库。
  • 虚拟药物筛选功能 医疗智能体平台支持根据靶点蛋白和小分子药物的3D结构,计算蛋白与药物之间的结合能量,进而预测小分子是否有成为候选药物的可能性。 虚拟药物筛选可实现如下功能。 整合分子对接结果,生成结合能矩阵。 整合受体与分子对接产生的配体构象,用于可视化展示。 对配体分子进行注释,包括DrugBank编号、分类、化学式、X LOG P3、TPSA、靶点、Csp3比例、分子量、可旋转键数目。 功能演示请参见视频帮助。
  • 获取NGS作业配置文件 编写NGS作业配置文件有两种方式,建议您使用第一种,通过获取已经执行成功的NGS配置文件,并在该配置文件基础上进行修改,得到可以用于批量执行NGS的配置文件。本示例介绍使用方法一获取配置文件的方法。 方式一 使用 EIHealth 平台完成NGS流程的搭建,并执行成功,然后在“分析作业”页面导出作业信息.yaml文件。 方式二 使用命令行工具完成NGS流程的搭建,进而获取相应的配置文件。详细的操作请参见命令行工具。 使用switch命令进入NGS流程所在的项目。 例如,使用health switch project ngs-project命令进入到名为ngs-project的项目中。 使用health get job命令获取该项目下所有的作业信息。 查询NGS作业对应的job-id,使用health get job job-id命令获取NGS作业的信息。使用health get workflow命令查询NGS作业对应的workflow-id。获取到的作业信息如图1所示。 图1 NGS作业信息 health get job -s命令获取启动分析作业的模板。依据模板要求,将步骤3中获取到的NGS作业信息和workflow-id填充至模板中,修改好的配置文件示例请参见NGS配置文件示例。 请将该模板保存为.yaml格式至本地,并在本地完成模板修改。例如,命名为ngs.yaml。
  • 编写执行脚本并提交作业 运行分析作业时,流程中的每一个应用称之为一个任务(Task),通过循环读取Task的输入数据,可以实现作业的批量执行。 例如,您可以在本地创建.bat格式的批处理文件,执行该脚本即可批量运行NGS分析作业。 @echo off set list="task-1-fastp.fastq-file1=asset0331:/ngs/NA12878_0.R1.fastq.gz;task-1-fastp.fastq-file2=asset0331:/ngs/NA12878_0.R2.fastq.gz" "task-1-fastp.fastq-file1=asset0331:/ngs/NA12878_0.R1.fastq.gz;task-1-fastp.fastq-file2=asset0331:/ngs/NA12878_0.R2.fastq.gz" health switch project ngs-project for %%a in (%list%) do ( echo %%a health create job -y D:\test\ngs.yaml -i %%a echo/ ) pause 图2 批处理文件说明 如果执行NGS批量任务时需要变更不同的原始数据、参考基因序列、测序平台、文件前缀等,请参考上述批处理文件示例,将需要变更的数据补充完整。 .bat批处理文件需要和命令行工具放在同一路径下,同时,命令行工具需为登录状态。
  • NGS配置文件示例 NGS作业由十个Task执行完成,本示例以fastp和bwa-mem两个Task为例,介绍.yaml文件填写规则,完整的NGS配置文件请参考本示例以及获取NGS作业配置文件章节得到的作业信息和模板填写。 job: name: ngs-test description '' priority: 0 timeout: 1440 output_dir: '' workflow_id: ngs-workflow::1.0.0::ngs-project tasks: - task_name: task-1-fastp inputs: - name: fastq-file1 values: - 'ngs-project:/ngs/NA12878_0.R1.fastq.gz' inputs: - name: fastq-file2 values: - 'ngs-project:/ngs/NA12878_0.R2.fastq.gz' resources: cpu: 0.1C memory: 0.1G gpu_type: '' gpu: '0' - task_name: task-2-bwa-mem inputs: - name: fq-file1 values: - '${task-1-fastp.fq-file1}' - name: fq-file2 values: - '${task-1-fastp.fq-file2}' - name: ref-file values: - 'ngs-project:/ngs/GCA_000001405.15_GRCh38_no_alt_plus_hs38d1_analysis_set.fna' - name: seq-platform values: - 'MGI' - name: sample-id values: - 'NA12878' resources: cpu: 16C memory: 10G gpu_type: '' gpu: '0' ...
  • 配置输入和依赖数据 NGS流程中涉及的输入、输出和依赖数据如表1所示。配置数据前,请先参考上传数据,上传原始Fastq文件和依赖数据。 如果在创建应用时打开了“并发”开关,可以设置多个参数值,批量执行作业。 数据上传完成后,在流程设计器页面,分别单击应用参数左侧图标,设置输入和依赖数据。NGS流程中输入输出参数说明如表2所示。 表1 流程输入、输出和依赖 类别 类型 说明 输入 Fastq 输入基于二代测序得到的原始Fastq文件,支持来源于多个barcode和路径的输入。 依赖 Reference Genome 输入的参考基因组序列,已经通过bwa构建了index。 依赖 Variant Sets GATK4在做Variant Calling阶段需要输入的参考Variants数据集。 输出 FastQC Report 原始测序数据的质控报告,以HTML文件形式展示。 输出 BamQC Report 测序比对数据的质量控制报告,以HTML文件的形式展示。 输出 VCF 样本的突变信息,包含有SNP和INDEL信息,以VCF的格式存储。 输出 VCF Report 样本突变信息的质量控制报告,以HTML文件的形式展示。 表2 参数说明 应用名称 参数 名称 类型 说明 fastp 输入参数 fastq-file1 file 二代测序fastq的Read1文件。 fastq-file2 file 二代测序fastq的Read2文件。 输出参数 fq-file1 file Read1过滤之后输出fq.gz文件。 fq-file2 file Read2过滤之后输出fq.gz文件 json-file file 以JSON文件的格式输出的质控报告。 html-file file 以HTML的格式输出易于阅读的质控报告。 bwa-mem 输入参数 fq-file1 file 测序得到的fastq1文件。 fa-file2 file 测序得到的fastq2文件。 ref-file file 参考基因组序列。 seq-platform string 测序平台,如MGI、Illumina。 sample-id string 文件前缀,如NA12878。 输出参数 sorted-bam file 比对和排序之后得到的bam文件。 flagstat-file file 基于bam做统计。 qualimap-bamqc 输入参数 bam-file file 输入已经排序好的bam文件。 输出参数 out-dir directory 质控报告的输出目录。 picard-insertsize 输入参数 bam-file file 经过比对和排序之后得到的bam文件。 ref-file file 参考基因组序列。 输出参数 insertsize-txt file 输出的insert size分布的文本文件。 insertsize-pdf file 输出的insert size分布的pdf文件。 gatk-markduplicates 输入参数 bam-file file 输入比对之后经过sort的bam文件。 输出参数 out-dir directory 经过gatk-markduplicates处理之后得到的bam文件。 matrics-file file 质控报告文件。 markduped-bam file 经过gatk-markduplicates处理之后得到的bam文件。 gatk-bqsr 输入参数 ref-file file 参考基因组序列。 markduped-bam file 经过gatk-markduplicates处理之后得到的bam文件。 know-site1 file 已知变异位点对应的vcf文件(其一)。 know-site2 file 已知变异位点对应的vcf文件(其二)。 know-site3 file 已知变异位点对应的vcf文件(其三)。 输出参数 recal-table file 输出经过BQSR评估得到的参数文件。 gatk-applybqsr 输入参数 markduped-bam file 经过gatk-markduplicates处理之后得到的bam文件。 ref-file file 参考基因组序列。 recal-table file 通过 GATK-BQSR得到参数评估文件。 输出参数 bqsr-bam file 经过BQSR校正的bam文件。 gatk-haplotypecaller 输入参数 bqsr-bam file 经过gatk-applybqsr处理之后得到的bam文件。 ref-file file 参考基因组序列。 contig-file file 与参考基因组对应的contigs文件,包含contigs清单。 输出参数 out-dir directory 输出的Variant Calling的vcf文件。 gatk-mergevcfs 输入参数 in-dir directory 分interval进行Variant calling之后得到的vcf的list文件。 输出参数 vcf-file file 输出合并之后的Variant Calling的vcf文件。 discvrseq-variantqc 输入参数 ref-file file 参考基因组序列。 variants-file file 变异检测软件(gatk4)生成的变异文件(vcf file)。 输出参数 json-file file 以JSON文件的格式输出的质控报告。 html-file file 以HTML文件的格式输出的质控报告。
  • 制作bwa-mem镜像 在本地搭建Docker环境。 要求安装的容器引擎版本必须为1.11.2及以上。 下载bwa和samtools软件。 wget http://downloads.sourceforge.net/project/bio-bwa/bwa-0.7.17.tar.bz2 wget https://github.com/samtools/samtools/releases/download/1.10/samtools-1.10.tar.bz2 编写Dockerfile将bwa和samtool镜像合并。 详细的Dockerfile指令请参见Dockerfile参考。 执行vi Dockerfile命令,进入Dockerfile文件中,编写文件。 FROM centos ENV PATH $PATH:/usr/local/samtools/bin:/usr/local/bwa-0.7.17 ADD ./bwa-0.7.17.tar.bz2 /usr/local ADD ./samtools-1.10.tar.bz2 /opt RUN yum makecache && \ yum install -y make gcc ncurses-devel bzip2-devel xz-devel zlib-devel&& \ cd /usr/local/bwa-0.7.17 && make && \ cd /opt/samtools-1.10 && ./configure --prefix=/usr/local/samtools && make && make install 按Esc键,并执行:wq保存并退出Dockerfile。 制作镜像。 docker build -t bwa_samtools:0.7.17-1.10 .
  • 制作gatk-haplotypecaller镜像 在本地搭建Docker环境。 要求安装的容器引擎版本必须为1.11.2及以上。 编写Dockerfile制作gatk-haplotypecaller镜像。 执行vi Dockerfile命令,进入Dockerfile文件中,编写文件。 FROM broadinstitute/gatk:4.1.9.0 RUN apt-get update RUN apt-get install -y parallel 按Esc键,并执行:wq退出Dockerfile。 制作镜像。 docker build -t gatk-haplotypecaller:4.1.9.0 . 详细的Dockerfile指令请参见Dockerfile参考。
  • 上传数据 NGS流程中需使用二代测序得到的原始fastq文件、参考基因组序列、参考Variants数据集。 本示例中以Windows系统命令行工具为例,介绍如何将本地数据上传到EIHealth平台。更多的命令介绍请参见命令行工具。 使用命令行工具,用switch命令进入待操作的项目。 例如,使用health switch project ngs-project命令进入到名为ngs-project的项目中。 使用命令行工具,用mkdir命令创建存储数据的文件夹。 例如,使用health mkdir input-data命令创建名为input-data的文件夹。 将本地数据上传至项目文件夹中。 例如,将Linux系统下root/health_test路径中xxx.R1.fastq.gz数据上传至ngs-project项目的input-data文件夹中。 ./health upload /root/health_test/xxx.R1.fastq.gz /input-data/ 例如,Windows系统下将本地D盘中xxx.R1.fastq.gz数据上传至ngs-project项目的input-data文件夹中。 health upload D:\local\data\xxx.R1.fastq.gz /input-data/ 父主题: 基于二代测序的基因组突变检测
  • 操作步骤 下载命令行工具。 安装命令行工具。 本示例中以Windows系统为例,介绍安装命令行工具的方法。 下载Windows版本的客户端,得到health.exe文件,health文件无需安装,放置在任一文件夹中即可。 图1 下载命令行工具 使用win键+R,输入cmd打开windows的cmd窗口。进入工具所在的目录,输入health命令,即可使用。 如果cmd窗口显示目录不是health文件所在目录,请使用cd命令切换路径。例如,切换至D盘: cd /d d: 使用Linux版本命令行工具时,您需要在本地搭建Linux环境,并将下载的health文件放至所需的目录下。 如果当前目录为health所在目录,可以使用./health命令使用命令行工具。 如果当前目录不是health所在目录,需要使用绝对路径。如当前目录为/opt,假设health存放在/root/health-toolkit/下,需要指定/root/health-toolkit/health路径进行使用。 如果无法运行,提示Permission denied,请使用chmod 755 health命令设置执行权限。 初始化配置。 在使用命令行工具前,需要初始化配置信息。执行health config add命令配置AK/SK,区 域名 称,华为云项目ID信息,获取方法请参见获取认证信息。 命令结构 health config add [flags] 表1 参数说明 参数 简写 是否必选 说明 --ak -a 是 AK(Access Key ID):访问密钥ID。 --sk -s 是 SK(Secret Access Key):与访问密钥ID结合使用的密钥。 --region -r 是 服务区域名称。 --platform-id -i 是 华为云项目ID,请按获取认证信息中的方法获取。 --log-path -l 否 日志路径,不填写时默认为命令行工具当前路径下healthcli.log文件。 --http-proxy -p 否 HTTP代理配置,格式为“http://username:password@your-proxy:your-port”。 --swr-endpoint -t 是 SWR镜像仓库地址。 获取方式: 登录 容器镜像服务 管理控制台。 单击界面右侧“登录指令”,获取内网登录指令末尾的SWR镜像仓库地址。例如100.78.15.50:20202。 --iam-endpoint -m 是 IAM 终端节点名称,请在地区与终端节点中获取。 --health-endpoint -e 是 EIHealth终端节点名称,请在地区与终端节点中获取。 --obs-endpoint -o 是 OBS终端节点名称,请在地区与终端节点中获取。 --obs-install-path -q 否 设置obsutil安装路径,默认安装在当前运行目录。 设置时,该路径必须为obsutil运行文件名,如/home/path/obsutil、/home/path/obsutil-1.1.1 --obs_down_load_url -D 否 obsutil下载链接,obsutil将下载到obs-install-path上。 参数有改动时才会触发下载。 下载链接的内容可以是zip、tar.gz文件、二进制文件,如果是压缩文件,文件夹内的obsutil必须命名为obsutil(和obsutil官方链接保持一致)。 --force -f 否 强制操作。如果下载obsutil时,指定的obs-install-path上已经有同名文件,不带-f时会提示用户,带上-f会直接覆盖原文件。 命令示例 health config add --ak CAIxxxxxxxxxFE --sk QLFxxxxxxxxxxxxtNvsF --region cn-north-4 --platform-id catdi9fb689 --swr-endpoint 100.78.15.50:20202 --iam-endpoint iam.cn-north-4.myhuaweicloud.com --health-endpoint eihealth.cn-north-4.myhuaweicloud.com --obs-endpoint obs.cn-north-4.myhuaweicloud.com # 执行成功返回结果如下 add ak successfully! add sk successfully! add region successfully! add platform-id successfully! add swr-endpoint successfully! add iam-endpoint successfully! add health-endpoint successfully! add obs-endpoint successfully! 执行以上命令,会在系统所在的用户目录下自动生成“.health”文件夹,文件夹中包含config.ini配置文件,用于存储任务执行所涉及到的配置,如密钥、区域、当前项目等信息。 生成的配置文件不建议直接修改,如需改动请使用命令行工具修改。 配置文件中保存有用户的AK、SK信息,为了避免密钥泄露,会对文件中的SK进行加密以保护密钥安全。
  • 功能介绍 测序数据质量的总体评估 评估测序的Reads数目,测序Base数,测序深度等。 低质量Reads过滤 过滤低质量的测序Reads,得到Clean Reads。 基因组比对 将Clean Reads比对到参考基因组上,同时输出比对率、深度、覆盖度的统计信息。 基因组变异检测 基于上述比对得到的bam文件,通过GATK4做Variant Calling,输出变异检测结果。 基因组变异检测质控 通过VariantQC对vcf进行质量控制,输出变异数目,变异类型统计等指标。
  • 流程执行信息 NGS流程由fastp、bwa-mem、picard-insertsize、qualimap-bamqc、gatk-markduplicates、gatk-bqsr、gatk-applybqsr、gatk-haplotypecaller、gatk-mergevcfs和discvrseq-variantqc应用构成。NGS流程执行步骤如表1所示。 表1 NGS执行步骤 步骤 描述 Read Quality 对测序得到的fastq数据进行质控。 Mapping and Sort and index 将质控之后得到的Clean Reads比对到参考基因组上。 Insert Size Estimation 针对构建Index后的bam文件,统计测序数据的Insert size的分布。 Bam QC 评估比对得到的bam文件的质量。 GATK MarkDuplicates 标记比对bam文件中的重复Reads。 gatk BaseRecalibrator 基于比对bam文件评估矫正参数。 gatk ApplyBQSR 基于比对bam文件进行矫正。 gatk HaplotypeCaller 基于比对和矫正之后的bam文件进行Variant Calling的工作。 gatk MergeVcfs 合并分bin变异检测的VCF文件。 Variant QC 针对输出的VCF文件进行质控。 图1 NGS执行步骤
  • 方案优势 全面覆盖智慧医疗领域:方案涵盖智慧医疗的多个领域,包括智慧诊疗、智慧服务、智慧科研和智慧管理,满足不同层级和类型的医疗机构的需求,提升医疗质量和效率,增强患者体验和满意度(创新应用) 医学领域Know-How:润达将医学专业数据与盘古大模型结合,沉淀1000+疾病的决策模型,10000+自动化运营触达服务,4000+知识算子推理单元和300+的机器学习算子推理单元,疾病判断的敏感性接近100% ,准确度可以超过90% 全栈自主可控:从底层芯片到顶层应用,全自主知识产权,为医疗机构提供了一个稳定、可靠、安全的平台,可以保证医疗数据的完整性、可用性和保密性,也可以实现跨区域、跨机构、跨平台的数据共享和协同。
  • 应用场景 医疗行业的痛点: 医生存在漏诊和误诊风险 缺少提升诊断准确率和效率的工具 中国不同区域医疗水平存在较大差异 缺少行之有效的手段帮助患者获得更个性化、主动、友好的健康服务。 通过本方案实现的业务效果: 建设全结构化数据中心 整合医院的多维度临床数据,以支持数据驱动的决策和业务场景的使用。这包括确保不同科室和流程的数据一致性与准确性,通过数据格式和编码的标准化消除信息孤岛。对临床资料进行归一化处理,提高数据质量,并构建一个高可用性的数据环境,以优化资源配置和提供准确医疗服务。为医院数字化转型,提升医疗服务效率和质量提供数据支撑。 为患者提供智能导诊服务 通过运用人工智能等技术,提高预约诊疗的准确度。具体实现方式包括建设预问诊系统并与电子病历系统对接,以便准确识别患者的病情。系统会自动为患者提供预约安排的参考,形成“智能问诊一分诊-预约一病史采集”的流程,从而缩短患者的诊前等待时间。 为患者提供检验/检查智慧解读服务 通过智能解读检验/检查结果、个性化疾病科普、多指标趋势分析,实现医患信息同步,提升服务水平,让患者感受到有温度的智慧医疗服务。改善患者的就医体验、减轻焦虑以及增进医患理解。 为患者提供智能化的宣教系统 专注于为患者提供入院期间和围手术期的护理指导和教育。通过系统化的宣教内容,患者能够了解术前准备、术后护理和恢复过程中的关键注意事项,从而降低并发症风险,加速康复进程,同时减轻医护人员的沟通负担。 为患者提供自动化随访与复诊提醒 通过智能化的随访信息收集,为患者提供个性化的复诊计划。根据患者的反馈和健康数据,系统能够自动推荐适当的复诊时间和必要的医疗干预,确保患者得到持续的关注和最佳的治疗效果。 为医生提供检验/检查关键指标提醒 集成检验/检查数据推理模型和诊断辅助分析工具,帮助医生快速获取AI综合分析结果,减少误诊漏诊,提升决策能力,为疑难杂症诊断和多学科联合会诊提供参考。 提升病历书写质量与效率 利用生成式人工智能技术,提高病历的质量和编写效率。通过自动化收集和分析患者的医疗信息,系统能够快速生成详细且准确的病历文档,从而减轻医务人员的工作负担,提升医疗服务的效率和质量。同时,它还旨在满足国家卫健委对病历内涵质量的提升要求,确保病历信息的完整性和准确性,为患者提供更好的诊疗体验和健康管理。 利用大模型技术提升科研能力 基于大模型技术对临床病历文书、检查检验报告等进行结构化、标准化、归一化处理,形成全结构化数据中心。在此基础上,根据专病进行配置化数据建模。通过融合院内外数据,形成完整的专病库数据,医生可以更加准确、全面地了解患者病情,助力专病科研和成果转化。