云服务器内容精选

  • 创建项目 您可以在“项目管理”页面创建一个新的项目。 在“项目管理”页面单击“创建项目”。 配置项目信息。 表1 参数说明 参数 说明 项目名称 项目名称长度限制3-45,以小写字母数字开头结尾,全文包含数字、小写字母、下划线、中划线。 核心项目 如果设置该项目为核心项目,不支持立即删除,会进入待删除项目列表。删除项目需要等待7天保留期,到期后系统自动删除。 说明: 一旦设置为核心项目,不可变为非核心项目,非核心项目支持变为核心项目。 标签 设置项目标签。 描述 设置项目描述。 数据保护策略 数据保护策略介绍请参见数据控制与数据审计。 图1 创建项目 单击“确认”,创建一个新的项目。 项目的创建者默认拥有项目的完整权限,同时项目可以分享给其他用户,并限定其他用户的访问权限。项目角色为项目粒度权限控制,同一用户在不同的项目上可能拥有不同的角色。 创建的项目配额请参见配额管理进行查询。详细添加项目成员并分配角色的方法请参见添加项目成员。 父主题: 项目管理
  • 镜像用途 用于创建分析应用 应用是生物信息学软件的镜像封装。例如,您可将Cell Ranger软件封装为镜像,并上传至 EIHealth 平台。通过应用把镜像引入,利用应用搭建分析流程,执行分析作业。 用于创建Notebook Notebook是一个交互式应用程序,用于代码的编写、调试、运行。创建Notebook时,您可以选择系统镜像。当系统镜像无法满足您的开发需求时,您可以基于EIHealth提供的基础镜像包制作 自定义镜像 ,并上传至平台。您可以在EIHealth平台“开发环境”中使用此自定义镜像创建Notebook。 创建Notebook时,如果使用自定义镜像。该自定义镜像,需要基于EIHealth平台提供的基础镜像进行制作。
  • 聚类分析 目前分子优化返回的结果小分子数较多,无法进行批量分析,通过一些聚类的辅助方式能更好的选择分子。从每个类里挑选出一两个分子进行后续分析和验证,提高分析的效率和分析质量。也可以通过聚类找出一些关键的骨架,来进行下游分析或者优化等。 在输出结果页面左上角单击“聚类分析”后,系统开始进行分析,同时显示“聚类分析中”。 图16 聚类分析 待聚类分析完成后,单击“查看聚类结果”。进入聚类结果页。 在聚类结果页面,可以查看每个聚类的分子数量等信息。 图17 查看聚类结果 单击某个聚类的操作列的“查看详情”,即可进入聚类详情页面,聚类详情页支持以卡片、列表以及3D的形式查看。默认展示卡片页面,用户可自行进行切换。 每个结果页面只用进行一次聚类分析操作。 聚类结果是存成文件,如果文件被删或者获取不到的话会有警告, 聚类结果不存在。此时可以单击“重新聚类分析”。 如果聚类失败,根据提示失败原因解决问题后,可单击“重新聚类分析”。
  • Dockerfile基本语法 FROM 指定待扩展的父级镜像(基础镜像)。除了注释以外,在文件的开头必须是一个FROM指令,后面的指令便在这个父级镜像的环境中运行,直到遇到下一个FROM指令。通过添加多个FROM命令,可以在同一个Dockerefile文件中创建多个镜像。 MAINTAINER 声明创建镜像的作者信息:用户名、邮箱,非必须参数。 RUN 用来修改镜像的命令,常用来安装库、程序以及配置程序。一条RUN指令执行完毕后,会在当前镜像上创建一个新的镜像层,接下来的指令会在新的镜像上继续执行。 RUN 语句具有以下形式。 RUN yum update:在/bin/sh路径中执行的指令命令。 RUN ["yum", "update"]:直接使用系统调用exec来执行。 RUN yum update && yum install nginx:使用&&符号将多条命令连接在同一条RUN语句中。 EXPOSE 用来指明容器内进程对外开放的端口,多个端口之间使用空格隔开。运行容器时,通过参数-P(大写)即可将EXPOSE里所指定的端口映射到主机上另外的随机端口,其他容器或主机就可以通过映射后的端口与此容器通信。您也可以通过-p(小写)参数将Dockerfile中EXPOSE中没有列出的端口设置成公开的。 COPY 将本地的文件或目录复制到镜像中。 ADD 向新镜像中添加文件,这个文件可以是主机文件、网络文件或文件夹。 第一个参数:源文件(夹)。 如果是相对路径,必须是相对于Dockerfile所在目录的相对路径。 如果是URL,会将文件先下载下来,然后再添加到镜像里。 第二个参数:目标路径。 如果源文件是主机上的zip或者tar形式的压缩文件,Docker会先解压缩,然后将文件添加到镜像的指定位置。 如果源文件是一个通过URL指定的网络压缩文件,则不会解压。 VOLUME 在镜像里创建一个指定路径(文件或文件夹)的挂载点,这个容器可以来自主机或者其它容器。多个容器可以通过同一个挂载点共享数据,即便其中一个容器已经停止,挂载点也仍然可以访问。 WORKDIR 为接下来执行的指令指定一个新的工作目录,这个目录可以使绝对目录,也可以是相对目录。根据需要,WORKDIR可以被多次指定。当启动一个容器时,最后一条WORKDIR指令所指的目录将作为容器运行的当前工作目录。 ENV 设置容器运行的环境变量。在运行容器的时候,通过设置-e参数可以修改这个环境变量值,也可以添加新的环境变量。 例如: docker run -e WEBAPP_PORT=8000 -e WEBAPP_HOST=www.example.com ... CMD 用来设置启动容器时默认运行的命令。 ENTRYPOINT 用来指定容器启动时的默认运行的命令,与CMD类似。区别在于:运行容器时添加在镜像之后的参数,对ENTRYPOINT是拼接,CMD是覆盖。 若在DockerFile中指定了容器启动时的默认运行命令为ls -l,则运行容器时默认启动命令为ls -l。 ENTRYPOINT [ "ls", "-l"]:指定容器启动时的程序及参数为ls -l。 docker run centos:当运行centos容器时,默认执行的命令是docker run centos ls -l。 docker run centos -a:当运行centos容器时拼接了-a参数,则默认运行的命令是docker run centos ls -l -a。 若在DockerFile中指定了容器启动时的默认运行命令为--entrypoint,则在运行容器时若需要替换默认运行命令,可以通过添加--entrypoint参数来替换Dockerfile中的指定。 docker run gutianlangyu/test --entrypoint echo "hello world" USER 为容器的运行及RUN、CMD、ENTRYPOINT等指令的运行指定用户或UID。 ONBUILD 触发器指令。构建镜像时,Docker的镜像构建器会将所有的ONBUILD指令指定的命令保存到镜像的元数据中,这些命令在当前镜像的构建过程中并不会执行。只有新的镜像使用FROM指令指定父镜像为当前镜像时,才会触发执行。 使用FROM以这个Dockerfile构建出的镜像为父镜像,构建子镜像时: ONBUILD ADD . /app/src:自动执行ADD . /app/src
  • 快照方式制作镜像 如果后续镜像没有变化,可通过快照方式制作镜像。 快照方式制作镜像示例: 本示例中使用华为云弹性云服务器服务(E CS )创建一台云服务器,并使用快照方式制作bwa镜像。 购买弹性云服务器。 云服务器创建成功后,在云服务器列表页,选中待登录的弹性云服务器。单击“远程登录”,输入ECS初始账号,登录ECS。 图1 云服务器列表 安装容器引擎。 启动一个空白的基础容器,并进入容器。 例如,启动一个CentOS容器。 docker run -it centos 安装依赖包。 yum -y install https://dl.fedoraproject.org/pub/epel/epel-release-latest-8.noarch.rpm yum -y install git yum -y install gcc automake autoconf libtool make yum install -y zlib zlib-devel 安装bwa软件,在github上下载bwa的源代码,并使用make编译。 yum install bwa git clone https://github.com/lh3/bwa.git cd bwa;make 请预先安装好Git,并检查本机是否有ssh key设置。 输入exit退出容器。 查询容器id。 docker ps -a 制作快照。 docker commit -m "xx" -a "tsj" container-id tsj/image:tag 例如:docker commit -m "test" -a "username" adb1127979a1 bwa:v0.7 -a:提交的镜像作者,例如tsj。 container-id:容器id。 -m:提交时的说明文字,例如xx。 tsj/image:tag:仓库名/镜像名:TAG名,名称可自定义。 执行docker images命令查看制作完成的Docker镜像。
  • 工具管理简介 EIHealth中的每一个分析作业都依托于应用运行。应用可以组合形成分析流程。 应用是生物信息学软件的镜像封装。您可以将软件制作成镜像,并将镜像上传至EIHealth平台,通过应用引入镜像。制作好的应用可以单独使用,也可以将多个应用编排入流程串联使用。在“项目管理”页面“工具”页签中,以列表形式展示了项目中的应用。您可以新建应用、导入应用或上传应用,并查看应用详情、版本、创建者、修改和创建时间,可以对名称、创建者、修改时间、创建时间、源项目进行排序。并可执行查询、修改和删除应用的操作。 图1 应用列表 流程包含分析过程中所需应用的执行信息和数据的输入、输出等参数定义。流程通过流程设计器创建,创建好的流程将存储于“项目管理”页面“工具”页签中。在该页签中,以列表形式展示了项目中的流程。您可以新建流程、导入流程或上传流程,并查看流程详情、版本、创建者、修改和创建时间,可以对名称、创建者、修改时间、创建时间、源项目进行排序。并可执行查询、编辑修改流程、删除操作和基于该流程创建分析作业。 图2 流程列表 父主题: 工具管理
  • SPONGE 分子模拟是指利用计算机以原子水平的分子模型来模拟分子结构与行为,进而模拟分子体系的各种物理、化学性质的方法。它是在实验基础上,通过基本原理,构筑起一套模型和算法,从而计算出合理的分子结构与分子行为。SPONGE(Simulation Package tOward Next GEneration)是由北京大学高毅勤教授课题组与华为团队联合开发的新一代分子动力学模拟程序,具有高性能、模块化等特性,是一个完全自主研发的分子模拟软件库。基于高毅勤教授课题组和华为团队的技术支持,已经实现自由能微扰加速10倍以上。测试
  • 自由能微扰 自由能微扰基于纯国产分子动力学模拟库SPONGE,产生自动化FEP工作流,端到端计算配体修饰造成的亲和能改变。 单击“自由能微扰”功能卡片,进入上传文件页面。 在上传页面右侧,选择上传受体,上传配体,选择中心配体。 上传受体:受体仅支持PDB格式的文件。 上传配体:配体仅支持SDF、MOL2、PDB格式文件,且只支持3D结构。 选择参考配体:当前自由能微扰支持自动规划路径,选择参考配体后系统自动计算,用户也可自主添加或删除配体对。 图1 上传文件 引用外部桶时,需要确保所引用的数据不超过45层级的目录。 单击“下一步”,选择配体对。 页面显示:正在规划自动路径,您也可以直接选择配体对后进行下一步。 待计算路径:选择待计算的路径。待计算路径起点是中心配体名称,终点是其他配体的名称。在相似度计算完成之前默认未勾选。您也可以添加路径或者重置路径。添加路径和重置路径可以通过单击右边的“添加路径”或者“重置”进行操作。添加路径也可以在左侧微扰图中直接通过两个分子之间进行连线添加。可以在微扰图中单击某条待计算路径上的,删除该条待计算路径。 图2 添加或者删除待计算路径 图3 选择配体对 返回相似度后默认全勾选,您可以进行勾选或去除勾选要计算的路径,如果未勾选,则后面就不会对其进行FEP计算。在相似度返回之前,您也可以直接选择配体对进入下一步。 图4 选择计算路径 单击“下一步”,进入FEP设置页面,设置相关参数。 时间步长:默认值:0.002,取值范围:0.001 ≤ dt ≤ 0.005,单位:ps。分子动力学模拟的步长,建议不超过0.002ps,步长越大,越难收敛。 预平衡时长:默认值:100ps,取值范围:0-200ps。对体系进行预平衡模拟,使体系温度、压强、密度等达到平衡状态。预平衡模拟时长=预平衡步数×时间步长。时长增加,作业运行时间延长。 平衡时长:默认值:1ns,取值范围:0-10ns。平衡阶段的模拟,用于自由能微扰计算。平衡模拟时长=时间步长×平衡步数/1000,单位为ns。时长增加,作业运行时间延长。 λ个数:默认值20,输入范围为2-30。自由能微扰的窗口数量。 名称:可修改,修改后左上角也同步修改。长度为5~64个字符;仅可以使用字母、数字、下划线“_”、中划线“-”和空格;首位只能以数字或字母开头。 标签:设置任务标签。 功能调用消耗:每一对会消耗一次功能调用,因此计算几条路线就显示调用几次。 图5 设置FEP参数 单击“提交”,可在作业中心查看该作业的运行情况。 查看运行结果。 输出每对配体的相对结合自由能、分子图、相似性等。也可以单击右边“查看轨迹”,下载运动轨迹。结果页面支持Pair和Ligand两种查看方式。 也可以下载输出结果文件包含小分子的基本信息和属性。 下载操作将会产生流量费用,具体可参考计费说明。 图6 查看结果(1) 图7 查看结果(2) 图8 查看结果(3) 单击查看全部展示收敛性分析、 RMS F和RMSD结果。 图9 查看结果(4) 单击查看轨迹预览轨迹动图。 图10 查看结果(5) 父主题: 先导化合物优化
  • 导入流程 导入流程是将隶属于其他项目中流程导入至本项目中,流程所依托的应用和镜像会同步导入。 使用“导入流程”功能,用户需是其他项目中的成员,且为其他项目的“所有者”或“管理员”。 单击“导入流程”,进入导入流程页面。 图1 导入流程 选择需要引用的项目以及项目中的流程,选择流程的版本。“导入流程名称”是选填项,可以使用原有名称,或自定义。 图2 导入流程 单击“确定”,导入流程。 父主题: 工具管理
  • 步骤4:使用AutoGenome Notebook包含了端到端使用AutoGenome的代码,您可以使用Notebook案例复现AutoGenome示例的结果。 以“pbmc_res_vae.ipynb”为例,用户可以打开相应的代码集,直接运行该Notebook,也可以调整代码集中的代码,进行二次开发。 图2 基于Res-VAE和表达谱对单细胞数据降维 使用该Notebook时需要运行相应的代码模块,运行步骤如下所示。 环境配置:加载AutoGenome以及辅助绘图的软件包。 读取配置文件:通过json文件配置输入和输出路径。 模型训练:针对提供的数据和模型参数,AutoGenome会搜索得到最优的神经网络结构。训练过程经过模型搜索阶段和模型训练阶段,在模型搜索阶段,根据json文件中的配置参数,对于选定的模型参数会训练一定步数,搜索得到较好结果的参数进行后续训练。训练过程中可选择在验证数据集上进行评估,评估结果更好的模型参数将会保留。 提取降维之后数据:完成模型训练后,生成降维后的结果数据。 当您在运行AutoGenome示例出现“Warning:restart the kernel and run the notebook again!”时,请单击Notebook工具栏中的按钮,重启Notebook环境,并重新执行出现告警的代码。 您可以在Notebook工作目录中上传数据,使用AutoGenome工具。数据上传下载请参见数据的上传和下载。 对于非挂载目录以外的目录下的文件,重启Notebook后会消失。例如,上传文件至Notebook的根目录下,该文件并不在被挂载的obs路径中,重启Notebook,该文件会消失。 图3 Upload上传数据
  • 步骤3:预览AutoGenome案例 打开创建的Notebook。 在Notebook的根目录下的“AutoGenome-Examples”文件夹中,包含使用AutoGenome进行分析的示例,可供参考。 图1 AutoGenome-Examples 表2 AutoGenome示例 示例名称 说明 single_cell_rfcn_densenet.ipynb 基于RFCN-DenseNet和表达谱对单细胞发育时期进行分类。 pbmc_res_vae.ipynb 基于Res-VAE和表达谱对单细胞数据降维。
  • 公共资产列表 表1 资产列表 分类 资产名称 说明 镜像 image-stitching 针对TB级3D鼠脑稀疏标记成像数据的全自动拼接软件,减少数据分析50%的错误率,节省20%的时间,助力脑科学研究的效率提升。 AutoGenome AutoGenome为Notebook镜像,是一个利用AutoML等技术帮助科研工作者在基因组学数据上端到端实现深度学习网络搜索,训练,评估,预测和解释的工具包。 数据 人基因组数据 GRch38-reference数据集为人类基因参考基因组,广泛用于人类基因组分析中,如WGS、callvariants 等。数据集总大小约 13GB。 NGS大数据集 NA24385-raw数据集为NGS流程测试数据集,作为该流程的原始输入。数据集总大小约 186.2GB。 NGS小数据集 NA12878-small数据集为NGS流程测试数据集,作为该流程的原始输入。数据集总大小约 216MB。 docking summary测试数据 配体文件:小分子化合物SMILES结构式文件。 受体文件:蛋白3D结构PDB文件。 RNA-Seq测试数据及参考基因组数据集 RNA-Seq-Dataset数据集包含RNA-Seq分析流程的测试数据(fastq)和流程包含软件STAR依赖的参考基因组。 流程 Variant Calling Based On NGS 二代基因组测序即Next Generation Sequencing (NGS)是一种基于边合成边测序的方式。NGS在保持了测序高准确度的同时,大幅的提高了测序速度。目前NGS已经普遍的应用于全基因组测序、全外显子测序、转录组测序、表观遗传学等领域。 该流程以NGS得到的fastq作为输入,通过质控,比对,得到比对后的bam文件,及对fastq和bam文件的质控报告。 Docking Summary 对一组小分子化合物配体和一组蛋白受体进行分子对接,汇总分子对接结果,用于可视化展示。 该流程主要完成的功能包括:整合分子对接结果,生成结合能矩阵、整合受体与分子对接产生的配体构象,进行可视化展示、对配体分子进行注释,包括:DrugBank编号、分类、化学式、X LOG P3、TPSA、靶点、Csp3比例、分子量、可旋转键数目。 RNA-Seq Analysis Based on STAR 二代基因组测序即Next Generation Sequencing (NGS)是一种基于边合成边测序的方式。NGS在保持了测序高准确度的同时,大幅的提高了测序速度。目前NGS已经普遍的应用于全基因组测序、全外显子测序、转录组测序和表观遗传学等领域。 该流程以NGS得到的fastq作为输入,通过质控,比对等步骤,输出针对fastq的qc报告,输出STAR比对得到的bam文件。 MetaGenome Kraken2 pipeline 宏基因组 ( Metagenome)(也称微生物环境基因组Microbial Environmental Genome,或元基因组)是由 Handelsman 等1998年提出的新名词,其定义为“the genomes of the total microbiota found in nature”,即环境中全部微小生物遗传物质的总和。它包含了可培养的和未可培养的微生物的基因,目前主要指环境样品中的细菌和真菌的基因组总和。宏基因组学(或元基因组学,metagenomics)是一种以环境样品中的微生物群体基因组为研究对象,以功能基因筛选和/或测序分析为研究手段,以微生物多样性、种群结构、进化关系、功能活性、相互协作关系及与环境之间的关系为研究目的的新的微生物研究方法。一般包括从环境样品中提取基因组DNA, 进行高通量测序分析,或克隆DNA到合适的载体,导入宿主菌体,筛选目的转化子等工作。 该流程主要基于Kraken2构建,跟进数据库进行物种注释。 RNA Cufflinks transcriptome analysis process 二代基因组测序即Next Generation Sequencing (NGS)是一种基于边合成边测序的方式。NGS在保持了测序高准确度的同时,大幅的提高了测序速度。目前NGS已经普遍的应用于全基因组测序、全外显子测序、转录组测序和表观遗传学等领域。 该流程以NGS得到的SRA文件作为输入,通过拆分reads、fastqc质控、tophat2比对,然后 Cufflinks 利用Tophat比对的结果(alignments)来组装转录本,估计这些转录本的丰度,并且检测样本间的差异表达及可变剪接。 RNA Hisat2-Stringtie analysis process 二代基因组测序即Next Generation Sequencing (NGS)是一种基于边合成边测序的方式。NGS在保持了测序高准确度的同时,大幅的提高了测序速度。目前NGS已经普遍的应用于全基因组测序、全外显子测序、转录组测序和表观遗传学等领域。 该流程以NGS得到的fast.gz文件作为输入,流程去接头、比对、转录组表达定量等步骤。 Human NGS data CNV detection 部分癌症患者会出现基因的大片段增删突变,甚至染色体水平上的缺失或扩增性突变,因此Copy Number Variation(CNV)可以作为检测是否患癌的指标。本流程使用患者的NGS测序数据,进行CNV变异筛查,进而判断取样者是否有患癌风险。 该流程以CNVkit为核心,基于输入的fastq,以hg38人基因组数据生成的参考基因拷贝数分布为参考基线,能够自动的完成输入数据的比对排序,以及拷贝数分布计算,并输出可视化图表以供查看。
  • 添加项目成员 前提条件 平台管理员首先通过“用户管理”功能添加平台用户,才能将该用户添加至项目中。 创建用户的详细方法请参见创建平台用户。 存在一个创建好的项目。 操作步骤 添加项目成员有两种不同的方法,请任选其中一种方法操作。 方法一 单击项目名称,进入项目“设置”页。 单击“添加”,添加成员。 图1 添加成员 输入已添加至平台的用户的全称。 图2 输入用户名全称 单击“添加”,设置用户角色。详细成员角色介绍请参见表1。 图3 设置成员角色 单击“确认”,将用户添加至项目中。 方法二 在项目列表中,单击“操作”列“分享”。 图4 分享项目 输入已添加至平台的用户的全称。 图5 输入用户名全称 单击“添加”,设置用户角色。详细成员角色介绍请参见表1。 图6 设置成员角色 单击“确认”,将用户添加至项目中。
  • 引用数据 将其他项目或OBS桶中的数据,引用到本项目,不可在本项目中操作该数据。 单击数据中心右上角“引用”。 选择需要引用的项目以及项目中的数据,或者选择待引用的OBS桶路径,先选择OBS桶所在区域,再选择OBS桶名称,支持选择不在同一区域的OBS桶。 图3 引用数据 单击“确定”,引用其他项目中的数据至本项目。 引用的数据和项目将显示在左侧的数据列表中。 图4 引用的数据 引用OBS类型数据时,如果数据在OBS中的存储类型为“归档存储”,则将该数据引用过来后,该数据不能用于创建作业,并不可下载。 平台系统管理员在自己的所有者、管理员、操作者项目可以引用OBS类型数据。平台系统管理员在自己的所有者、管理员、操作者项目可以解除引用OBS类型数据。其他角色的用户仅能使用引用进来的OBS类型数据。
  • 镜像导入 镜像按照项目进行划分和管理,隶属于不同项目的镜像可以使用“镜像导入”,导入到本项目中,进行使用。 使用“镜像导入”功能,用户需是其他项目中的成员,且为其他项目的“所有者”或“管理员”。 单击项目名称,进入所选项目,并选择“镜像”,进入镜像管理页面。 单击“镜像导入”。并选择镜像所在的项目、镜像和镜像版本。 图1 镜像导入 单击“确定”,完成镜像导入。 从其他项目导入的镜像,在镜像列表“源项目”列中,显示所属的项目。