检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用AutoGenome镜像 AutoGenome是Notebook镜像,利用AutoML等技术帮助科研工作者在基因组学数据上端到端实现深度学习网络搜索,训练,评估,预测和解释的工具包。 使用AutoGenome镜像的详细步骤如下所示: 步骤1:订阅镜像 步骤2:创建Notebook
分子生成基于盘古药物分子大模型,对初始数据集进行采样,多目标、多方向的快速生成新颖且与靶点蛋白亲和力高的化合物。 单击“分子生成”功能卡片,进入配置页面。 输入初始数据集,有两种输入方式: 选择文件:支持SDF、MOL2、PDB、SMI格式文件; 小分子支持10-10000个。如果没有初始数据集,可以选择官方库,ZINC数据集。
NA24385-raw数据集为NGS流程测试数据集,作为该流程的原始输入。数据集总大小约 186.2GB。 NGS小数据集 NA12878-small数据集为NGS流程测试数据集,作为该流程的原始输入。数据集总大小约 216MB。 docking summary测试数据 配体文件:小分子化合物SMILES结构式文件。
等技术加速计算过程。 支持十亿节点、百亿边的超大规模图数据库查询,提供适用于基因和生物网络数据的图深度学习算法。 拥有基于基因组数据自动深度学习的技术框架AutoGenome,深度融合人工智能技术,产生更加便捷、快速、准确、可解释的医疗智能模型,加速医疗大健康行业的研究工作。 成
上传数据 NGS流程中需使用二代测序得到的原始fastq文件、参考基因组序列、参考Variants数据集。 本示例中以Windows系统命令行工具为例,介绍如何将本地数据上传到EIHealth平台。更多的命令介绍请参见命令行工具。 使用命令行工具,用switch命令进入待操作的项目。
JupyterLab”,然后选择“Terminal”,进入Terminal界面。 图1 Terminal 例如,您可以执行wget命令在公开数据集中下载基因组测序数据。 图2 执行命令 父主题: Notebook
盘古药物分子大模型是基于华为与中科院上海药物所共同研发、专门面向药物研发领域推出的预训练大模型,旨在帮助医药公司开启AI辅助药物研发的新模式。盘古药物分子大模型学习了17亿个药物分子的化学结构,模型参数上亿,是目前最大的小分子药物模型。华为盘古药物分子大模型在分子生成、属性预测、生物活性预测和分子优化
盘古药物分子大模型是基于华为与中科院上海药物所共同研发、专门面向药物研发领域推出的预训练大模型,旨在帮助医药公司开启AI辅助药物研发的新模式。盘古药物分子大模型学习了17亿个药物分子的化学结构,模型参数上亿,是目前最大的小分子药物模型。华为盘古药物分子大模型在分子生成、属性预测、生物活性预测和分子优化
的数据。数据上传方法请参见上传数据。 若没有,可以先订阅资产市场里的示例数据进行分析,这里先用资产市场中的“人类基因组数据”和“NGS小数据集”进行分析。 图3 订阅数据 可以在“数据”列表可以看到刚刚订阅的流程。 图4 查看订阅的数据 步骤3:启动作业 在流程页面,单击“启动作
多的合理合成路径;路径数量减少,可能会有部分合理路径未展示。默认值50,取值范围1-50。 最大搜索深度:深度增加,每一个路径可进行搜索的深度限制增加,作业运行时间可能延长;深度减少,部分路径可能在还未搜索完成时被终止。默认值5,取值范围3-12。 最大搜索时间:合成路径规划的搜
JupyterLab”,然后选择“Terminal”,进入Terminal界面。 图5 Terminal 例如,您可以执行wget命令在公开数据集中下载基因组测序数据。 图6 执行命令 父主题: 开发环境(Notebook)
GenerationResultItem objects 分子生成结果条目 initial_dataset_size Integer 初始化数据集的分子条目数 strong_constraints Array of MoleculeConstraint objects 强约束集合 weak_constraints
测序数据质量的总体评估 评估测序的Reads数目,测序Base数,测序深度等。 低质量Reads过滤 过滤低质量的测序Reads,得到Clean Reads。 基因组比对 将Clean Reads比对到参考基因组上,同时输出比对率、深度、覆盖度的统计信息。 基因组变异检测 基于上述比对得到的b
Integer 期望最大返回条目数(排序后取TopN) 最小值:1 最大值:50 max_search_depth Integer 预测路径的最大深度 最小值:3 最大值:12 max_prediction_per_product Integer 每个产物的最大反应数量 最小值:2 最大值:20
Integer 期望最大返回条目数(排序后取TopN) 最小值:1 最大值:50 max_search_depth 是 Integer 预测路径的最大深度 最小值:3 最大值:12 max_prediction_per_product 是 Integer 每个产物的最大反应数量 最小值:2 最大值:20
输入的参考基因组序列,已经通过bwa构建了index。 依赖 Variant Sets GATK4在做Variant Calling阶段需要输入的参考Variants数据集。 输出 FastQC Report 原始测序数据的质控报告,以HTML文件形式展示。 输出 BamQC Report 测序比对数据的质量控制报告,以HTML文件的形式展示。
num_trials Integer 生成分子数量。 最小值:0 最大值:5000 initial_dataset_size Integer 初始化数据集的分子数目。当为-1时,表示分子数目未知。 最小值:-1 最大值:100000 binding_sites Array of BindSiteDto
Integer 期望最大返回条目数(排序后取TopN)。 最小值:1 最大值:50 max_search_depth Integer 预测路径的最大深度。 最小值:3 最大值:12 time_limit Integer 搜索最大时间,单位:分钟。 最小值:5 最大值:60 max_prediction_per_product
Integer 期望最大返回条目数(排序后取TopN)。 最小值:1 最大值:50 max_search_depth 是 Integer 预测路径的最大深度。 最小值:3 最大值:12 time_limit 是 Integer 搜索最大时间,单位:分钟。 最小值:5 最大值:60 max_pr
购买系统资源 医疗智能体平台购买完成后,单击“进入平台”,在平台右上角单击用户名,选择“系统资源”。 您可以根据实际需求选择购买计算资源、性能加速、数据库。在后续使用过程中,也可根据使用情况随时购买资源。 资源看板 在“资源看板”中,您可以实时监控计算资源、存储资源、性能加速、数据库的使用情况。