检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
当服务第二次启动时,可通过缓存文件来快速完成图编译的过程,避免长时间的等待,并且基于图编译缓存文件来启动服务可获得更优的推理性能,因此请在有图编译缓存文件的前提下启动服务。
针对于分布式场景,容错检查会检查本次训练作业的全部计算节点。 推理部署故障恢复 用户部署的在线推理服务运行过程中,如发生硬件故障导致推理实例故障,ModelArts会自动检测到并迁移受影响实例到其它可用节点,实例启动后恢复推理请求处理能力。
规格使用) 内核版本:147.5.1.6.h1099.eulerosv2r9.x86_64 架构类型:x86 集群类型:CCE Standard| 集群版本:v1.23|v1.25|v1.28(推荐) 集群规模:50|200|1000|2000 集群网络模式:容器隧道网络|VPC 分布式训练时仅支持容器隧道网络
LTS自动创建日志组和日志流,默认缓存7天内的运行日志。如需了解LTS专业日志管理功能,请参见云日志服务。 说明: “运行日志输出”开启后,不支持关闭。 LTS服务提供的日志查询和日志存储功能涉及计费,详细请参见了解LTS的计费规则。
当服务第二次启动时,可通过缓存文件来快速完成图编译的过程,避免长时间的等待,并且基于图编译缓存文件来启动服务可获得更优的推理性能,因此请在有图编译缓存文件的前提下启动服务。
当服务第二次启动时,可通过缓存文件来快速完成图编译的过程,避免长时间的等待,并且基于图编译缓存文件来启动服务可获得更优的推理性能,因此请在有图编译缓存文件的前提下启动服务。
表38 flavor_info 参数 参数类型 描述 max_num Integer 可以选择的最大节点数量(max_num,为1代表不支持分布式)。 cpu cpu object cpu规格信息。 gpu gpu object gpu规格信息。
参数类型 描述 key String 资源约束,可选值如下: 资源类型(flavor_type),对应值可选择CPU、GPU或Ascend; 是否支持多卡训练(device_distributed_mode),对应值可选择支持(multiple)、不支持(singular); 是否支持分布式训练
表44 FlavorInfo 参数 参数类型 描述 max_num Integer 可以选择的最大节点数量(max_num,为1代表不支持分布式)。 cpu Cpu object cpu规格信息。 gpu Gpu object gpu规格信息。
Ascend HCCL RANK_TABLE_FILE文件说明 Ascend HCCL RANK_TABLE_FILE文件提供Ascend分布式训练作业的集群信息,用于Ascend芯片分布式通信,可以被HCCL集合通信库解析。该文件格式有模板一和模板二两个版本。
当服务第二次启动时,可通过缓存文件来快速完成图编译的过程,避免长时间的等待,并且基于图编译缓存文件来启动服务可获得更优的推理性能,因此请在有图编译缓存文件的前提下启动服务。
ModelArts-成长地图 | 华为云 ModelArts ModelArts是面向开发者的一站式AI开发平台,为机器学习与深度学习提供海量数据预处理及半自动化标注、大规模分布式Training、自动化模型生成,及端-边-云模型按需部署能力,帮助用户快速创建和部署模型,管理全周期
表45 FlavorInfo 参数 参数类型 描述 max_num Integer 可以选择的最大节点数量(max_num,为1代表不支持分布式)。 cpu Cpu object cpu规格信息。 gpu Gpu object gpu规格信息。
通过OBS与SFS Turbo存储联动,可以将最新的训练数据导入到SFS Turbo,然后在训练作业中挂载SFS Turbo到容器对应ckpt目录,实现分布式读取训练数据文件。 创建SFS Turbo文件系统,详细操作指导请参考创建SFS Turbo文件系统。
通过OBS与SFS Turbo存储联动,可以将最新的训练数据导入到SFS Turbo,然后在训练作业中挂载SFS Turbo到容器对应ckpt目录,实现分布式读取训练数据文件。 创建SFS Turbo文件系统,详细操作指导请参考创建SFS Turbo文件系统。
表15 WorkflowDagPolicies 参数 参数类型 描述 use_cache Boolean 是否使用缓存。
可选值如下: multi:表示含有多标签样本 single:表示所有样本均为单标签 manifest_cache_input_path String 版本发布时的manifest文件缓存输入路径。
每层构建的时候都尽量把tar包等中间态文件删除,保证最终镜像更小,清理缓存的方法可参考:conda clean。
表47 FlavorInfo 参数 参数类型 描述 max_num Integer 可以选择的最大节点数量(max_num,为1代表不支持分布式)。 cpu Cpu object cpu规格信息。 gpu Gpu object gpu规格信息。
每层构建的时候都尽量把tar包等中间态文件删除,保证最终镜像更小,清理缓存的方法可参考:conda clean。