检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
objects 资源池中的资源规格信列表,包括资源规格和相应规格的资源数量。 network network object 资源池网络参数。物理资源池时必选。 jobFlavors Array of strings 资源池支持的作业规格信息列表,内容为作业规格名称。 driver PoolDriver
镜像适配的Cann版本是cann_8.0.rc3。 驱动版本:23.0.6。 PyTorch版本:2.1.0。 确保容器可以访问公网。 资源规格要求 推荐使用“西南-贵阳一”Region上的DevServer资源和Ascend Snt9B。 获取软件和镜像 表1 获取软件和镜像 分类
模型运行时环境,系统默认使用python2.7。runtime可选值与model_type相关,当model_type设置为Image时,不需要设置runtime,当model_type设置为其他常用框架时,请选择您使用的引擎所对应的运行时环境。目前支持的运行时环境列表请参见推理支持的AI引擎。
存储限制 根据规格情况合理使用数据盘,数据盘大小请参考训练环境中不同规格资源大小。 CPU过载 减少线程数。 排查办法 根据错误信息判断,报错原因来源于用户代码。 您可以通过以下两种方式排查: 线上环境调试代码(仅适用于非分布式代码) 在开发环境(notebook)申请相同规格的开发环境实例。
tLarge使用FP32。 - 模型变更频率 模型变更场景如下: 数据增量,模型算子未变更。 数据增量,模型算子变化,例如: 网络结构变化。 AI框架版本升级,使用了新版本算子。 例如:每半年对模型进行一次变更,变更的内容包含模型结构,并升级AI框架。 - 是否使用华为MDC产品
注意:该文件夹从Megatron-LM中复制得到 |——... 训练作业的资源池以及ECS都需要连通公网,否则会安装和下载失败。资源池打通公网配置请参见配置Standard专属资源池访问公网,ECS打通公网配置请参见ECS绑定弹性公网IP。 父主题: 准备镜像
注意:该文件夹从Megatron-LM中复制得到 |——... 训练作业的资源池以及ECS都需要连通公网,否则会安装和下载失败。资源池打通公网配置请参见配置Standard专属资源池访问公网,ECS打通公网配置请参见ECS绑定弹性公网IP。 父主题: 准备镜像
问并编辑以上源码文件。编辑完成后重新构建新镜像。 训练作业的资源池以及ECS都需要连通公网,否则会安装和下载失败。资源池打通公网配置请参见配置Standard专属资源池访问公网,ECS打通公网配置请参见ECS绑定弹性公网IP。 父主题: 准备镜像
注意:该文件夹从Megatron-LM中复制得到 |——... 训练作业的资源池以及ECS都需要连通公网,否则会安装和下载失败。资源池打通公网配置请参见配置Standard专属资源池访问公网,ECS打通公网配置请参见ECS绑定弹性公网IP。 父主题: 准备镜像
29a CANN:cann_8.0.rc2 PyTorch:2.1.0 基础镜像的使用 用户通过ECS获取和上传基础镜像步骤拉取基础镜像并上传至SWR中。随后可通过使用基础镜像、ECS中构建新镜像、Notebook中构建新镜像的方式(三选一)来部署训练环境。方案的区别如下: 直接
问并编辑以上源码文件。编辑完成后重新构建新镜像。 训练作业的资源池以及ECS都需要连通公网,否则会安装和下载失败。资源池打通公网配置请参见配置Standard专属资源池访问公网,ECS打通公网配置请参见ECS绑定弹性公网IP。 父主题: 准备镜像
注意:该文件夹从Megatron-LM中复制得到 |——... 训练作业的资源池以及ECS都需要连通公网,否则会安装和下载失败。资源池打通公网配置请参见配置Standard专属资源池访问公网,ECS打通公网配置请参见ECS绑定弹性公网IP。 父主题: 准备镜像
String 模型来源的类型,当前仅可取值auto,用于区分通过自动学习部署过来的模型(不提供模型下载功能);用户通过训练作业部署的模型不设置此值。默认值为空。 model_type 是 String 模型类型,取值为:TensorFlow/MXNet/Spark_MLlib/S
辑完成后重新构建新镜像。 注意:训练作业的资源池以及ECS都需要联通外网,否则会安装和下载失败。 ECS获取和上传基础镜像 创建ECS。 下文中介绍如何在ECS中构建一个训练镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行
本文档适配昇腾云ModelArts 6.3.911版本,请参考表1获取配套版本的软件包和镜像,请严格遵照版本配套关系使用本文档。 确保容器可以访问公网。 资源规格要求 推荐使用“西南-贵阳一”Region上的DevServer资源和Ascend Snt9B。 软件配套版本 表1 获取软件 分类 名称
问并编辑以上源码文件。编辑完成后重新构建新镜像。 训练作业的资源池以及ECS都需要连通公网,否则会安装和下载失败。资源池打通公网配置请参见配置Standard专属资源池访问公网,ECS打通公网配置请参见ECS绑定弹性公网IP。 父主题: 准备镜像
问并编辑以上源码文件。编辑完成后重新构建新镜像。 训练作业的资源池以及ECS都需要连通公网,否则会安装和下载失败。资源池打通公网配置请参见配置Standard专属资源池访问公网,ECS打通公网配置请参见ECS绑定弹性公网IP。 父主题: 准备镜像
|──llama-factory.patch 训练作业的资源池以及ECS都需要连通公网,否则会安装和下载失败。资源池打通公网配置请参见配置Standard专属资源池访问公网,ECS打通公网配置请参见ECS绑定弹性公网IP。 父主题: 准备镜像
with_execution_id 表示创建目录时是否拼接execution_id,默认为“False”。该字段只有在create_dir为True时才支持设置为True。 否 bool 使用示例如下: 实现InputStorage相同的能力 import modelarts.workflow as
Cluster资源池 管理Lite Cluster节点池 管理Lite Cluster节点 扩缩容Lite Cluster资源池 升级Lite Cluster资源池驱动 升级Lite Cluster资源池单个节点驱动 管理Lite Cluster资源池的游离节点 监控Lite Cluster资源