检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
前支持“按节点比例”和“按实例数量”两种滚动方式。 按节点比例:每批次驱动升级的实例数量为“节点比例*资源池实例总数”。 按实例数量:可以设置每批次驱动升级的实例数量。 对于不同的升级方式,滚动升级选择实例的策略会不同: 如果升级方式为安全升级,则根据滚动节点数量选择无业务的节点,隔离节点并滚动升级。
问题4:Error waiting on exit barrier错误 错误截图: 报错原因:多线程退出各个节点间超时时间默认为300s,时间设置过短。 解决措施: 修改容器内torch/distributed/elastic/agent/server/api.py文件参数: vim
resource_requirements 否 Array of ResourceRequirement objects 算法资源约束。可不设置。设置后,在算法使用于训练作业时,控制台会过滤可用的公共资源池。 advanced_config 否 AlgorithmAdvancedConfig
规格与节点数中的1*节点 & 4*Ascend表示单机4卡,以此类推。 表1 不同模型推荐的参数与NPU卡数设置 序号 支持模型 支持模型参数量 文本序列长度 并行参数设置 规格与节点数 1 llama2 llama2-7b SEQ_LEN=4096 TP(tensor model
open(txt_path, 'w') as file: file.write(data['prompt']) 步骤六:设置宿主机文件权限 chmod -R 777 ${work_dir} 步骤七:进入容器 通过容器名称进入容器中。默认使用ma-user用户执行后续命令。
String 执行的时长。 events Array of strings 执行的事件。 labels Array of strings 为执行记录设置的标签。 data_requirements Array of DataRequirement objects 节点steps使用到的数据。
session 是 Object 会话对象,初始化方法请参考Session鉴权。 offset 否 Integer 查询作业的偏移量,最小为0。例如设置为1,则表示从第二条开始查。 limit 否 Integer 查询作业的限制量。最小为1,最大为50。 sort_by 否 String
desc:递减排序(默认值) process_parameter 否 String 图像缩略设置,同OBS缩略图设置,详见OBS缩略图设置。如:image/resize,m_lfit,h_200表示等比缩放目标缩略图并设置高度为200像素。 search_conditions 否 String U
String 执行的时长。 events Array of strings 执行的事件。 labels Array of strings 为执行记录设置的标签。 data_requirements Array of DataRequirement objects 节点steps使用到的数据。
300;350,350,350;400,400,400;450,450,450;512,512,512" 其中input_shape中的-1表示设置动态seq_len,ge.dynamicDims表示支持的seq_len值,可根据实际业务场景选取要支持的seq_len,上面的配置表示模型的三个输入shape支持[1
准备镜像 准备训练模型适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置物理机环境操作。 镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 基础镜像 swr.cn-southwest-2
|──AscendSpeed # 基于AscendSpeed的训练代码 工作目录介绍 详细的工作目录参考如下,建议参考以下要求设置工作目录。 ${workdir}(例如/home/ma-user/ws ) |──llm_train
|──AscendSpeed # 基于AscendSpeed的训练代码 工作目录介绍 详细的工作目录参考如下,建议参考以下要求设置工作目录。 ${workdir}(例如/home/ma-user/ws ) |──llm_train
|──AscendSpeed # 基于AscendSpeed的训练代码 工作目录介绍 详细的工作目录参考如下,建议参考以下要求设置工作目录。 ${workdir}(例如/home/ma-user/ws ) |──llm_train
变化,修改用于标注的标签。支持添加、修改和删除标签。 添加标签 在“未标注”页签下,单击“标签集”右侧的加号,在弹出“新增标签”对话框中,设置“标签名称”和“标签颜色”,然后单击“确定”完成标签添加。 修改标签 在“已标注”页签中“全部标签”的下方操作列,选择需要修改的标签,单击
WorkflowStorage objects Workflow包含的统一存储定义。 labels Array of strings 为Workflow工作流设置的标签。 assets Array of WorkflowAsset objects 工作流绑定的资产。 sub_graphs Array
准备镜像 准备训练模型适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置物理机环境操作。 镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 基础镜像 swr.cn-southwest-2
|──AscendSpeed # 基于AscendSpeed的训练代码 工作目录介绍 详细的工作目录参考如下,建议参考以下要求设置工作目录。 ${workdir}(例如/home/ma-user/ws ) |──llm_train
|──AscendSpeed # 基于AscendSpeed的训练代码 工作目录介绍 详细的工作目录参考如下,建议参考以下要求设置工作目录。 ${workdir}(例如/home/ma-user/ws ) |──llm_train
resource_requirements Array of resource_requirements objects 算法资源约束,可不设置。设置后,在算法使用于训练作业时,控制台会过滤可用的公共资源池。 advanced_config advanced_config object