检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
和PP流水线并行(pipeline-model-parallel-size),可以尝试增加TP和PP的值,一般TP×PP≤NPU数量,并且要被整除,具体调整值可参照表2进行设置。 可调整参数:MBS指最小batch处理的样本量(micro-batch-size)、GBS指一个iteration所处理的样本量(gl
和PP流水线并行(pipeline-model-parallel-size),可以尝试增加 TP和PP的值,一般TP×PP≤NPU数量,并且要被整除,具体调整值可参照表2进行设置。 可调整参数:MBS指最小batch处理的样本量(micro-batch-size)、GBS指一个iteration所处理的样本量(gl
和PP流水线并行(pipeline-model-parallel-size),可以尝试增加 TP和PP的值,一般TP×PP≤NPU数量,并且要被整除,具体调整值可参照表1进行设置。 可调整参数:MBS指最小batch处理的样本量(micro-batch-size)、GBS指一个iteration所处理的样本量(gl
wf.AlgorithmParameters(name="save_model_secs", value=wf.Placeholder(name="save_model_secs", placeholder_type=wf.PlaceholderType.INT, default=60
5之间的整数。 是否自动停止:启用该参数并设置时间后,服务将在指定时间后自动停止。如果不启用此参数,在线服务将一直运行,同时一直收费,自动停止功能可以帮您避免产生不必要的费用。默认开启自动停止功能,且默认值为“1小时后”。 目前支持设置为“1小时后”、“2小时后”、“4小时后”、
5之间的整数。 是否自动停止:启用该参数并设置时间后,服务将在指定时间后自动停止。如果不启用此参数,在线服务将一直运行,同时一直收费,自动停止功能可以帮您避免产生不必要的费用。默认开启自动停止功能,且默认值为“1小时后”。 目前支持设置为“1小时后”、“2小时后”、“4小时后”、
表2 请求Header参数 参数 是否必选 参数类型 描述 Content-Type 否 String 消息体的类型。设置为text/plain,返回临时预览链接。设置为application/octet-stream,返回临时下载链接。 X-Auth-Token 是 String 用户token。
挂载到训练容器中的路径。 read_only Boolean nfs挂载卷在容器中是否只读。 表53 log_export_path 参数 参数类型 描述 obs_url String 训练作业日志保存的OBS地址。 host_path String 训练作业日志保存的宿主机的路径。 表54 调用训练接口失败响应参数
准备镜像 镜像方案说明 ECS获取和上传基础镜像 使用基础镜像 ECS中构建新镜像 父主题: 准备工作
准备镜像 镜像方案说明 ECS获取和上传基础镜像 使用基础镜像 ECS中构建新镜像 父主题: 准备工作
Notebook中构建新镜像 ModelArts中注册镜像 通过ECS获取和上传基础镜像将基础镜像上传后,可在SWR中查看已上传的镜像。但在ModelArts中还需要完成镜像注册后,才能在后续的Notebook中使用。镜像注册的操作步骤如下: 登录ModelArts管理控制台,在左侧导航栏单击“镜像管理”。
TMS标签的value。长度不能超过255个字符。 响应参数 状态码: 204 表4 响应Body参数 参数 参数类型 描述 - String 请求示例 创建训练作业标签。设置TMS标签的key/value为“111”和“k3”,TMS标签的key/value为"k3"和“v2”。 POST https:/
面。 选择运行中的Notebook实例,单击实例名称,进入Notebook实例详情页面,单击“扩容”。 图2 Notebook实例详情页 设置待扩充的存储容量大小,单击“确定”。系统显示“扩容中”,扩容成功后,可以看到扩容后的存储容量。 图3 扩容 图4 扩容中 父主题: 管理Notebook实例
挂载到训练容器中的路径。 read_only Boolean nfs挂载卷在容器中是否只读。 表53 log_export_path 参数 参数类型 描述 obs_url String 训练作业日志保存的OBS地址。 host_path String 训练作业日志保存的宿主机的路径。 表54 调用训练接口失败响应参数
json,并复制到NPU节点的容器内,将NPU设备训练输出的trainer_state.json文件重命名为trainer_state_npu.json。 对其进行解析就可以获取loss信息,这里可以使用如下脚本进行loss曲线的绘制。 # compare_metric.py import json import
准备镜像 镜像方案说明 ECS获取和上传基础镜像 使用基础镜像 ECS中构建新镜像 父主题: 准备工作
准备镜像 镜像方案说明 ECS获取和上传基础镜像 使用基础镜像 ECS中构建新镜像 父主题: 准备工作
NoDiscount instance_num Integer 当前用户创建的该规格实例的数量。 duration Integer 启动后设置的自动停止时间,单位为秒。 store_time Integer 该规格实例处于非活跃状态,在数据库最长保存的时长。单位为小时。 默认为“-1”
准备镜像 镜像方案说明 ECS获取和上传基础镜像 使用基础镜像 ECS中构建新镜像 Notebook中构建新镜像 父主题: 准备工作
n/AscendSpeed/model/llama2-70B 必须修改。加载tokenizer与Hugging Face权重时,对应的存放地址。请根据实际规划修改。 对于ChatGLMv3-6B和Qwen系列模型,还需要手动修改tokenizer文件,具体请参见训练tokenizer文件说明。