检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
头,长度限制为64字符)。同一个Step的输入名称不能重复 是 str data 服务部署节点的输入数据对象 是 模型列表或服务相关对象,当前仅支持ServiceInputPlaceholder,ServiceData,ServiceUpdatePlaceholder 表3 ServiceOutput
桶(存放代码)”,采用分布式训练。 表1 不同场景所需服务及购买推荐 场景 OBS SFS SWR DEW ModelArts VPC ECS EVS 单机单卡 按需购买。(并行文件系统) × 免费。 免费。 包月购买。 免费。 × 按需购买。 单机多卡 × 包月购买。 (HPC型500G)
C-6.3.912-xxx.zip 文件名中的xxx表示具体的时间戳,以包名发布的实际时间为准。 获取路径:Support-E,在此路径中查找下载ModelArts 6.3.912 版本。 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。
若重启后,还是会Pending,建议多重复重启几次。 其他实例调度失败问题 首先通过打印Pod日志信息。根据错误信息,可通过访问官网链接:工作负载异常:实例调度失败,进行查找。 如何删除config.yaml创建出的所有工作负载Pod 若要删除config.yaml创建出的所有工作负载Pod,需要先找到config
若重启后,还是会Pending,建议多重复重启几次。 其他实例调度失败问题 首先通过打印Pod日志信息。根据错误信息,可通过访问官网链接:工作负载异常:实例调度失败,进行查找。 如何删除config.yaml创建出的所有工作负载Pod 若要删除config.yaml创建出的所有工作负载Pod,需要先找到config
<NODE_RANK=0> sh scripts/llama2/0_pl_sft_13b.sh localhost 1 0 训练完成后,请参考查看日志和性能章节查看SFT微调的日志和性能。 父主题: 主流开源大模型基于Lite Server适配PyTorch NPU训练指导(6.3.905)
练大规模模型时,可以通过设置这个参数来控制日志的输出。 --prompt-type:需要指定使用模型的template。已支持的系列模型可查看:文档更新内容。 输出数据预处理结果路径: 训练完成后,以 llama2-13b 为例,输出数据路径为:/home/ma-user/wor
练大规模模型时,可以通过设置这个参数来控制日志的输出。 --prompt-type:需要指定使用模型的template。已支持的系列模型可查看:文档更新内容。 输出数据预处理结果路径: 训练完成后,以 llama2-13b 为例,输出数据路径为:/home/ma-user/ws/
docker-engine-selinux.noarch docker-runc.aarch64 配置IP转发,用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值,如果为1,可跳过此步骤。 sysctl -p | grep net.ipv4.ip_forward
docker-engine-selinux.noarch docker-runc.aarch64 配置IP转发,用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值,如果为1,可跳过此步骤。 sysctl -p | grep net.ipv4.ip_forward
e_id} 表1 路径参数 参数 是否必选 参数类型 描述 instance_id 是 String Notebook实例ID,可通过调用查询Notebook实例列表接口获取。 project_id 是 String 用户项目ID,获取方法请参见获取项目ID和名称。 storage_id
String 用户项目ID。获取方法请参见获取项目ID和名称。 training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。 trial_id 是 String 超参搜索的trial_id。 请求参数 无 响应参数 状态码:200 表2 响应Body参数
<NODE_RANK=0> sh scripts/llama2/0_pl_lora_13b.sh localhost 1 0 训练完成后,请参考查看日志和性能章节查看LoRA微调训练的日志和性能。 父主题: 主流开源大模型基于Lite Server适配PyTorch NPU训练指导(6.3.905)
processed_for_ma_input/llama2-13b/converted_weights_TP${TP}PP${PP}目录下查看转换后的权重文件。 Megatron转HuggingFace参数说明 训练完成的权重文件默认不会自动转换为Hugging Face格式权重
API所属服务名称,支持模糊查找。 sort_by 否 String 返回的APP列表按何属性排序,可选值包括app_name、created_at、updated_at。默认为name。 workspace_id 否 String 工作空间ID。获取方法请参见查询工作空间列表。未创建工
C-6.3.912-xxx.zip 文件名中的xxx表示具体的时间戳,以包名发布的实际时间为准。 获取路径:Support-E,在此路径中查找下载ModelArts 6.3.912 版本。 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。
间生效。 工作空间的约束与权限授权的约束是叠加生效的,意味着对于一个用户,必须同时拥有工作空间的访问权和训练任务的创建权限(且该权限覆盖至当前的工作空间),他才可以在这个空间里提交训练任务。 对于已经开通企业项目但没有开通工作空间的用户,其所有操作均相当于在“default”企业
m_train/saved_dir_for_output/llama2-13b/saved_models/。 训练完成后,请参考查看日志和性能章节查看SFT微调的日志和性能。 父主题: 主流开源大模型基于Lite Server适配PyTorch NPU训练指导(6.3.906)
训练作业中存在2个代码目录,一个是从OBS上传到ModelArts Standard训练容器中的代码目录OBS_CODE_DIR,一个是后续构建新镜像步骤ECS中构建新镜像中镜像的代码目录CODE_DIR。修改代码如图1。 图1 修改区分训练作业中2个代码目录 使用环境变量SAVE_PATH重新覆
SFS Turbo的存储加速实践。 表1 不同场景所需服务及购买推荐 场景 OBS SFS SWR DEW ModelArts VPC ECS EVS 单机单卡 按需购买(并行文件系统) × 免费 免费 包月购买 免费 × 按需购买 单机多卡 × 包月购买 (HPC型500G) 免费