搜索_华为云

准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

训练作业中存在2个代码目录，一个是从OBS上传到ModelArts Standard训练容器中的代码目录OBS_CODE_DIR，一个是后续构建新镜像步骤ECS中构建新镜像中镜像的代码目录CODE_DIR。修改代码如图1。图1 修改区分训练作业中2个代码目录使用环境变量SAVE_PATH重新覆

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.908） > 准备工作
run.sh脚本测试ModelArts训练整体流程 - AI开发平台ModelArts

ModelArts的容器会有一个/cache目录，这个目录挂载的硬盘容量最大。建议下载数据和中间数据都存到这个目录中，防止因硬盘占满导致任务失败。父主题： FAQ

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > FAQ
训练作业日志中提示“No module named .*” - AI开发平台ModelArts

bleach==1.4.3 click==6.6 依赖包为whl包时如果训练后台不支持下载开源安装包或者使用用户编译的whl包时，由于系统无法自动下载并安装，因此需要在“代码目录”放置此whl包，同时创建一个命名为“pip-requirements.txt”的文件，并且在文件中指定此whl包的包名。依赖包必须为“

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
ma-cli ma-job训练作业支持的命令 - AI开发平台ModelArts

--page-num Int 否页面索引，默认是第1页。 -ps / --page-size Int 否每页显示的训练作业数量，默认是10。 -v / --verbose Bool 否显示详细的信息开关，默认关闭。示例：查询指定任务ID的训练作业。 ma-cli ma-job get-job

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > ModelArts CLI命令参考
附录：训练常见问题 - AI开发平台ModelArts

barrier_timeout=3000 图1 修改后的barrier_timeout参数问题5：训练完成使用vllm0.6.0框架推理失败：错误截图：报错原因：训练时transformers版本要求为4.45.0，训练完成后保存的tokenizer.json文件中的“m

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909）
附录：训练常见问题 - AI开发平台ModelArts

barrier_timeout=3000 图1 修改后的barrier_timeout参数问题5：训练完成使用vllm0.6.0框架推理失败：错误截图：报错原因：训练时transformers版本要求为4.45.0，训练完成后保存的tokenizer.json文件中的“m

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910）
附录：训练常见问题 - AI开发平台ModelArts

barrier_timeout=3000 图1 修改后的barrier_timeout参数问题5：训练完成使用vllm0.6.0框架推理失败：错误截图：报错原因：训练时transformers版本要求为4.45.0，训练完成后保存的tokenizer.json文件中的“m

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.911）
扩缩容Lite Cluster资源池 - AI开发平台ModelArts

在“专属资源池扩缩容”页面，可通过增减“目标总实例数”实现扩缩容，请用户根据本身业务诉求进行调整。增加目标总实例数即表示扩容，减少目标总实例数即表示缩容。若购买资源池时，节点数量采用整柜方式购买（部分规格支持），则在扩缩容时为整柜方式扩缩容，目标总实例数等于“数量*整柜”。“整柜”参数

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
旧版训练迁移至新版训练需要注意哪些问题？ - AI开发平台ModelArts

“/home/work”的硬编码。提供预置引擎类型有差异。新版的预置引擎在常用的训练引擎上进行了升级。如果您需要使用旧版训练引擎，单击显示旧版引擎即可选择旧版引擎。新旧版支持的预置引擎差异请参考表1。详细的训练引擎版本说明请参考新版训练和旧版训练分别支持的AI引擎。表1 新旧版预置引擎差异

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 功能咨询
训练中的权重转换说明 - AI开发平台ModelArts

json、special_tokens_map.json等tokenizer文件或者其他json文件。若缺少则需要直接复制至权重转换后的文件夹中，否则不能直接用于推理。用户自定义执行权重转换参数修改说明同样以 llama2 为例，用户可直接编辑 scripts/llama2/2_convert_mg_hf

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.909） > 训练脚本说明
如何删除预置镜像中不需要的工具 - AI开发平台ModelArts

如何删除预置镜像中不需要的工具预置的基础镜像中存在cpp、gcc等调试/编译工具，如果您不需要使用这些工具，可以通过运行脚本删除。创建一个run.sh脚本文件，文件中的代码内容如下。然后在容器中执行sh run.sh命令运行脚本。 #!/bin/bash delete_sniff_compiler()

帮助中心 > AI开发平台ModelArts > 常见问题 > 一般性问题
查询Workflow Execution - AI开发平台ModelArts

creating：创建中 created：创建成功 create_failed：创建失败 running：运行中 stopping：停止中 stopped：停止 timeout：超时 completed：完成 failed：失败 hold：持有 skipped：跳过 inputs Array of

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
训练中的权重转换说明 - AI开发平台ModelArts

json、special_tokens_map.json等tokenizer文件或者其他json文件。若缺少则需要直接复制至权重转换后的文件夹中，否则不能直接用于推理。用户自定义执行权重转换参数修改说明同样以 llama2 为例，用户可直接编辑 scripts/llama2/2_convert_mg_hf

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.910） > 训练脚本说明
训练的权重转换说明 - AI开发平台ModelArts

json、special_tokens_map.json等tokenizer文件或者其他json文件。如果缺少则需要直接复制至权重转换后的文件夹中，否则不能直接用于推理。用户自定义执行权重转换参数修改说明如果用户要自定义数据处理脚本并且单独执行，同样以 llama2 为例。注意脚本中的python命令分别有Hugging

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.908） > 训练脚本说明
训练中的权重转换说明 - AI开发平台ModelArts

json、special_tokens_map.json等tokenizer文件或者其他json文件。若缺少则需要直接复制至权重转换后的文件夹中，否则不能直接用于推理。用户自定义执行权重转换参数修改说明同样以 llama2 为例，用户可直接编辑 scripts/llama2/2_convert_mg_hf

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.911） > 训练脚本说明
模型训练存储加速 - AI开发平台ModelArts

模型训练存储加速针对AI训练场景中大模型Checkpoint保存和加载带来的I/O挑战，华为云提供了基于对象存储服务OBS+高性能弹性文件服务SFS Turbo的AI云存储解决方案，如下图所示。 SFS Turbo HPC型支持和OBS数据联动，您可以通过SFS Turbo H

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
查询处理任务列表 - AI开发平台ModelArts

status 否 Integer 指定查询的任务状态，不传则默认是查询所有状态的任务。可选值如下： 0：初始化 1：运行中 2：已完成 3：失败 4：停止 task_name 否 String 模糊匹配名称。 task_type 否 String 任务类型，即数据处理模板ID。可选值如下：

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
Cluster资源池节点故障如何定位 - AI开发平台ModelArts

常，请联系技术人员支持。发起维修流程。 NT_NPU_ECC_COUNT NPU 显存 NPU ECC次数达到维修阈值。 NPU的HBM总的多Bit Ecc隔离地址记录达到64个。发起维修流程。 NT_NET_NTP_CHECK Runtime 其他 ntp异常。 ntpd或者chronyd服务异常。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
更新资源池 - AI开发平台ModelArts

是否必选参数类型描述 os.modelarts/description 否 String 资源池描述信息，用于说明资源池用于某种指定场景。不能包含特殊字符!<>=&"'。 os.modelarts/order.id 否 String 订单id，包周期创建和变更的时候需要传递该参数。

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
管理Lite Cluster资源池 - AI开发平台ModelArts

Dropcache：开启后表示启用Linux的缓存清理功能，是一种应用性能调优手段，在大部分场景下可以提升应用性能。但是清除缓存也可能会导致容器启动失败或系统性能暂时下降（因为系统需要重新从磁盘加载数据到内存中）。关闭表示不启用缓存清理功能。大页内存：开启表示配置使用透明大页功能。大页内

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理

总条数： 1279

上一页
1
...
57
58
59
...
64
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

准备代码 - AI开发平台ModelArts

run.sh脚本测试ModelArts训练整体流程 - AI开发平台ModelArts

训练作业日志中提示“No module named .*” - AI开发平台ModelArts

ma-cli ma-job训练作业支持的命令 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

扩缩容Lite Cluster资源池 - AI开发平台ModelArts

旧版训练迁移至新版训练需要注意哪些问题？ - AI开发平台ModelArts

训练中的权重转换说明 - AI开发平台ModelArts

如何删除预置镜像中不需要的工具 - AI开发平台ModelArts

查询Workflow Execution - AI开发平台ModelArts

训练中的权重转换说明 - AI开发平台ModelArts

训练的权重转换说明 - AI开发平台ModelArts

训练中的权重转换说明 - AI开发平台ModelArts

模型训练存储加速 - AI开发平台ModelArts

查询处理任务列表 - AI开发平台ModelArts

Cluster资源池节点故障如何定位 - AI开发平台ModelArts

更新资源池 - AI开发平台ModelArts

管理Lite Cluster资源池 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线