搜索_华为云

自定义镜像训练作业失败定位思路 - AI开发平台ModelArts

镜像过大会直接影响训练作业的启动时间。 ModelArts公共资源池的容器引擎空间为50G，专属资源池的容器引擎空间的默认为50G，支持在创建专属资源池时自定义容器引擎空间。确定错误类型提示找不到文件等错误，请参见训练作业日志中提示“No such file or directory”。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
开发环境权限 - AI开发平台ModelArts

开发环境权限表1 开发环境细化权限说明权限对应API接口授权项依赖的授权项 IAM项目企业项目创建开发环境实例 POST /v1/{project_id}/notebooks modelarts:notebook:create ecs:serverKeypairs:create

帮助中心 > AI开发平台ModelArts > API参考 > 权限策略和授权项
自动续费 - AI开发平台ModelArts
自动续费 - AI开发平台ModelArts

开通自动续费后，还可以手动续费该专属资源池。手动续费后，自动续费仍然有效，在新的到期时间前的第7天开始扣款。自动续费的到期前7日自动扣款属于系统默认配置，您也可以根据需要修改此扣款日，如到期前6日、到期前5日等。更多关于自动续费的规则介绍请参见自动续费规则说明。前提条件请确认包年/包月专属资源池还未到期。

帮助中心 > AI开发平台ModelArts > 计费说明 > 续费
更新团队标注任务 - AI开发平台ModelArts

标注团队名称，名称不能包含!<>=&"'，长度为0-1024位。表5 Worker 参数是否必选参数类型描述 create_time 否 Long 创建时间。 description 否 String 标注成员描述，长度为0-256位，不能包含^!<>=&"'特殊字符。 email 否 String

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
MaaS模型推理计费项 - AI开发平台ModelArts

- 事件通知（不开启则不计费）订阅消息使用消息通知服务，在事件列表中选择特定事件，在事件发生时发送消息通知。如果想使用消息通知，需要在创建训练作业时开启“事件通知”功能。具体计费可见消息通知服务价格详情。按实际用量付费发送短信通知费用构成：短信通知条数发送电子邮件费用构成：电子邮件+外网下行流量

 帮助中心 > AI开发平台ModelArts > 计费说明 > 计费项
推理精度测试 - AI开发平台ModelArts

mmlu_gen ceval_gen --debug -w ${output_path} output_path: 要保存的结果路径。（可选）创建新conda环境，安装vllm和opencompass。执行完之后，在 opencompass/configs/models/vllm/vllm_ppl

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911）
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

根据自己实际规划路径修改；如Qwen2-72B。具体步骤如下：进入到${workdir}目录下，如：/home/ma-user/ws，创建tokenizers文件目录将权重和词表文件放置此处，以Qwen2-72B为例。 cd /home/ma-user/ws mkdir -p

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 准备工作
执行训练任务（推荐） - AI开发平台ModelArts

度已经和GPU/CPU基线对齐。 lora微调场景不支持开启mc2。步骤三：启动任务创建test-benchmark，该目录存放训练生成的权重文件及训练日志可以多次执行， # 任意目录创建 mkdir test-benchmark 进入test-benchmark目录执行训练

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.5.901） > 执行训练任务
自定义模型规范 - AI开发平台ModelArts

return json.loads(os.getenv(ENV_AG_USER_PARAMS)) def _process_input_data(image_processor): # 加载数据集 dataset_path = os.getenv(ENV_AG_DATASET_DIR)

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型 > 构建模型
执行训练任务（推荐） - AI开发平台ModelArts

5系列、GLM4-9B模型执行lora微调策略任务如产生mc2融合算子错误，可参考mc2融合算子报错创建test-benchmark，该目录存放训练生成的权重文件及训练日志可以多次执行， # 任意目录创建 mkdir test-benchmark 进入test-benchmark目录执行训练

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务
日志提示“no socket interface found” - AI开发平台ModelArts

处理方法针对原因1，需要在代码中补充如下环境变量。 import os os.environ["NCCL_IB_TC"] = "128" os.environ["NCCL_IB_GID_INDEX"] = "3" os.environ["NCCL_IB_TIMEOUT"] = "22"

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
准备镜像环境 - AI开发平台ModelArts

-v ${work_dir}:${container_work_dir} 代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的文件系统。work_dir为宿主机中工作目录，目录下存放着训练所需代码、数据等文件。container_work_dir为要挂载到的容器中的目录。为方便两个地址可以相同。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 准备工作
准备镜像环境 - AI开发平台ModelArts

-v ${work_dir}:${container_work_dir} 代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的文件系统。work_dir为宿主机中工作目录，目录下存放着训练所需代码、数据等文件。container_work_dir为要挂载到的容器中的目录。为方便两个地址可以相同。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 准备工作
准备镜像环境 - AI开发平台ModelArts

-v ${work_dir}:${container_work_dir} 代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的文件系统。work_dir为宿主机中工作目录，目录下存放着训练所需代码、数据等文件。container_work_dir为要挂载到的容器中的目录。为方便两个地址可以相同。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 准备工作
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

-v ${work_dir}:${container_work_dir} 代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的文件系统。work_dir为宿主机中工作目录，目录下存放着训练所需代码、数据等文件。container_work_dir为要挂载到的容器中的目录。为方便两个地址可以相同。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU训练指导（6.3.905） > 准备工作
使用ModelArts Standard一键完成商超商品识别模型部署 - AI开发平台ModelArts

在“访问授权”页面，选择需要授权的“授权对象类型”，选择新增委托及其对应的权限“普通用户”，并勾选“我已经详细阅读并同意《ModelArts服务声明》”，然后单击“创建”。完成配置后，在ModelArts控制台的权限管理列表，可查看到此账号的委托配置信息。步骤2：订阅模型 “商超商品识别”的模型共享在AI

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

根据自己实际规划路径修改；如Qwen2-72B。具体步骤如下：进入到${workdir}目录下，如：/home/ma-user/ws，创建tokenizers文件目录将权重和词表文件放置此处，以Qwen2-72B为例。 cd /home/ma-user/ws mkdir -p

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.5.901） > 准备工作
准备镜像环境 - AI开发平台ModelArts

-v ${work_dir}:${container_work_dir} 代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的文件系统。work_dir为宿主机中工作目录，目录下存放着训练所需代码、数据等文件。container_work_dir为要挂载到的容器中的目录。为方便两个地址可以相同。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 准备工作
在开发环境中部署本地服务进行调试 - AI开发平台ModelArts

（如CPU规格，GPU规格）由表3 predictor configs结构决定。部署在线服务Predictor需要线上服务端根据AI引擎创建容器，较耗时；本地Predictor部署较快，最长耗时10s，可用以测试模型，不建议进行模型的工业应用。当前版本支持部署本地服务Pred

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
准备镜像环境 - AI开发平台ModelArts

-v ${work_dir}:${container_work_dir} 代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的文件系统。work_dir为宿主机中工作目录，目录下存放着训练所需代码、数据等文件。container_work_dir为要挂载到的容器中的目录。为方便两个地址可以相同。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.907） > 准备工作

总条数： 1512

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

自定义镜像训练作业失败定位思路 - AI开发平台ModelArts

开发环境权限 - AI开发平台ModelArts

自动续费 - AI开发平台ModelArts

更新团队标注任务 - AI开发平台ModelArts

MaaS模型推理计费项 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

执行训练任务（推荐） - AI开发平台ModelArts

自定义模型规范 - AI开发平台ModelArts

执行训练任务（推荐） - AI开发平台ModelArts

日志提示“no socket interface found” - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

使用ModelArts Standard一键完成商超商品识别模型部署 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

在开发环境中部署本地服务进行调试 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线