搜索_华为云

附录：训练常见问题 - AI开发平台ModelArts

Error: No module named 'tyro'" 错误截图：报错原因：未指定tyro依赖包版本，导致安装依赖为最新0.9.0版本导致与其他依赖冲突解决措施：任务前容器内更新'tyro'版本为0.8.14或以下版本 pip install tyro==0.8.14 父主题：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.911）
准备镜像环境 - AI开发平台ModelArts

行工具，使用方式和docker命令基本一致，可用于后续镜像构建步骤中。 # 下载 nerdctl 工具，注意使用的是1.7.6 arm64版本 wget https://github.com/containerd/nerdctl/releases/download/v1.7.6/nerdctl-1

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911） > 准备工作
获取API授权关系列表 - AI开发平台ModelArts

app_name：应用名称。 created_at：应用创建时间。 updated_at：应用更新时间。默认为app_name。 workspace_id 否 String 工作空间ID。获取方法请参见查询工作空间列表。未创建工作空间时默认值为“0”，存在创建并使用的工作空间，以实际取值为准。

帮助中心 > AI开发平台ModelArts > API参考 > APP认证管理
准备镜像环境 - AI开发平台ModelArts

行工具，使用方式和docker命令基本一致，可用于后续镜像构建步骤中。 # 下载 nerdctl 工具，注意使用的是1.7.6 arm64版本 wget https://github.com/containerd/nerdctl/releases/download/v1.7.6/nerdctl-1

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作
管理Workflow Execution - AI开发平台ModelArts

String 工作流执行ID。 description String 执行记录描述。 status String 执行记录状态。 workspace_id String 工作空间ID。 workflow_id String Workflow工作流ID。 workflow_name

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
准备镜像环境 - AI开发平台ModelArts

行工具，使用方式和docker命令基本一致，可用于后续镜像构建步骤中。 # 下载 nerdctl 工具，注意使用的是1.7.6 arm64版本 wget https://github.com/containerd/nerdctl/releases/download/v1.7.6/nerdctl-1

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作
准备镜像环境 - AI开发平台ModelArts

行工具，使用方式和docker命令基本一致，可用于后续镜像构建步骤中。 # 下载 nerdctl 工具，注意使用的是1.7.6 arm64版本 wget https://github.com/containerd/nerdctl/releases/download/v1.7.6/nerdctl-1

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作
精度调优前准备工作 - AI开发平台ModelArts

荐在条件允许的前提下配套安装最新商发版本的昇腾开发套件CANN Toolkit、昇腾驱动以及torch_npu包。具体操作，请参考昇腾商用版资源下载指导。数据集。需要排查是否使用的训练数据集存在差异。初始权重。需要排查是否加载的初始权重有差异，建议加载相同的初始权重。父主题：

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
查询训练作业列表 - AI开发平台ModelArts

查询作业排列顺序，默认为“desc”，降序排序。也可以选择对应的“asc”，升序排序。 group_by String 查询作业要搜索的分组条件。 workspace_id String 作业所处的工作空间，默认值为“0”。 ai_project String 作业所属的ai项目，默认值为"default-ai-project"。

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
附录：训练常见问题 - AI开发平台ModelArts

Error: No module named 'tyro'" 错误截图：报错原因：未指定tyro依赖包版本，导致安装依赖为最新0.9.0版本导致与其他依赖冲突解决措施：任务前容器内更新'tyro'版本为0.8.14或以下版本 pip install tyro==0.8.14 问题7：训练过程中报“an

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912）
查询处理任务详情 - AI开发平台ModelArts

version_name String 数据处理任务对应的数据集版本名称。 work_path WorkPath object 数据处理任务的工作目录。 workspace_id String 数据处理任务的工作空间ID。未创建工作空间时默认值为“0”，存在创建并使用的工作空间，以实际取值为准。表3 ProcessorDataSource

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
ma-cli ma-job训练作业支持的命令 - AI开发平台ModelArts

TEXT Training job framework version. --workspace-id TEXT The workspace where you submit training job(default "0") --policy

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > ModelArts CLI命令参考
以PyTorch框架创建训练作业（新版训练） - AI开发平台ModelArts

cpu in mode gloo", "create_time": 1641890623262, "workspace_id": "0", "ai_project": "default-ai-project", "user_name":

帮助中心 > AI开发平台ModelArts > API参考 > 应用示例
查看ModelArts模型详情 - AI开发平台ModelArts

部署：将模型发布为在线服务、批量服务或边缘服务。发布：将模型发布至AI Gallery，详情请参见发布ModelArts模型。删除：针对模型的某一版本进行删除。查看模型详情当模型创建成功后，您可以进入模型详情页查看模型的信息。登录ModelArts管理控制台，在左侧菜单栏中选择“模型管理”，进入“自定义模型”列表页面。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理ModelArts模型
查询数据集列表 - AI开发平台ModelArts

with_labels 否 Boolean 返回数据集的标签。可选值如下： true：返回标签信息 false：不返回标签信息（默认值） workspace_id 否 String 工作空间ID。未创建工作空间时默认值为“0”，存在创建并使用的工作空间，以实际取值为准。 dataset_version

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
创建训练作业版本 - AI开发平台ModelArts

String 训练作业的日志OBS输出路径URL，默认为空。如：“/usr/train/”。 pre_version_id 是 Long 训练作业前一版本的ID。可通过查询训练作业版本列表中查找“version_id”。 user_image_url 否 String 自定义镜像训练作业

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
推理性能测试 - AI开发平台ModelArts

性能benchmark验证使用到的脚本存放在代码包AscendCloud-3rdLLM-xxx.zip的llm_tools/llm_evaluation（6.3.905版本）目录中。代码目录如下: benchmark_tools ├── benchmark_parallel.py # 评测静态性能脚本 ├──

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.905）
示例：创建DDP分布式训练（PyTorch+GPU） - AI开发平台ModelArts

$PYTHON_SCRIPT \ $PYTHON_ARGS " echo $CMD $CMD torchrun.sh内容如下： PyTorch 2.1版本需要将“rdzv_backend”参数设置为“static：--rdzv_backend=static”。 #!/bin/bash # 系统默认环境变量，不建议修改

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
在推理生产环境中部署推理服务 - AI开发平台ModelArts

${container_draft_model_path}同时使用。 --use-v2-block-manager：vllm启动时使用V2版本的BlockSpaceManger来管理KVCache索引，如果不使用该功能，则无需配置。注意：如果使用投机推理功能，必须开启此参数。 -

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910）
查询训练作业列表 - AI开发平台ModelArts

查询作业排列顺序，默认为“desc”，降序排序。也可以选择对应的“asc”，升序排序。 group_by String 查询作业要搜索的分组条件。 workspace_id String 作业所处的工作空间，默认值为“0”。 ai_project String 作业所属的AI项目，默认值为"default-ai-project"。

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业

总条数： 998

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

附录：训练常见问题 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

获取API授权关系列表 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

管理Workflow Execution - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

精度调优前准备工作 - AI开发平台ModelArts

查询训练作业列表 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

查询处理任务详情 - AI开发平台ModelArts

ma-cli ma-job训练作业支持的命令 - AI开发平台ModelArts

以PyTorch框架创建训练作业（新版训练） - AI开发平台ModelArts

查看ModelArts模型详情 - AI开发平台ModelArts

查询数据集列表 - AI开发平台ModelArts

创建训练作业版本 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+GPU） - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

查询训练作业列表 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线