搜索_华为云

训练作业容错检查 - AI开发平台ModelArts

用户可以在创建训练作业时通过设置自动重启的方式开启容错检查。使用ModelArts Standard控制台的创建训练作业页面设置自动重启：用户可以在控制台页面通过开关的方式开启自动重启。“自动重启”开关默认不开启，表示不做重新下发作业，也不会启用环境检测。打开开关后，允许设置重启次数为1~128次。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
查看日志和性能 - AI开发平台ModelArts

png中也可以使用可视化工具TrainingLogParser查看loss收敛情况，将trainer_log.jsonl文件长传至可视化工具页面，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。多节点训练：训练过程中的loss打印在第一个节点上。图2 Loss收敛情况（示意图）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910）
查看日志和性能 - AI开发平台ModelArts

png中也可以使用可视化工具TrainingLogParser查看loss收敛情况，将trainer_log.jsonl文件长传至可视化工具页面，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。多节点训练：训练过程中的loss打印在第一个节点上。图2 Loss收敛情况（示意图）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.911）
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

aarch64 docker-engine-selinux.noarch docker-runc.aarch64 配置IP转发，用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值，如果为1，可跳过此步骤。 sysctl -p | grep net.ipv4

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作
在ECS中通过Dockerfile从0制作自定义镜像用于推理 - AI开发平台ModelArts

将模型部署为在线服务参考部署为在线服务将模型部署为在线服务。在线服务创建成功后，您可以在服务详情页查看服务详情。您可以通过“预测”页签访问在线服务。父主题：制作自定义镜像用于推理

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于推理
查询支持的镜像列表 - AI开发平台ModelArts

dev_services Array of strings 镜像支持的服务。枚举值如下： NOTEBOOK：镜像支持通过https协议访问Notebook。 SSH：镜像支持本地IDE通过SSH协议远程连接Notebook。 id String 待创建Notebook实例的镜

 帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

aarch64 docker-engine-selinux.noarch docker-runc.aarch64 配置IP转发，用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值，如果为1，可跳过此步骤。 sysctl -p | grep net.ipv4

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.908） > 准备工作
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

28。版本使用的容器引擎为Containerd。镜像适配的Cann版本是cann_8.0.rc3，驱动版本是23.0.6。确保集群可以访问公网。文档更新内容 6.3.911版本相对于6.3.910版本新增如下内容：文档中新增在数据预处理时，支持LLama-Factory格式的模板：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.911）
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

/llm_inference/ascend_vllm/ 执行以下命令制作推理镜像。安装过程需要连接互联网git clone，请确保机器可以访问公网。 nerdctl --namespace k8s.io build -t <镜像名称>:<版本名称> --build-arg BAS

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 准备工作
查询开发环境实例列表 - AI开发平台ModelArts

auto_stop字段数据结构说明所示。 annotations Map<String,String> 注解信息。其中，生成的url信息，不可直接访问使用。 failed_reasons Object 创建、启动失败失败原因，如表16所示。 extend_params Map<String

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 开发环境（旧版）
查看日志和性能 - AI开发平台ModelArts

png中也可以使用可视化工具TrainingLogParser查看loss收敛情况，将trainer_log.jsonl文件长传至可视化工具页面，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。多节点训练：训练过程中的loss打印在第一个节点上。图2 Loss收敛情况（示意图）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909）
批量删除样本 - AI开发平台ModelArts

可选值如下： false：不删除源文件（默认值） true：删除源文件(注意：此操作可能影响已使用这些文件的数据集版本或其他数据集，导致页面展示异常或者训练/推理异常) samples 否 Array of strings 样本ID列表。响应参数状态码： 200 表3 响应Body参数

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
导出ModelArts数据集中的数据 - AI开发平台ModelArts

VOC格式的XML标注文件以及Mask图像。导出数据为新数据集登录ModelArts管理控制台，在左侧菜单栏中选择“资产管理>数据集”，进入“数据集”管理页面。在数据集列表中，选择“图片”类型的数据集，单击数据集名称进入“数据集概览页”。在“数据集概览页”，单击右上角“导出 ”。在弹出的“导

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理
导出ModelArts数据集中的数据为新数据集 - AI开发平台ModelArts

VOC格式的XML标注文件以及Mask图像。导出数据为新数据集登录ModelArts管理控制台，在左侧菜单栏中选择“资产管理>数据集”，进入“数据集”管理页面。在数据集列表中，选择“图片”类型的数据集，单击数据集名称进入“数据集概览页”。在“数据集概览页”，单击右上角“导出 ”。在弹出的“导

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 导出ModelArts数据集中的数据
用户创建模型时构建镜像或导入文件失败 - AI开发平台ModelArts

"Effect": "Allow" } ] } 在子用户所属用户组中添加该自定义策略权限。在用户组页面，单击子用户所属用户组的名称，进入用户组详情页。图5 进入用户组详情在授权记录页签下，单击“授权”，选择您刚才创建的自定义策略及授权方案。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
分析ModelArts数据集中的数据特征 - AI开发平台ModelArts

数据特征分析登录ModelArts管理控制台，在左侧菜单栏中选择“资产管理>数据集”，进入“数据集”管理页面。选择对应的数据集，单击操作列的“更多 > 数据特征”，进入数据集概览页的数据特征页面。您也可以在单击数据集名称进入数据集概览页后，单击“数据特征”页签进入。由于发布后的数据集

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理
VS Code连接远端Notebook时报错“XHR failed” - AI开发平台ModelArts

-R /home/ma-user/.vscode-server/bin/$commitId 关闭VS Code，重新从Notebook实例列表页面打开VS Code（注意：需要关闭本地vscode，不然可能会报多个安装进程正在运行中）。父主题： VS Code连接开发环境失败常见问题

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > VS Code连接开发环境失败常见问题
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

/llm_inference/ascend_vllm/ 执行以下命令制作推理镜像。安装过程需要连接互联网git clone，请确保机器可以访问公网。 nerdctl --namespace k8s.io build -t <镜像名称>:<版本名称> --build-arg BAS

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 准备工作
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

镜像适配的Cann版本是cann_8.0.RC3。 DevServer驱动版本要求23.0.6 PyTorch版本：2.2.0 Python版本：3.10 确保容器可以访问公网。仅支持313T、376T、400T 训练支持的模型列表本方案支持以下模型的训练，如表1所示。表1 支持的模型列表及权重文件地址

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

镜像适配的Cann版本是cann_8.0.RC3。 DevServer驱动版本要求23.0.6 PyTorch版本：2.2.0 Python版本：3.10 确保容器可以访问公网。仅支持313T、376T、400T 训练支持的模型列表本方案支持以下模型的训练，如表1所示。表1 支持的模型列表及权重文件地址

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.911）

总条数： 906

上一页
1
...
41
42
43
...
46
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练作业容错检查 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

在ECS中通过Dockerfile从0制作自定义镜像用于推理 - AI开发平台ModelArts

查询支持的镜像列表 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

查询开发环境实例列表 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

批量删除样本 - AI开发平台ModelArts

导出ModelArts数据集中的数据 - AI开发平台ModelArts

导出ModelArts数据集中的数据为新数据集 - AI开发平台ModelArts

用户创建模型时构建镜像或导入文件失败 - AI开发平台ModelArts

分析ModelArts数据集中的数据特征 - AI开发平台ModelArts

VS Code连接远端Notebook时报错“XHR failed” - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线