搜索_华为云

训练物体检测模型 - AI开发平台ModelArts

在新版自动学习页面，单击项目名称进入运行总览页面，单击“数据标注”节点的“实例详情”进入数据标注页面，完成数据标注。图1 完成数据标注返回新版自动学习页面，单击数据标注节点的“继续运行”，然后等待工作流按顺序进入训练节点。模型将会自动进入训练，无需人工介入，训练时间相对较长，建议

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现物体检测
训练预测分析模型 - AI开发平台ModelArts

在新版自动学习页面，单击创建成功的项目名称，查看当前工作流的执行情况。在“预测分析”节点中，待节点状态由“运行中”变为“运行成功”，即完成了模型的自动训练。训练完成后，您可以在预测分析节点中单击查看训练详情，如“标签列”和“标签列数据类型”、“准确率”、“评估结果”等。该示

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现预测分析
DockerFile构建镜像（可选） - AI开发平台ModelArts

actory 构建新镜像： docker build -t <镜像名称>:<版本名称> . 如无法访问公网则需配置代理，增加`--build-arg`参数指定代理地址确保访问公网。 docker build --build-arg "https_proxy=http://xxx

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 准备工作
日志出现ECC错误，导致训练作业失败 - AI开发平台ModelArts

encountered 原因分析由于ECC错误，导致作业运行失败。处理方法当ECC错误且计数超过64时，系统会自动隔离故障节点，重启训练作业确认故障是否解决。如果未隔离的节点导致训练作业再次失败或卡死，请联系技术支持处理。父主题：业务代码问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数如出现错误，可能是机器上的NPU设备没有正常安装，或

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.5.901） > 准备工作
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数如出现错误，可能是机器上的NPU设备没有正常安装，或

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 准备工作
在ModelArts控制台界面上单击VS Code接入并在新界面单击打开，VS Code打开后未进行远程连接 - AI开发平台ModelArts

方法一：检查VS Code网络是否正常。在VS Code插件市场上搜索ModelArts-HuaweiCloud，如果显示如下则网络异常，请切换代理或使用其他网络。操作完成后再次执行搜索，如果显示如下则网络正常，请回到ModelArts控制台界面再次单击界面上的“VS Code接入”按钮。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
DockerFile构建镜像（可选） - AI开发平台ModelArts

actory 构建新镜像： docker build -t <镜像名称>:<版本名称> . 如无法访问公网则需配置代理，增加`--build-arg`参数指定代理地址确保访问公网。 docker build --build-arg "https_proxy=http://xxx

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.5.901） > 准备工作
DockerFile构建镜像（可选） - AI开发平台ModelArts

actory 构建新镜像： docker build -t <镜像名称>:<版本名称> . 如无法访问公网则需配置代理，增加`--build-arg`参数指定代理地址确保访问公网。 docker build --build-arg "https_proxy=http://xxx

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 准备工作
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数如出现错误，可能是机器上的NPU设备没有正常安装，或

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作
不同机型的对应的软件配套版本 - AI开发平台ModelArts

不同机型的对应的软件配套版本由于弹性集群资源池可选择弹性裸金属或弹性云服务器作为节点资源，不同机型的节点对应的操作系统、适用的CCE集群版本等不相同，为了便于您制作镜像、升级软件等操作，本文对不同机型对应的软件配套版本做了详细介绍。裸金属服务器的对应的软件配套版本表1 裸金属服务器

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数如出现错误，可能是机器上的NPU设备没有正常安装，或

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 准备工作
Cluster资源池如何进行NCCl Test？ - AI开发平台ModelArts

ModelArts提供AI诊断功能，用户可以通过NCCl Test，测试节点GPU状态，并且测试多个节点间的通信速度。操作步骤单击资源池名称，进入资源池详情。单击左侧“AI组件管理 > AI诊断”。单击“诊断”，选择“日志上传路径”和NCCL Test节点，其余参数可保持默认值或根据实际需求修改。测试使用的最大数据：取值范围[1

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Cluster
附录：config.json文件 - AI开发平台ModelArts

器的每个容器中config.json文件内容一致。 ipAddress：主节点IP地址，即rank_table_file.json文件中的server_id。 managementIpAddress：主节点IP地址，和ipAddress取值一致。 httpsEnabled：取值需要修改为false。

帮助中心 > AI开发平台ModelArts > 最佳实践 > DeepSeek系列模型推理应用 > DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导
JupyterLab中文件保存失败，如何解决？ - AI开发平台ModelArts

无法进行保存。在Notebook中的运行文件超过指定大小就会提示此报错。 jupyter页面打开时间太长。网络环境原因，是否有连接网络代理。解决方法关掉插件然后重新保存。减少文件大小。重新打开jupyter页面。请检查网络。父主题：环境配置故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 环境配置故障
DockerFile构建镜像（可选） - AI开发平台ModelArts

actory 构建新镜像： docker build -t <镜像名称>:<版本名称> . 如无法访问公网则需配置代理，增加`--build-arg`参数指定代理地址确保访问公网。 docker build --build-arg "https_proxy=http://xxx

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 准备工作
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数如出现错误，可能是机器上的NPU设备没有正常安装，或

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 准备工作
在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

在CCE集群详情页，选择左侧导航栏的“节点管理”，选择“节点”页签。在节点列表，单击操作列的“更多 > 查看YAML”查看节点配置信息。查看节点的yaml文件里“cce.kubectl.kubernetes.io/ascend-rank-table”字段是否有值。如图所示，表示有值，节点已开启top

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
请求超时返回Timeout - AI开发平台ModelArts

优先排查APIG（API网关）是否是通的，可以在本地使用curl命令排查，命令行：curl -kv {预测地址}。如返回Timeout则需排查本地防火墙，代理和网络配置。检查模型是否启动成功或者模型处理单个消息的时长。因APIG（API网关）的限制，模型单次预测的时间不能超过40S，超过后系统会默认返回Timeout错误。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
释放Lite Server资源 - AI开发平台ModelArts

在费用中心退订单个实例资源登录ModelArts管理控制台。在左侧导航栏中，选择“资源管理 > AI专属资源池 > 弹性节点Server”，进入“节点”列表页面。鼠标移动至节点名称上，复制需要退订的实例ID。图3 复制实例ID Server购买订单里绑定的资源ID为Server ID，

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理

总条数： 989

上一页
1
...
4
5
6
...
50
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练物体检测模型 - AI开发平台ModelArts

训练预测分析模型 - AI开发平台ModelArts

DockerFile构建镜像（可选） - AI开发平台ModelArts

日志出现ECC错误，导致训练作业失败 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

在ModelArts控制台界面上单击VS Code接入并在新界面单击打开，VS Code打开后未进行远程连接 - AI开发平台ModelArts

DockerFile构建镜像（可选） - AI开发平台ModelArts

DockerFile构建镜像（可选） - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

不同机型的对应的软件配套版本 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

Cluster资源池如何进行NCCl Test？ - AI开发平台ModelArts

附录：config.json文件 - AI开发平台ModelArts

JupyterLab中文件保存失败，如何解决？ - AI开发平台ModelArts

DockerFile构建镜像（可选） - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

请求超时返回Timeout - AI开发平台ModelArts

释放Lite Server资源 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线