搜索_华为云

日志出现ECC错误，导致训练作业失败 - AI开发平台ModelArts

encountered 原因分析由于ECC错误，导致作业运行失败。处理方法当ECC错误且计数超过64时，系统会自动隔离故障节点，重启训练作业确认故障是否解决。如果未隔离的节点导致训练作业再次失败或卡死，请联系技术支持处理。父主题：业务代码问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数如出现错误，可能是机器上的NPU设备没有正常安装，或

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 准备工作
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数如出现错误，可能是机器上的NPU设备没有正常安装，或

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 准备工作
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数如出现错误，可能是机器上的NPU设备没有正常安装，或

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 准备工作
附录：config.json文件 - AI开发平台ModelArts

器的每个容器中config.json文件内容一致。 ipAddress：主节点IP地址，即rank_table_file.json文件中的server_id。 managementIpAddress：主节点IP地址，和ipAddress取值一致。 httpsEnabled：取值需要修改为false。

帮助中心 > AI开发平台ModelArts > 最佳实践 > DeepSeek系列模型推理应用 > DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导
Cluster资源池如何进行NCCl Test？ - AI开发平台ModelArts

ModelArts提供AI诊断功能，用户可以通过NCCl Test，测试节点GPU状态，并且测试多个节点间的通信速度。操作步骤单击资源池名称，进入资源池详情。单击左侧“AI组件管理 > AI诊断”。单击“诊断”，选择“日志上传路径”和NCCL Test节点，其余参数可保持默认值或根据实际需求修改。测试使用的最大数据：取值范围[1

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Cluster
在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

在CCE集群详情页，选择左侧导航栏的“节点管理”，选择“节点”页签。在节点列表，单击操作列的“更多 > 查看YAML”查看节点配置信息。查看节点的yaml文件里“cce.kubectl.kubernetes.io/ascend-rank-table”字段是否有值。如图所示，表示有值，节点已开启top

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
释放Lite Server资源 - AI开发平台ModelArts

在费用中心退订单个实例资源登录ModelArts管理控制台。在左侧导航栏中，选择“资源管理 > AI专属资源池 > 弹性节点Server”，进入“节点”列表页面。鼠标移动至节点名称上，复制需要退订的实例ID。图3 复制实例ID Server购买订单里绑定的资源ID为Server ID，

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
从0制作自定义镜像用于创建训练作业（Pytorch+Ascend） - AI开发平台ModelArts

准备工作准备一套可以连接外部网络，装有Linux系统并安装18.09.7及以上版本docker的虚拟机或物理机用作镜像构建节点，以下称“构建节点”。可以通过执行docker pull、apt-get update/upgrade和pip install命令判断是否可正常访

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
资源超分对在ModelArts的Notebook实例有什么影响？ - AI开发平台ModelArts

资源超分对在ModelArts的Notebook实例有什么影响？ Notebook超分，是指一个节点中CPU、内存共享的场景。为了充分利用资源，在专属池中存在超分情况。举例：一个专属池中有1个8U64G的CPU节点，如创建2U8G规格的Notebook，因为超分最多可启动 8U/(2U*0.6)=

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
在Workflow中使用大数据能力（DLI/MRS） - AI开发平台ModelArts

在Workflow中使用大数据能力（DLI/MRS）功能介绍该节点通过调用MRS服务，提供大数据集群计算能力。主要用于数据批量处理、模型训练等场景。应用场景需要使用MRS Spark组件进行大量数据的计算时，可以根据已有数据使用该节点进行训练计算。使用案例在华为云MRS服务下查看自

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > Workflow高阶能力
训练作业进程被kill - AI开发平台ModelArts

问题现象用户进程被Kill表示用户进程因外部因素被Kill或者中断，表现为日志中断。原因分析 CPU软锁在解压大量文件可能会出现此情况并造成节点重启。可以适当在解压大量文件时，加入sleep。比如每解压1w个文件，就停止1s。存储限制根据规格情况合理使用数据盘，数据盘大小请参考训练环境中不同规格资源大小。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
部署预测分析服务 - AI开发平台ModelArts

控能力。完成模型训练后，可选择准确率理想且训练状态为“运行成功”的版本部署上线。具体操作步骤如下。在“运行节点”页面中，待训练状态变为“等待输入”，双击“服务部署”节点，完成相关参数配置。在服务部署页面，选择模型部署使用的资源规格。模型来源：默认为生成的模型。选择模型及版

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现预测分析
设置在线服务故障自动重启 - AI开发平台ModelArts

服务，提升了推理在线服务的恢复速度。约束限制仅支持使用Snt9b资源的同步在线服务。只支持针对整节点资源复位，请确保部署的在线服务为8*N卡规格，请谨慎评估对部署在该节点的其他服务的影响。开启故障自动重启用户可以在部署在线服务任务时，勾选“高级选项”的“现在配置”，可以

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
部署物体检测服务 - AI开发平台ModelArts

在线的测试UI与监控能力。完成模型训练后，可选择准确率理想且训练状态为“运行成功”的版本部署上线。具体操作步骤如下。在“运行节点”页面中，待服务部署节点的状态变为“等待输入”时，双击“服务部署”进入配置详情页，完成资源的参数配置操作。在服务部署页面，选择模型部署使用的资源规格。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现物体检测
部署文本分类服务 - AI开发平台ModelArts

训练后，可选择准确率理想且训练状态为“运行成功”的版本部署上线。具体操作步骤如下。在“运行总览”页面中，待服务部署节点的状态变为“等待输入”，双击“服务部署”节点，进入配置详情页，完成资源的参数配置操作。在服务部署页面，选择模型部署使用的资源规格。模型来源：默认为生成的模型。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现文本分类
标注文本分类数据 - AI开发平台ModelArts

项目创建完成后，将会自动跳转至新版自动学习页面，并开始运行，当数据标注节点的状态变为“等待操作”时，需要手动进行确认数据集中的数据标注情况，也可以对数据集中的数据进行标签的修改，数据的增加或删减。图1 数据标注节点状态双击“数据标注”节点，单击实例详情按钮，打开数据标注页面。文本分类的数据标注

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现文本分类
部署图像分类服务 - AI开发平台ModelArts

在线的测试UI与监控能力。完成模型训练后，可选择准确率理想且训练状态为“运行成功”的版本部署上线。具体操作步骤如下。在“运行节点”页面中，待服务部署节点的状态变为“等待输入”时，双击“服务部署”进入配置详情页，完成资源的参数配置操作。在服务部署页面，选择模型部署使用的资源规格。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现图像分类
什么是ModelArts - AI开发平台ModelArts

接操作资源池中的节点和k8s集群。适用于已经自建AI开发平台，仅有算力需求的用户。要求用户具备k8s基础知识和技能。 ModelArts Edge 为客户提供了统一边缘部署和管理能力，支持统一纳管异构边缘设备，提供模型部署、Al应用和节点管理、资源池与负载均衡、应用商用保障等能

 帮助中心 > AI开发平台ModelArts > 产品介绍
ModelArts Standard训练作业和模型部署如何收费？ - AI开发平台ModelArts

Standard训练作业和模型部署如何收费？ Standard中训练作业如何收费？如果您使用的是公共资源池，则根据您选择的规格、节点数、运行时长进行计费。计费规则为“规格单价×节点数×运行时长”（运行时长精确到秒）。如果您使用的是专属资源池，则训练作业就不再进行单独计费。由专属资源池进行收费。

帮助中心 > AI开发平台ModelArts > 计费说明 > 计费FAQ

总条数： 760

上一页
1
...
4
5
6
...
38
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

日志出现ECC错误，导致训练作业失败 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

附录：config.json文件 - AI开发平台ModelArts

Cluster资源池如何进行NCCl Test？ - AI开发平台ModelArts

在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

释放Lite Server资源 - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（Pytorch+Ascend） - AI开发平台ModelArts

资源超分对在ModelArts的Notebook实例有什么影响？ - AI开发平台ModelArts

在Workflow中使用大数据能力（DLI/MRS） - AI开发平台ModelArts

训练作业进程被kill - AI开发平台ModelArts

部署预测分析服务 - AI开发平台ModelArts

设置在线服务故障自动重启 - AI开发平台ModelArts

部署物体检测服务 - AI开发平台ModelArts

部署文本分类服务 - AI开发平台ModelArts

标注文本分类数据 - AI开发平台ModelArts

部署图像分类服务 - AI开发平台ModelArts

什么是ModelArts - AI开发平台ModelArts

ModelArts Standard训练作业和模型部署如何收费？ - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线