搜索_华为云

如何定位Workflow运行报错 - AI开发平台ModelArts

如何定位Workflow运行报错使用run模式运行工作流报错时，分析解决思路如下：确认安装的SDK包是否是最新版本，避免出现包版本不一致问题。检查编写的SDK代码是否符合规范，具体可参考相应的代码示例。检查运行过程中输入的内容是否正确，格式是否与提示信息中要求的一致。根

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Workflow
不同机型的对应的软件配套版本 - AI开发平台ModelArts

不同机型的对应的软件配套版本由于弹性集群资源池可选择弹性裸金属或弹性云服务器作为节点资源，不同机型的节点对应的操作系统、适用的CCE集群版本等不相同，为了便于您制作镜像、升级软件等操作，本文对不同机型对应的软件配套版本做了详细介绍。裸金属服务器的对应的软件配套版本表1 裸金属服务器

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
手动续费 - AI开发平台ModelArts
手动续费 - AI开发平台ModelArts

包年/包月专属资源池从购买到被自动删除之前，您可以随时在ModelArts控制台为专属资源池续费，以延长专属资源池的使用时间。在ModelArts控制台续费包年/包月的Standard专属资源池、弹性集群Lite Cluster资源池和弹性节点Server资源池在购买成功后支持手动续费操作。

帮助中心 > AI开发平台ModelArts > 计费说明 > 续费
训练物体检测模型 - AI开发平台ModelArts

在新版自动学习页面，单击项目名称进入运行总览页面，单击“数据标注”节点的“实例详情”进入数据标注页面，完成数据标注。图1 完成数据标注返回新版自动学习页面，单击数据标注节点的“继续运行”，然后等待工作流按顺序进入训练节点。模型将会自动进入训练，无需人工介入，训练时间相对较长，建议

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现物体检测
训练预测分析模型 - AI开发平台ModelArts

在新版自动学习页面，单击创建成功的项目名称，查看当前工作流的执行情况。在“预测分析”节点中，待节点状态由“运行中”变为“运行成功”，即完成了模型的自动训练。训练完成后，您可以在预测分析节点中单击查看训练详情，如“标签列”和“标签列数据类型”、“准确率”、“评估结果”等。该示

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现预测分析
日志出现ECC错误，导致训练作业失败 - AI开发平台ModelArts

encountered 原因分析由于ECC错误，导致作业运行失败。处理方法当ECC错误且计数超过64时，系统会自动隔离故障节点，重启训练作业确认故障是否解决。如果未隔离的节点导致训练作业再次失败或卡死，请联系技术支持处理。父主题：业务代码问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数如出现错误，可能是机器上的NPU设备没有正常安装，或

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 准备工作
释放Lite Server资源 - AI开发平台ModelArts

登录ModelArts管理控制台。在左侧导航栏中，选择“资源管理 > AI专属资源池 > 弹性节点Server”，进入“节点”列表页面。鼠标移动至节点名称上，复制需要退订的实例ID。图3 复制实例ID Server购买订单里绑定的资源ID为Server ID，与Server产品所封装的BMS/ECS

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
在ModelArts上如何提升训练效率并减少与OBS的交互？ - AI开发平台ModelArts

在ModelArts上如何提升训练效率并减少与OBS的交互？场景描述在使用ModelArts进行自定义深度学习训练时，训练数据通常存储在对象存储服务（OBS）中，且训练数据较大时（如200GB以上），每次都需要使用GPU资源池进行训练，且训练效率低。希望提升训练效率，同时减

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数如出现错误，可能是机器上的NPU设备没有正常安装，或

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 准备工作
在Workflow中使用大数据能力（DLI/MRS） - AI开发平台ModelArts

escription, placeholder_format="cluster") ) 在控制台上如何使用MRS节点 Workflow发布后，在Workflow配置页，配置节点的数据输入，输出，启动脚本，集群ID等参数。父主题： Workflow高阶能力

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > Workflow高阶能力
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数如出现错误，可能是机器上的NPU设备没有正常安装，或

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 准备工作
资源池推理服务一直初始化中如何解决 - AI开发平台ModelArts

资源池推理服务一直初始化中如何解决问题现象创建资源池时作业类型选择了推理服务，资源池创建成功后推理一直显示“环境初始化。原因分析专属池网段和推理微服务dispatcher网段冲突，导致专属池上的VPCEP终端节点无法创建，该region无法使用此网段创建包含推理服务的资源池。

帮助中心 > AI开发平台ModelArts > 故障排除 > 资源池
配置Lite Cluster网络 - AI开发平台ModelArts

本章节介绍如何申请弹性公网IP并绑定到弹性云服务器。通过本文档，您可以实现弹性云服务器访问公网的目的。使用华为云账号登录CCE管理控制台。找到购买Cluster资源时选择的CCE集群，单击名称进入CCE集群详情页面，单击“节点管理”页签，在“节点”页签中单击需要登录的节点名称，跳转至弹性云服务器页面。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
附录：config.json文件 - AI开发平台ModelArts

器的每个容器中config.json文件内容一致。 ipAddress：主节点IP地址，即rank_table_file.json文件中的server_id。 managementIpAddress：主节点IP地址，和ipAddress取值一致。 modelName：设置为Dee

帮助中心 > AI开发平台ModelArts > 最佳实践 > DeepSeek系列模型推理 > DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导
（可选）配置镜像预热 - AI开发平台ModelArts

（可选）配置镜像预热 Lite Cluster资源池支持镜像预热功能，镜像预热可实现将镜像提前在资源池节点上拉取好，在推理及大规模分布式训练时有效缩短镜像拉取时间。本文将介绍如何配置镜像预热功能。操作步骤在ModelArts控制台左侧导航栏中找到“资源管理 > AI专属资源池

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
部署预测分析服务 - AI开发平台ModelArts

4范围内的任意整数。如果您购买了套餐包，计算节点规格可选择您的套餐包，同时在“配置费用”页签还可查看您的套餐包余量以及超出部分的计费方式，请您务必关注，避免造成不必要的资源浪费。完成资源配置后，单击“继续运行”，在弹框中确认继续运行后，服务部署节点将继续运行，直至状态变为“运

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现预测分析
部署物体检测服务 - AI开发平台ModelArts

中输入1~24范围内的任意整数。如果您购买了套餐包，计算节点规格可选择您的套餐包，同时在“配置费用”页签还可查看您的套餐包余量以及超出部分的计费方式，请您务必关注，避免造成不必要的资源浪费。完成资源配置后，单击“继续运行”，服务部署节点将继续运行，直至状态变为“运行成功”，至此，已将模型部署为在线服务。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现物体检测
部署文本分类服务 - AI开发平台ModelArts

4范围内的任意整数。如果您购买了套餐包，计算节点规格可选择您的套餐包，同时在“配置费用”页签还可查看您的套餐包余量以及超出部分的计费方式，请您务必关注，避免造成不必要的资源浪费。完成资源配置后，单击“继续运行”，在弹框中确认继续运行后，服务部署节点将继续运行，直至状态变为“运

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现文本分类
镜像保存时报错“The container size (xG) is greater than the threshold (25G)”如何解决？ - AI开发平台ModelArts

threshold (25G)”如何解决？问题现象镜像保存时报错“The container size (30G) is greater than the threshold (25G)”，镜像创建失败。原因分析镜像保存本质是通过在资源集群节点上的agent中进行了docker

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障

总条数： 1689

上一页
1
...
4
5
6
...
85
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

如何定位Workflow运行报错 - AI开发平台ModelArts

不同机型的对应的软件配套版本 - AI开发平台ModelArts

手动续费 - AI开发平台ModelArts

训练物体检测模型 - AI开发平台ModelArts

训练预测分析模型 - AI开发平台ModelArts

日志出现ECC错误，导致训练作业失败 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

释放Lite Server资源 - AI开发平台ModelArts

在ModelArts上如何提升训练效率并减少与OBS的交互？ - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

在Workflow中使用大数据能力（DLI/MRS） - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

资源池推理服务一直初始化中如何解决 - AI开发平台ModelArts

配置Lite Cluster网络 - AI开发平台ModelArts

附录：config.json文件 - AI开发平台ModelArts

（可选）配置镜像预热 - AI开发平台ModelArts

部署预测分析服务 - AI开发平台ModelArts

部署物体检测服务 - AI开发平台ModelArts

部署文本分类服务 - AI开发平台ModelArts

镜像保存时报错“The container size (xG) is greater than the threshold (25G)”如何解决？ - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线