搜索_华为云

迁移Standard专属资源池和网络至其他工作空间 - AI开发平台ModelArts

子用户仅限于对自己创建的工作空间下的资源池进行迁移操作。网络工作空间迁移登录ModelArts管理控制台，选择“AI专属资源池 > 弹性集群Cluster”，切换到“网络”页签。在网络列表中，选择目标网络“操作 > 更多 > 工作空间迁移”。在弹出的“迁移网络”中，选择要迁移的“目标工作空间”，单击“确定”。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
Lite Cluster高危操作一览表 - AI开发平台ModelArts

不限于资源池管理、节点管理、扩缩容、驱动升级等。高不可恢复。节点退订、移除、关机、污点管理、切换/重装操作系统等。可能影响ModelArts侧基本功能，包括但不限于节点管理、扩缩容、驱动升级、带本地盘机型的本地盘数据丢失等。高不可恢复。修改网络安全组可能影响Mo

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
训练预测分析模型 - AI开发平台ModelArts

在新版自动学习页面，单击创建成功的项目名称，查看当前工作流的执行情况。在“预测分析”节点中，待节点状态由“运行中”变为“运行成功”，即完成了模型的自动训练。训练完成后，您可以在预测分析节点中单击查看训练详情，如“标签列”和“标签列数据类型”、“准确率”、“评估结果”等。该示

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现预测分析
Lite Cluster资源配置流程 - AI开发平台ModelArts

m为例，填入弹性公网IP，登录节点。图7 登录节点方式2：通过华为云自带的远程登录功能使用华为云账号登录CCE管理控制台。在CCE集群详情页面，单击“节点管理”页签，在“节点”页签中单击需要登录的节点名称，跳转至弹性云服务器页面。图8 节点管理单击“远程登录”，在弹出

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数如出现错误，可能是机器上的NPU设备没有正常安装，或

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 准备工作
日志出现ECC错误，导致训练作业失败 - AI开发平台ModelArts

encountered 原因分析由于ECC错误，导致作业运行失败。处理方法当ECC错误且计数超过64时，系统会自动隔离故障节点，重启训练作业确认故障是否解决。如果未隔离的节点导致训练作业再次失败或卡死，请联系技术支持处理。父主题：业务代码问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数如出现错误，可能是机器上的NPU设备没有正常安装，或

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 准备工作
Cluster资源池如何进行NCCl Test？ - AI开发平台ModelArts

ModelArts提供AI诊断功能，用户可以通过NCCl Test，测试节点GPU状态，并且测试多个节点间的通信速度。操作步骤单击资源池名称，进入资源池详情。单击左侧“AI组件管理 > AI诊断”。单击“诊断”，选择“日志上传路径”和NCCL Test节点，其余参数可保持默认值或根据实际需求修改。测试使用的最大数据：取值范围[1

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Cluster
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数如出现错误，可能是机器上的NPU设备没有正常安装，或

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 准备工作
更新Notebook实例 - AI开发平台ModelArts

击“确定”。图1 变更镜像在镜像窗口选择新的镜像，单击“确定”，变更成功后，在Notebook列表页的镜像栏，可以查看到变更后的镜像。变更Notebook实例运行规格 ModelArts允许用户在同一个Notebook实例中切换节点运行规格，方便用户灵活调整规格资源。只有处

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 管理Notebook实例
上传镜像 - AI开发平台ModelArts
上传镜像 - AI开发平台ModelArts

客户端上传镜像，是指在安装了容器引擎客户端的机器上使用docker命令将镜像上传到容器镜像服务的镜像仓库。如果容器引擎客户端机器为云上的ECS或CCE节点，根据机器所在区域有两种网络链路可以选择：如果机器与容器镜像仓库在同一区域，则上传镜像走内网链路。如果机器与容器镜像仓库不在同一区域，则上传镜像走公网链路，机器需要绑定弹性公网IP。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机单卡
释放Lite Server资源 - AI开发平台ModelArts

在费用中心退订单个实例资源登录ModelArts管理控制台。在左侧导航栏中，选择“资源管理 > AI专属资源池 > 弹性节点Server”，进入“节点”列表页面。鼠标移动至节点名称上，复制需要退订的实例ID。图3 复制实例ID Server购买订单里绑定的资源ID为Server ID，

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
训练作业如何收费？ - AI开发平台ModelArts

训练作业如何收费？如果您使用的是公共资源池，则根据您选择的规格、节点数、运行时长进行计费。计费规则为“规格单价×节点数×运行时长”（运行时长精确到秒）。如果您使用的是专属资源池，则训练作业就不再进行单独计费。由专属资源池进行收费。父主题：计费相关

 帮助中心 > AI开发平台ModelArts > 常见问题 > 计费相关
使用CodeLab时报错kernel restart - AI开发平台ModelArts

使用CodeLab时报错kernel restart 报错是由于CPU满了，建议切换更高规格或使用付费规格的CPU。图1 切换规格或使用付费规格的CPU 父主题： Notebook实例常见错误

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > Notebook实例常见错误
在Workflow中使用大数据能力（DLI/MRS） - AI开发平台ModelArts

在Workflow中使用大数据能力（DLI/MRS）功能介绍该节点通过调用MRS服务，提供大数据集群计算能力。主要用于数据批量处理、模型训练等场景。应用场景需要使用MRS Spark组件进行大量数据的计算时，可以根据已有数据使用该节点进行训练计算。使用案例在华为云MRS服务下查看自

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > Workflow高阶能力
资源超分对Notebook实例有什么影响？ - AI开发平台ModelArts

资源超分对Notebook实例有什么影响？ Notebook超分，是指一个节点中CPU、内存共享的场景。为了充分利用资源，在专属池中存在超分情况。举例：一个专属池中有1个8U64G的CPU节点，如创建2U8G规格的Notebook，因为超分最多可启动 8U/(2U*0.6)= 6

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > 更多功能咨询
设置在线服务故障自动重启 - AI开发平台ModelArts

服务，提升了推理在线服务的恢复速度。约束限制仅支持使用Snt9b资源的同步在线服务。只支持针对整节点资源复位，请确保部署的在线服务为8*N卡规格，请谨慎评估对部署在该节点的其他服务的影响。开启故障自动重启用户可以在部署在线服务任务时，勾选“高级选项”的“现在配置”，可以

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
训练作业进程被kill - AI开发平台ModelArts

问题现象用户进程被Kill表示用户进程因外部因素被Kill或者中断，表现为日志中断。原因分析 CPU软锁在解压大量文件可能会出现此情况并造成节点重启。可以适当在解压大量文件时，加入sleep。比如每解压1w个文件，就停止1s。存储限制根据规格情况合理使用数据盘，数据盘大小请参考训练环境中不同规格资源大小。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
部署图像分类服务 - AI开发平台ModelArts

在线的测试UI与监控能力。完成模型训练后，可选择准确率理想且训练状态为“运行成功”的版本部署上线。具体操作步骤如下。在“运行节点”页面中，待服务部署节点的状态变为“等待输入”时，双击“服务部署”进入配置详情页，完成资源的参数配置操作。在服务部署页面，选择模型部署使用的资源规格。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现图像分类
部署预测分析服务 - AI开发平台ModelArts

控能力。完成模型训练后，可选择准确率理想且训练状态为“运行成功”的版本部署上线。具体操作步骤如下。在“运行节点”页面中，待训练状态变为“等待输入”，双击“服务部署”节点，完成相关参数配置。在服务部署页面，选择模型部署使用的资源规格。模型来源：默认为生成的模型。选择模型及版

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现预测分析

总条数： 1209

上一页
1
...
5
6
7
...
61
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

迁移Standard专属资源池和网络至其他工作空间 - AI开发平台ModelArts

Lite Cluster高危操作一览表 - AI开发平台ModelArts

训练预测分析模型 - AI开发平台ModelArts

Lite Cluster资源配置流程 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

日志出现ECC错误，导致训练作业失败 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

Cluster资源池如何进行NCCl Test？ - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

更新Notebook实例 - AI开发平台ModelArts

上传镜像 - AI开发平台ModelArts

释放Lite Server资源 - AI开发平台ModelArts

训练作业如何收费？ - AI开发平台ModelArts

使用CodeLab时报错kernel restart - AI开发平台ModelArts

在Workflow中使用大数据能力（DLI/MRS） - AI开发平台ModelArts

资源超分对Notebook实例有什么影响？ - AI开发平台ModelArts

设置在线服务故障自动重启 - AI开发平台ModelArts

训练作业进程被kill - AI开发平台ModelArts

部署图像分类服务 - AI开发平台ModelArts

部署预测分析服务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线