搜索_华为云

准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

nerdctl --namespace k8s.io pull {image_url} 注意：集群有多个节点，要确保每个节点都拥有镜像。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 准备工作
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

nerdctl --namespace k8s.io pull {image_url} 注意：集群有多个节点，要确保每个节点都拥有镜像。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 准备工作
Cluster资源池如何进行NCCl Test？ - AI开发平台ModelArts

NCCL Test节点名称列表：不可为空，且被选择的节点须为可用状态。单击“确认”，即可开始诊断。父主题： Lite Cluster

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Cluster
附录：config.json文件 - AI开发平台ModelArts

ipAddress：主节点IP地址，即rank_table_file.json文件中的server_id。 managementIpAddress：主节点IP地址，和ipAddress取值一致。 modelName：设置为DeepSeek-V3或DeepSeek-R1。

帮助中心 > AI开发平台ModelArts > 最佳实践 > DeepSeek系列模型推理 > DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导
在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

在CCE集群详情页，选择左侧导航栏的“节点管理”，选择“节点”页签。在节点列表，单击操作列的“更多 > 查看YAML”查看节点配置信息。查看节点的yaml文件里“cce.kubectl.kubernetes.io/ascend-rank-table”字段是否有值。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
释放Lite Server资源 - AI开发平台ModelArts

在左侧导航栏中，选择“资源管理 > AI专属资源池 > 弹性节点Server”，进入“节点”列表页面。鼠标移动至节点名称上，复制需要退订的实例ID。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
从0制作自定义镜像用于创建训练作业（Pytorch+Ascend） - AI开发平台ModelArts

准备工作准备一套可以连接外部网络，装有Linux系统并安装18.09.7及以上版本docker的虚拟机或物理机用作镜像构建节点，以下称“构建节点”。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
在Workflow中使用大数据能力（DLI/MRS） - AI开发平台ModelArts

您可以使用MrsStep来创建作业类型节点。定义MrsStep示例如下。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > Workflow高阶能力
资源超分对在ModelArts的Notebook实例有什么影响？ - AI开发平台ModelArts

如1个8U的节点上同时启动了6个2U的实例，如果其中一个实例CPU使用增大到超过节点的上限（8U）时，k8S会将使用资源最多的实例终止掉。因此超分会带来实例重启的风险，请不要超分使用。父主题： Standard Notebook

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
训练作业进程被kill - AI开发平台ModelArts

原因分析 CPU软锁在解压大量文件可能会出现此情况并造成节点重启。可以适当在解压大量文件时，加入sleep。比如每解压1w个文件，就停止1s。存储限制根据规格情况合理使用数据盘，数据盘大小请参考训练环境中不同规格资源大小。 CPU过载减少线程数。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
设置在线服务故障自动重启 - AI开发平台ModelArts

只支持针对整节点资源复位，请确保部署的在线服务为8*N卡规格，请谨慎评估对部署在该节点的其他服务的影响。开启故障自动重启用户可以在部署在线服务任务时，勾选“高级选项”的“现在配置”，可以看到“故障自动重启”参数，打开开关即可。图1 故障自动重启父主题：管理同步在线服务

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
部署预测分析服务 - AI开发平台ModelArts

在“运行节点”页面中，待训练状态变为“等待输入”，双击“服务部署”节点，完成相关参数配置。在服务部署页面，选择模型部署使用的资源规格。模型来源：默认为生成的模型。选择模型及版本：自动匹配当前使用的模型版本，支持选择版本。资源池：默认公共资源池。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现预测分析
部署物体检测服务 - AI开发平台ModelArts

在“运行节点”页面中，待服务部署节点的状态变为“等待输入”时，双击“服务部署”进入配置详情页，完成资源的参数配置操作。在服务部署页面，选择模型部署使用的资源规格。模型来源：默认为生成的模型。选择模型及版本：自动匹配当前使用的模型版本，支持选择版本。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现物体检测
部署文本分类服务 - AI开发平台ModelArts

在“运行总览”页面中，待服务部署节点的状态变为“等待输入”，双击“服务部署”节点，进入配置详情页，完成资源的参数配置操作。在服务部署页面，选择模型部署使用的资源规格。模型来源：默认为生成的模型。选择模型版本：自动匹配当前使用的模型版本，支持选择版本。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现文本分类
部署图像分类服务 - AI开发平台ModelArts

在“运行节点”页面中，待服务部署节点的状态变为“等待输入”时，双击“服务部署”进入配置详情页，完成资源的参数配置操作。在服务部署页面，选择模型部署使用的资源规格。模型来源：默认为生成的模型。选择模型及版本：自动匹配当前使用的模型版本，支持选择版本。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现图像分类
标注文本分类数据 - AI开发平台ModelArts

继续运行完成数据的确认之后，返回新版自动学习的页面，在数据标注节点单击“继续运行”，工作流将会继续依次运行直到所有节点运行成功。图4 继续运行父主题：使用自动学习实现文本分类

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现文本分类
ModelArts Standard训练作业和模型部署如何收费？ - AI开发平台ModelArts

如果您使用的是公共资源池，则根据您选择的规格、节点数、运行时长进行计费。计费规则为“规格单价×节点数×运行时长”（运行时长精确到秒）。如果您使用的是专属资源池，则训练作业就不再进行单独计费。由专属资源池进行收费。 Standard中模型部署为服务后如何收费？

帮助中心 > AI开发平台ModelArts > 计费说明 > 计费FAQ
什么是ModelArts - AI开发平台ModelArts

ModelArts Edge 为客户提供了统一边缘部署和管理能力，支持统一纳管异构边缘设备，提供模型部署、Al应用和节点管理、资源池与负载均衡、应用商用保障等能力，帮助客户快速构建高性价比的边云协同AI解决方案。适用于边缘部署场景。

帮助中心 > AI开发平台ModelArts > 产品介绍
镜像保存时报错“BuildImage,True,Commit successfully|PushImage,False,Task is running.” - AI开发平台ModelArts

可能原因镜像过大Push任务一直在运行，或实例节点有问题。解决方法以对应租户的华为云账号登录SWR服务，查看镜像是否已经Push成功。如果Push成功，请重新注册镜像。如果未Push成功，联系SRE查看对应实例的节点是否有问题。父主题：自定义镜像故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
查看日志和性能 - AI开发平台ModelArts

单节点训练：训练过程中的loss直接打印在窗口上。多节点训练：训练过程中的loss打印在最后一个节点上。图2 Loss收敛情况（示意图）父主题：主流开源大模型基于Lite Server适配PyTorch NPU训练指导（6.3.906）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU训练指导（6.3.906）

总条数： 904

上一页
1
...
4
5
6
...
46
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

准备镜像 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

Cluster资源池如何进行NCCl Test？ - AI开发平台ModelArts

附录：config.json文件 - AI开发平台ModelArts

在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

释放Lite Server资源 - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（Pytorch+Ascend） - AI开发平台ModelArts

在Workflow中使用大数据能力（DLI/MRS） - AI开发平台ModelArts

资源超分对在ModelArts的Notebook实例有什么影响？ - AI开发平台ModelArts

训练作业进程被kill - AI开发平台ModelArts

设置在线服务故障自动重启 - AI开发平台ModelArts

部署预测分析服务 - AI开发平台ModelArts

部署物体检测服务 - AI开发平台ModelArts

部署文本分类服务 - AI开发平台ModelArts

部署图像分类服务 - AI开发平台ModelArts

标注文本分类数据 - AI开发平台ModelArts

ModelArts Standard训练作业和模型部署如何收费？ - AI开发平台ModelArts

什么是ModelArts - AI开发平台ModelArts

镜像保存时报错“BuildImage,True,Commit successfully|PushImage,False,Task is running.” - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线