搜索_华为云

准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数如出现错误，可能是机器上的NPU设备没有正常安装，或

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 准备工作
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数如出现错误，可能是机器上的NPU设备没有正常安装，或

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 准备工作
Cluster资源池如何进行NCCl Test？ - AI开发平台ModelArts

ModelArts提供AI诊断功能，用户可以通过NCCl Test，测试节点GPU状态，并且测试多个节点间的通信速度。操作步骤单击资源池名称，进入资源池详情。单击左侧“AI组件管理 > AI诊断”。单击“诊断”，选择“日志上传路径”和NCCL Test节点，其余参数可保持默认值或根据实际需求修改。测试使用的最大数据：取值范围[1

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Cluster
附录：config.json文件 - AI开发平台ModelArts

器的每个容器中config.json文件内容一致。 ipAddress：主节点IP地址，即rank_table_file.json文件中的server_id。 managementIpAddress：主节点IP地址，和ipAddress取值一致。 modelName：设置为Dee

帮助中心 > AI开发平台ModelArts > 最佳实践 > DeepSeek系列模型推理 > DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导
从0制作自定义镜像用于创建训练作业（Pytorch+Ascend） - AI开发平台ModelArts

准备工作准备一套可以连接外部网络，装有Linux系统并安装18.09.7及以上版本docker的虚拟机或物理机用作镜像构建节点，以下称“构建节点”。可以通过执行docker pull、apt-get update/upgrade和pip install命令判断是否可正常访

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

在CCE集群详情页，选择左侧导航栏的“节点管理”，选择“节点”页签。在节点列表，单击操作列的“更多 > 查看YAML”查看节点配置信息。查看节点的yaml文件里“cce.kubectl.kubernetes.io/ascend-rank-table”字段是否有值。如图所示，表示有值，节点已开启top

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
释放Lite Server资源 - AI开发平台ModelArts

在费用中心退订单个实例资源登录ModelArts管理控制台。在左侧导航栏中，选择“资源管理 > AI专属资源池 > 弹性节点Server”，进入“节点”列表页面。鼠标移动至节点名称上，复制需要退订的实例ID。图3 复制实例ID Server购买订单里绑定的资源ID为Server ID，

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
下载或读取文件报错，提示超时、无剩余空间 - AI开发平台ModelArts

边用边释放）处理方法可以参照日志提示"write line error"文档进行修复。如果是分布式作业有的节点有错误，有的节点正常，建议提工单请求隔离有问题的节点。如果是触发了欧拉操作系统的限制，有如下建议措施。分目录处理，减少单个目录文件量。减慢创建文件的速度。关

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
日志提示“No space left on device” - AI开发平台ModelArts

创建文件越快，越容易触发。处理方法可以参照日志提示"write line error"文档进行修复。如果是分布式作业有的节点有错误，有的节点正常，建议提工单请求隔离有问题的节点。如果是触发了欧拉操作系统的限制，有如下建议措施。分目录处理，减少单个目录文件量。减慢创建文件的速度。关

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
在Workflow中使用大数据能力（DLI/MRS） - AI开发平台ModelArts

在Workflow中使用大数据能力（DLI/MRS）功能介绍该节点通过调用MRS服务，提供大数据集群计算能力。主要用于数据批量处理、模型训练等场景。应用场景需要使用MRS Spark组件进行大量数据的计算时，可以根据已有数据使用该节点进行训练计算。使用案例在华为云MRS服务下查看自

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > Workflow高阶能力
资源超分对在ModelArts的Notebook实例有什么影响？ - AI开发平台ModelArts

资源超分对在ModelArts的Notebook实例有什么影响？ Notebook超分，是指一个节点中CPU、内存共享的场景。为了充分利用资源，在专属池中存在超分情况。举例：一个专属池中有1个8U64G的CPU节点，如创建2U8G规格的Notebook，因为超分最多可启动 8U/(2U*0.6)=

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
复制数据至容器中空间不足 - AI开发平台ModelArts

数据下载至容器的位置空间不足。处理方法请排查是否将数据下载至“/cache”目录下，GPU规格资源的每个节点会有一个“/cache”目录，空间大小为4TB。并确认该目录下并发创建的文件数量是否过大，占用过多存储空间会出现inode耗尽的情况，导致空间不足。请排查是否使用的是GPU资源。如果使用的

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
设置在线服务故障自动重启 - AI开发平台ModelArts

服务，提升了推理在线服务的恢复速度。约束限制仅支持使用Snt9b资源的同步在线服务。只支持针对整节点资源复位，请确保部署的在线服务为8*N卡规格，请谨慎评估对部署在该节点的其他服务的影响。开启故障自动重启用户可以在部署在线服务任务时，勾选“高级选项”的“现在配置”，可以

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
Lite Cluster资源配置流程 - AI开发平台ModelArts

3 配置Lite Cluster存储如果没有挂载任何外部存储，此时可用存储空间根据dockerBaseSize的配置来决定，可访问的存储空间比较小，因此建议通过挂载外部存储空间解决存储空间受限问题。容器中挂载存储有多种方式，不同的场景下推荐的存储方式不一样，您可根据业务实际情进行选择。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
obsutil安装和配置 - AI开发平台ModelArts

obsutil安装和配置 obsutil是用于访问、管理对象存储服务OBS的命令行工具，使用该工具可以对OBS进行常用的配置管理操作，如创建桶、上传文件/文件夹、下载文件/文件夹、删除文件/文件夹等。 obsutil安装和配置的具体操作指导请参见obsutils快速入门。操作命

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置
部署预测分析服务 - AI开发平台ModelArts

控能力。完成模型训练后，可选择准确率理想且训练状态为“运行成功”的版本部署上线。具体操作步骤如下。在“运行节点”页面中，待训练状态变为“等待输入”，双击“服务部署”节点，完成相关参数配置。在服务部署页面，选择模型部署使用的资源规格。模型来源：默认为生成的模型。选择模型及版

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现预测分析
模型训练存储加速 - AI开发平台ModelArts

HPC型文件系统来加速对OBS对象存储中的数据访问，并将生成的结果数据异步持久化到OBS对象存储中长期低成本保存。图1 基于OBS+SFS Turbo的存储解决方案 OBS + SFS Turbo存储加速的具体方案请查看：面向AI场景使用OBS+SFS Turbo的存储加速实践。设置训练存储加速当完成上传数据至OBS并预热到SFS

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
部署物体检测服务 - AI开发平台ModelArts

在线的测试UI与监控能力。完成模型训练后，可选择准确率理想且训练状态为“运行成功”的版本部署上线。具体操作步骤如下。在“运行节点”页面中，待服务部署节点的状态变为“等待输入”时，双击“服务部署”进入配置详情页，完成资源的参数配置操作。在服务部署页面，选择模型部署使用的资源规格。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现物体检测
部署文本分类服务 - AI开发平台ModelArts

训练后，可选择准确率理想且训练状态为“运行成功”的版本部署上线。具体操作步骤如下。在“运行总览”页面中，待服务部署节点的状态变为“等待输入”，双击“服务部署”节点，进入配置详情页，完成资源的参数配置操作。在服务部署页面，选择模型部署使用的资源规格。模型来源：默认为生成的模型。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现文本分类
配置Lite Server存储 - AI开发平台ModelArts

配置Lite Server存储 Server服务器支持SFS、OBS、EVS三种云存储服务，提供了多种场景下的存储解决方案，主要区别如下表所示。若需要对本地盘进行配置，请参考物理机环境配置。表1 表1 SFS、OBS、EVS服务对比对比维度弹性文件服务SFS 对象存储服务OBS 云硬盘EVS

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置

总条数： 1078

上一页
1
...
4
5
6
...
54
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

准备镜像 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

Cluster资源池如何进行NCCl Test？ - AI开发平台ModelArts

附录：config.json文件 - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（Pytorch+Ascend） - AI开发平台ModelArts

在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

释放Lite Server资源 - AI开发平台ModelArts

下载或读取文件报错，提示超时、无剩余空间 - AI开发平台ModelArts

日志提示“No space left on device” - AI开发平台ModelArts

在Workflow中使用大数据能力（DLI/MRS） - AI开发平台ModelArts

资源超分对在ModelArts的Notebook实例有什么影响？ - AI开发平台ModelArts

复制数据至容器中空间不足 - AI开发平台ModelArts

设置在线服务故障自动重启 - AI开发平台ModelArts

Lite Cluster资源配置流程 - AI开发平台ModelArts

obsutil安装和配置 - AI开发平台ModelArts

部署预测分析服务 - AI开发平台ModelArts

模型训练存储加速 - AI开发平台ModelArts

部署物体检测服务 - AI开发平台ModelArts

部署文本分类服务 - AI开发平台ModelArts

配置Lite Server存储 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线