搜索_华为云

服务部署、启动、升级和修改时，拉取镜像失败如何处理？ - AI开发平台ModelArts

服务部署、启动、升级和修改时，拉取镜像失败如何处理？问题现象服务部署、启动、升级和修改时，拉取镜像失败。原因分析节点磁盘不足，镜像大小过大。解决方法首先考虑优化镜像，减小节点磁盘的占用。优化镜像无法解决问题，请联系系统管理员处理。父主题：服务部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。表1 NPU卡数、加速框架、梯度配置取值表模型模型参数量训练类型序列长度cutoff_len 梯度累积值优化工具(Deepspeed) 规格与节点数 llama2 7B lora/dpo

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908） > 训练脚本说明
模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。表1 NPU卡数、加速框架、梯度配置取值表模型 Template 模型参数量训练策略类型序列长度cutoff_len 梯度累积值优化工具(Deepspeed) 规格与节点数 llama2 llama2

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练脚本说明
模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。表1 NPU卡数、加速框架、梯度配置取值表模型 Template 模型参数量训练策略类型序列长度cutoff_len 梯度累积值优化工具(Deepspeed) 规格与节点数 llama2 llama2

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.5.901） > 训练脚本说明
升级Standard专属资源池驱动 - AI开发平台ModelArts

如果升级方式为安全升级，则根据滚动实例数量选择无业务的节点，隔离节点并滚动升级。如果升级方式为强制升级，则根据滚动实例数量随机选择节点，隔离节点并滚动升级。无业务节点定义：在资源池详情“节点”页签下，如果GPU/Ascend的可用数等于总数，则为无业务节点。滚动驱动升级时，驱动异常的节点对升级无影响，会和驱动正常的节点一起升级。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
训练作业卡死检测 - AI开发平台ModelArts

检查代码，检查是否有参数中未传入“master_ip”和“rank”参数等问题。问题现象2 分布式训练的日志中，发现有的节点含有GDR信息，而有的节点无GDR信息，导致卡死的原因可能为GDR。 # 节点A日志 modelarts-job-a7305e27-d1cf-4c71-ae6e-a12da676

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
查看Lite Server服务器详情 - AI开发平台ModelArts

格、镜像等信息。在弹性节点Server的节点列表页中，可以查看Server节点的状态、创建时间、计费模式、实例规格名称、核心硬件配置、私网IP地址和绑定的虚拟私有云名称。图1 查看Server节点单击某个Server节点名称，进入到Server节点详情页，可以查看更多信息，如表1所示。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
训练物体检测模型 - AI开发平台ModelArts

在新版自动学习页面，单击项目名称进入运行总览页面，单击“数据标注”节点的“实例详情”进入数据标注页面，完成数据标注。图1 完成数据标注返回新版自动学习页面，单击数据标注节点的“继续运行”，然后等待工作流按顺序进入训练节点。模型将会自动进入训练，无需人工介入，训练时间相对较长，建议

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现物体检测
训练预测分析模型 - AI开发平台ModelArts

在新版自动学习页面，单击创建成功的项目名称，查看当前工作流的执行情况。在“预测分析”节点中，待节点状态由“运行中”变为“运行成功”，即完成了模型的自动训练。训练完成后，您可以在预测分析节点中单击查看训练详情，如“标签列”和“标签列数据类型”、“准确率”、“评估结果”等。该示

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现预测分析
不同机型的对应的软件配套版本 - AI开发平台ModelArts

不同机型的对应的软件配套版本由于弹性集群资源池可选择弹性裸金属或弹性云服务器作为节点资源，不同机型的节点对应的操作系统、适用的CCE集群版本等不相同，为了便于您制作镜像、升级软件等操作，本文对不同机型对应的软件配套版本做了详细介绍。裸金属服务器的对应的软件配套版本表1 裸金属服务器

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数如出现错误，可能是机器上的NPU设备没有正常安装，或者

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 准备工作
日志出现ECC错误，导致训练作业失败 - AI开发平台ModelArts

encountered 原因分析由于ECC错误，导致作业运行失败。处理方法当ECC错误且计数超过64时，系统会自动隔离故障节点，重启训练作业确认故障是否解决。如果未隔离的节点导致训练作业再次失败或卡死，请联系技术支持处理。父主题：业务代码问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数如出现错误，可能是机器上的NPU设备没有正常安装，或者

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 准备工作
数据标注场景介绍 - AI开发平台ModelArts

语音内容：对语音内容进行标注。语音分割：对语音进行分段标注。文本文本分类：对文本的内容按照标签进行分类处理。命名实体：针对文本中的实体片段进行标注，如“时间”、“地点”等。文本三元组：针对文本中的实体片段和实体之间的关系进行标注。视频视频标注：识别出视频中每个物体的位置及分类。目前仅支持mp4格式。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数如出现错误，可能是机器上的NPU设备没有正常安装，或者

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 准备工作
Cluster资源池如何进行NCCl Test？ - AI开发平台ModelArts

ModelArts提供AI诊断功能，用户可以通过NCCl Test，测试节点GPU状态，并且测试多个节点间的通信速度。操作步骤单击资源池名称，进入资源池详情。单击左侧“AI组件管理 > AI诊断”。单击“诊断”，选择“日志上传路径”和NCCL Test节点，其余参数可保持默认值或根据实际需求修改。测试使用的最大数据：取值范围[1

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Cluster
附录：config.json文件 - AI开发平台ModelArts

的每个容器中config.json文件内容一致。 ipAddress：主节点IP地址，即rank_table_file.json文件中的server_id。 managementIpAddress：主节点IP地址，和ipAddress取值一致。 httpsEnabled：取值需要修改为false。

帮助中心 > AI开发平台ModelArts > 最佳实践 > DeepSeek系列模型推理应用 > DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导
创建ModelArts人工标注作业 - AI开发平台ModelArts

添加标签集（文本三元组）针对“文本三元组”类型的数据集，需要设置实体标签和关系标签。实体标签：需设置标签名以及标签颜色。可在颜色区域右侧单击加号增加多个标签。关系标签：关系标签为两个实体之间的关系。需设置起始实体和终止实体，您需要先添加至少2个实体标签后，再添加关系标签。启用团队标注选择是否启用团队标注。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据 > 通过人工标注方式标注数据
按标签名称更新单个标签 - AI开发平台ModelArts

Integer 标签类型。可选值如下： 0：图像分类 1：物体检测 3: 图像分割 100：文本分类 101：命名实体 102：文本三元组关系标签 103：文本三元组实体标签 200：语音分类 201：语音内容 202：语音分割 600：视频标注请求参数表3 请求Body参数参数

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
分布式训练功能介绍 - AI开发平台ModelArts

练的优缺点通信更快：相比于DP，通信速度更快负载相对均衡：相比于DP，GPU负载相对更均衡运行速度快：因为通信时间更短，效率更高，能更快速的完成训练作业相关章节创建单机多卡的分布式训练（DataParallel）：介绍单机多卡数据并行分布式训练原理和代码改造点。创建多

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练

总条数： 807

上一页
1
...
6
7
8
...
41
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

服务部署、启动、升级和修改时，拉取镜像失败如何处理？ - AI开发平台ModelArts

模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

升级Standard专属资源池驱动 - AI开发平台ModelArts

训练作业卡死检测 - AI开发平台ModelArts

查看Lite Server服务器详情 - AI开发平台ModelArts

训练物体检测模型 - AI开发平台ModelArts

训练预测分析模型 - AI开发平台ModelArts

不同机型的对应的软件配套版本 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

日志出现ECC错误，导致训练作业失败 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

数据标注场景介绍 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

Cluster资源池如何进行NCCl Test？ - AI开发平台ModelArts

附录：config.json文件 - AI开发平台ModelArts

创建ModelArts人工标注作业 - AI开发平台ModelArts

按标签名称更新单个标签 - AI开发平台ModelArts

分布式训练功能介绍 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线