搜索_华为云

准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

${dockerfile_image_name} 进行表示。在ECS中Docker登录。在SWR中单击右上角的“登录指令”，然后在跳出的登录指定窗口，单击复制临时登录指令。在创建的ECS中粘贴临时登录指令，即可完成登录。图5 复制登录指令修改并上传镜像。在ECS服务器中输入登录指令后，使用下列

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 准备工作
分离部署推理服务 - AI开发平台ModelArts

息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数，用来确认对应卡数已经挂载 npu-smi info

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 部署推理服务
人工标注图片数据 - AI开发平台ModelArts

登录ModelArts管理控制台，在左侧菜单栏中选择“数据准备> 数据标注”，进入“数据标注”管理页面。在标注作业列表右侧“所有类型”页签下拉选择标注类型。基于“标注类型”选择需要进行标注的标注作业，单击标注作业名称进入标注作业标注详情页。图1 下拉选择标注类型在标注作业标注详情中，展示此标注作业下全部数据。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据 > 通过人工标注方式标注数据
自动模型优化介绍 - AI开发平台ModelArts

度更集中在选择的试验点周围。随着时间推移，算法会倾向于从越来越接近最佳点处采样。在采样过程中，算法可能绘制一个次佳试验作为最佳试验，以一定概率跳出局部最优解。表3 模拟退火算法的参数说明参数说明取值参考 num_samples 搜索尝试的超参组数 int，一般在10-20之间，值越大，搜索时间越长，效果越好

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 自动模型优化（AutoSearch）
查看日志和性能 - AI开发平台ModelArts

jsonl文件长传至可视化工具页面，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。多节点训练：训练过程中的loss打印在第一个节点上。图2 Loss收敛情况（示意图）注：ppo训练结束不会打印性能。建议根据保存路径下的trainer_log.jsonl文件的最后一行总的训练steps和时间来判断性能

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910）
查看日志和性能 - AI开发平台ModelArts

jsonl文件长传至可视化工具页面，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。多节点训练：训练过程中的loss打印在第一个节点上。图2 Loss收敛情况（示意图） ppo训练结束不会打印性能。建议根据保存路径下的trainer_log.jsonl文件的最后一行总的训练steps和时间来判断性能。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912）
查看日志和性能 - AI开发平台ModelArts

jsonl文件长传至可视化工具页面，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。多节点训练：训练过程中的loss打印在第一个节点上。图2 Loss收敛情况（示意图） ppo训练结束不会打印性能。建议根据保存路径下的trainer_log.jsonl文件的最后一行总的训练steps和时间来判断性能。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.911）
查看日志和性能 - AI开发平台ModelArts

jsonl文件长传至可视化工具页面，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。多节点训练：训练过程中的loss打印在第一个节点上。图2 Loss收敛情况（示意图） ppo训练结束不会打印性能。建议根据保存路径下的trainer_log.jsonl文件的最后一行总的训练steps和时间来判断性能。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909）
ModelArts中提示OBS相关错误 - AI开发平台ModelArts

没有他人OBS桶的访问权限。 ModelArts上没有配置委托授权。 OBS文件加密上传导致。ModelArts不支持OBS加密文件。 OBS桶的权限和访问ACL设置不正确导致。创建训练作业时，代码目录和启动文件设置有误。处理办法查看OBS桶与ModelArts是否在同一个区域查看创建的OBS桶所在区域。

帮助中心 > AI开发平台ModelArts > 故障排除 > 通用问题
Lite Cluster&Server介绍 - AI开发平台ModelArts

同一昇腾算力资源池中，支持存在不同订购周期的服务器同一昇腾算力资源池中，支持资源池中订购不同计费类型/计费周期的资源，解决如下用户的使用场景：用户在包长周期的资源池中无法扩容短周期的节点。用户无法在包周期的资源池中扩容按需的节点（包括AutoScaler场景）。支持SFS产品权限划分支持SFS权限划分特性，

帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍
部署推理服务 - AI开发平台ModelArts

”Region上的DevServer和昇腾Snt9b资源。确保容器可以访问公网。 Step1 检查环境 SSH登录机器后，检查NPU设备检查。运行如下命令，返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.905）
托管模型到AI Gallery - AI开发平台ModelArts

单击左上方“创建资产”，选择“模型”。在“创建模型”弹窗中配置参数，单击“创建”。表1 创建模型参数名称说明英文名称必填项，模型的英文名称。如果没有填写“中文名称”，则资产发布后，在模型页签上会显示该“英文名称”。中文名称模型的中文名称。如果填写了“中文名称”，则资产发布后，在模型页签上会显示该“中文名称”。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型
SFT全参微调训练 - AI开发平台ModelArts

Step2 配置环境变量单击“增加环境变量”，在增加的环境变量填写框中，按照表1表格中的配置进行填写。表1 需要填写的环境变量环境变量示例值参数说明 GPUS_PER_NODE 8 必须填写。根据资源规格每个节点上NPU的数量填写。 DATA /home/ma-us

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912）
在云监控平台查看在线服务性能指标 - AI开发平台ModelArts

方式一：对整个ModelArts服务设置告警规则登录管理控制台。在“服务列表”中选择“管理与监管 > 云监控服务”，进入“云监控服务”管理控制台。在左侧导航栏，选择“告警 > 告警规则”页面，单击“创建告警规则”。在“创建告警规则”页面，“资源类型”选择“ModelArts”，

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
部署推理服务 - AI开发平台ModelArts

息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数，用来确认对应卡数已经挂载 npu-smi info

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.907）
LoRA微调训练 - AI开发平台ModelArts

Step2 配置环境变量单击“增加环境变量”，在增加的环境变量填写框中，按照表1表格中的配置进行填写。表1 需要填写的环境变量环境变量示例值参数说明 GPUS_PER_NODE 8 必须填写。根据资源规格每个节点上NPU的数量填写。 DATA /home/ma-us

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912）
使用SDK调测多机分布式训练作业 - AI开发平台ModelArts

参数解释： code_dir：必选参数，训练脚本所在的目录。在本地调试的情况下，必须是notebook目录，不能是OBS目录。 boot_file：必选参数，训练启动文件，在code_dir目录下。 obs_path：在多机分布式调测时必选参数，一个OBS目录，SDK会将note

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业 > 训练作业调测
Step2 为用户配置云服务使用权限 - AI开发平台ModelArts

如果还需要在CES上设置监控告警，则需要再加上CES FullAccess权限，以及SMN消息通知权限。（可选）配置VPC权限。如果用户在创建专属资源池过程中，需要开启自定义网络配置，此处需要授予用户VPC权限。（可选）配置SFS和SFS Turbo权限。如果用户在专属资源池中挂

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践 > 配置ModelArts基本使用权限
Standard资源池节点故障定位 - AI开发平台ModelArts

配置检查和简单的业务验证。 A050933 节点管理容错Failover 当节点具有该污点时，会将节点上容错（Failover）业务迁移走。当节点标记该污点时，会将节点上容错（Failover）业务迁移走。 A050931 训练toolkit 预检容器训练预检容器检测到GPU错误。

帮助中心 > AI开发平台ModelArts > 故障排除 > 资源池
部署推理服务 - AI开发平台ModelArts

息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数 npu-smi info -t board -i

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.906）

总条数： 1210

上一页
1
...
54
55
56
...
61
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

准备镜像 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

人工标注图片数据 - AI开发平台ModelArts

自动模型优化介绍 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

ModelArts中提示OBS相关错误 - AI开发平台ModelArts

Lite Cluster&Server介绍 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

托管模型到AI Gallery - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

在云监控平台查看在线服务性能指标 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

使用SDK调测多机分布式训练作业 - AI开发平台ModelArts

Step2 为用户配置云服务使用权限 - AI开发平台ModelArts

Standard资源池节点故障定位 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线