搜索_华为云

使用基础镜像 - AI开发平台ModelArts

/scripts/install.sh; sh ./scripts/obs_pipeline.sh 使用基础镜像的方法，需要确认训练作业的资源池是否联通公网，否则执行 install.sh 文件时下载代码会失败。因此可以选择配置网络或使用ECS中构建新镜像的方法。若要对ChatCLM

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.911） > 准备工作 > 准备镜像
使用基础镜像 - AI开发平台ModelArts

练作业时，训练作业的图1中都需要执行 install.sh文件，来安装依赖以及下载完整代码。使用基础镜像的方法，需要确认训练作业的资源池是否联通公网，否则执行 install.sh 文件时下载代码会失败。因此可以选择配置网络或使用ECS中构建新镜像的方法。若要对ChatCLM

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.911） > 准备工作 > 准备镜像
管理AI Gallery模型 - AI开发平台ModelArts

设置能够运行该模型的最低计算规格。在AI Gallery工具链服务中使用该模型时，只能选取等同或高于该规格的算力资源进行任务下发。是否支持分布式训练/推理选择该模型资产是否支持在单机多卡的资源节点上进行并行训练或推理。 README.md - 资产的README内容，支持添加资产的简介、使用场景、使用方法等信息。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型
配置了合理的服务部署超时时间，服务还是部署失败，无法启动 - AI开发平台ModelArts

康检查，就无法检测到模型是否真实的启动。在自定义镜像健康检查接口中，用户可以实现实际业务是否成功的检测。在创建AI应用时配置健康检查延迟时间，保证容器服务的初始化。因此，推荐在创建AI应用时配置健康检查，并设置合理的延迟检测时间，实现实际业务的是否成功的检测，确保服务部署成功。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署 > 部署上线 > 在线服务
更新开发环境实例信息 - AI开发平台ModelArts

表3 spec定义数据结构说明参数是否必选参数类型说明 auto_stop 否 Object 自动停止参数，如表4所示。表4 auto_stop定义数据结构说明参数是否必选参数类型说明 enable 否 Boolean 是否开启自动停止功能， true表示开启，

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 开发环境（旧版）
附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

volcano资源调度失败当volcano的资源出现争抢时，会出现下图中的问题。图2 volcano资源争抢解决方法：通过打印所有Pod的信息，并找到命名有scheduler字段的Pod。 kubectl get pod -A -o wide 重启该Pod，通过delete的方式删除，但随后会自动重新启动。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

volcano资源调度失败当volcano的资源出现争抢时，会出现下图中的问题。图2 volcano资源争抢解决方法：通过打印所有Pod的信息，并找到命名有scheduler字段的Pod。 kubectl get pod -A -o wide 重启该Pod，通过delete的方式删除，但随后会自动重新启动。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

volcano资源调度失败当volcano的资源出现争抢时，会出现以下图中的问题。图2 volcano资源争抢解决方法：通过打印所有Pod的信息，并找到命名有scheduler字段的Pod。 kubectl get pod -A -o wide 重启该Pod，通过delete的方式删除，但随后会自动重新启动。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
使用CES监控Lite Server资源 - AI开发平台ModelArts

这是一个用于辅助其他事件进行判断的事件，无需单独定位处理这是一个用于辅助其他事件进行判断的事件，无需单独定位处理 NPU: HCCS交换机端口故障 NpuHccsPortFault 重要 NPU的L1 1520交换机端口发生故障这是一个用于辅助其他事件进行判断的事件，无需单独定位处理

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源
工作负载Pod异常 - AI开发平台ModelArts

${pod_name} volcano资源调度失败当volcano的资源出现争抢时，会出现下图中的问题。解决方法：通过打印所有Pod的信息，并找到命名有scheduler字段的Pod。 kubectl get pod -A -o wide 重启该Pod，通过delete的方式删除，但随后会自动重新启动。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.910） > 常见错误原因和解决方法
工作负载Pod异常 - AI开发平台ModelArts

${pod_name} volcano资源调度失败当volcano的资源出现争抢时，会出现下图中的问题。解决方法：通过打印所有Pod的信息，并找到命名有scheduler字段的Pod。 kubectl get pod -A -o wide 重启该Pod，通过delete的方式删除，但随后会自动重新启动。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.911） > 常见错误原因和解决方法
工作负载Pod异常 - AI开发平台ModelArts

${pod_name} volcano资源调度失败当volcano的资源出现争抢时，会出现下图中的问题。解决方法：通过打印所有Pod的信息，并找到命名有scheduler字段的Pod。 kubectl get pod -A -o wide 重启该Pod，通过delete的方式删除，但随后会自动重新启动。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.909） > 常见错误原因和解决方法
创建自动模型优化的训练作业 - AI开发平台ModelArts

置对应。完成超参搜索作业的创建后，训练作业需要运行一段时间。查看超参搜索作业详情训练作业运行结束后，可以查看自动超参搜索结果判断此训练作业是否满意。如果训练作业是超参搜索作业，进入训练作业详情页，选择“自动超参搜索结果”页签查看超参搜索结果。图3 超参搜索结果父主题：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 自动模型优化（AutoSearch）
创建项目的时候，数据集输入位置没有可选数据 - AI开发平台ModelArts

创建的OBS桶与创建项目不在同一个区域。账号没有配置全局授权。 OBS桶里的数据格式不符合要求。解决方法查看ModelArts创建的项目与创建的OBS桶是否在同一区域。查看创建的OBS桶所在区域。登录OBS管理控制台。进入“对象存储”界面，可在桶列表的“桶名称”列查找，或在右上方的搜索框

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard自动学习 > 创建项目
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

首先进入已创建的 CCE 集群控制版面中。根据图1的步骤进行操作，单击kubectl配置时，会弹出图2步骤页面。图1 配置中心根据图2，按步骤进行：判断是否安装 kubectl、下载kubectl配置文件、在机器中安装和配置kubectl。图2 kubectl 访问集群配置在节点机器中，

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.910） > 准备工作
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

首先进入已创建的 CCE 集群控制版面中。根据图1的步骤进行操作，单击kubectl配置时，会弹出图2步骤页面。图1 配置中心根据图2，按步骤进行：判断是否安装 kubectl、下载kubectl配置文件、在机器中安装和配置kubectl。图2 kubectl 访问集群配置在节点机器中，

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.911） > 准备工作
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

首先进入已创建的 CCE 集群控制版面中。根据图1的步骤进行操作，单击kubectl配置时，会弹出图2步骤页面。图1 配置中心根据图2，按步骤进行：判断是否安装 kubectl、下载kubectl配置文件、在机器中安装和配置kubectl。图2 kubectl 访问集群配置在节点机器中，

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.909） > 准备工作
查看日志和性能 - AI开发平台ModelArts

Loss收敛情况（示意图）注：ppo训练结束不会打印性能。建议根据保存路径下的trainer_log.jsonl文件的最后一行总的训练steps和时间来判断性能父主题：主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910）
查看日志和性能 - AI开发平台ModelArts

Loss收敛情况（示意图） ppo训练结束不会打印性能。建议根据保存路径下的trainer_log.jsonl文件的最后一行总的训练steps和时间来判断性能。父主题：主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.911）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.911）
训练作业性能降低 - AI开发平台ModelArts

请您对作业代码进行排查分析，确认是否对训练代码和参数进行过修改。检查资源分配情况（cpu/mem/gpu/snt9/infiniband）是否符合预期。通过CloudShell登录到Linux工作页面，检查GPU工作情况：通过输入“nvidia-smi”命令，查看GPU工作是否异常。通过输入“nvidia-smi

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业性能问题

总条数： 1154

上一页
1
...
18
19
20
...
58
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用基础镜像 - AI开发平台ModelArts

使用基础镜像 - AI开发平台ModelArts

管理AI Gallery模型 - AI开发平台ModelArts

配置了合理的服务部署超时时间，服务还是部署失败，无法启动 - AI开发平台ModelArts

更新开发环境实例信息 - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

使用CES监控Lite Server资源 - AI开发平台ModelArts

工作负载Pod异常 - AI开发平台ModelArts

工作负载Pod异常 - AI开发平台ModelArts

工作负载Pod异常 - AI开发平台ModelArts

创建自动模型优化的训练作业 - AI开发平台ModelArts

创建项目的时候，数据集输入位置没有可选数据 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

训练作业性能降低 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线