搜索_华为云

训练日志失败分析 - AI开发平台ModelArts

Standard中训练作业遇到问题时，可首先查看日志，多数场景下的问题可以通过日志报错信息直接定位。 ModelArts Standard提供了训练作业失败定位与分析功能，如果训练作业运行失败，ModelArts会自动识别导致作业失败的原因，在训练日志界面上给出提示。提示包括三部分：失败的可能原因、推荐

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
在ECS中创建ma-user和ma-group - AI开发平台ModelArts

bash as default rm /bin/sh && ln -s /bin/bash /bin/sh 查看创建的用户，执行以下命令： id ma-user 如果出现以下信息则表示创建成功。 uid=1000(ma-user) gid=100(ma-group) groups=100(ma-group)

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

> 弹性集群”，选择创建的专属资源池。图1 查看专属资源池在专属池详情页可查看驱动及固件版本。如下图显示Ascend驱动为7.1.0.7.220-23.0.5，表示固件版本为7.1.0.7.220，驱动版本为23.0.5。图2 查看专属池驱动创建OBS桶 ModelArts使用对象存储服务（Object

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909） > 准备工作
管理批量推理作业 - AI开发平台ModelArts

管理批量推理作业查看批量服务详情查看批量服务的事件管理批量服务生命周期修改批量服务配置父主题：使用ModelArts Standard部署模型并推理预测

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测
更新Workflow Execution - AI开发平台ModelArts

是否使用的是缓存。表8 WorkflowConditionExecution 参数是否必选参数类型描述 result 否 String 执行结果。 metric_list 否 Array of WorkflowMetricPair objects 工作流度量信息列表。表9 WorkflowMetricPair

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
创建算法 - AI开发平台ModelArts
创建算法 - AI开发平台ModelArts

当创建算法的参数配置完成后，单击“提交”，返回算法管理列表。在“我的算法”列表，单击算法名称进入详情页，可以查看算法详细信息。选择“基本信息”页签可以查看算法信息。 “基本信息”页签，单击“编辑”，支持修改除名称和ID之外的算法信息。修改完成，单击“保存”即可完成修改。选择“训练列表”页签可

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
标注图像分类数据 - AI开发平台ModelArts

等。标注完成后，图片将存储至“已标注”页签下。图片标注不支持多标签，即一张图片不可以添加多个标签。标签名是由中文、大小写字母、数字、中划线或下划线组成。当图片目录中所有图片都完成标注后，您可以在“已标注”页签下查看已完成标注的图片，或者通过右侧的“全部标签”列表，了解当前已完成的标签名称和标签数量。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现图像分类
云上迁移适配故障 - AI开发平台ModelArts

云上迁移适配故障无法导入模块训练作业日志中提示“No module named .*” 如何安装第三方包，安装报错的处理方法下载代码目录失败训练作业日志中提示“No such file or directory” 训练过程中无法找到so文件 ModelArts训练作业无法解析参数，日志报错

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业
预训练任务 - AI开发平台ModelArts

rain_13b.sh 等待模型载入执行训练启动命令后，等待模型载入，当出现“training”关键字时，表示开始训练。训练过程中，训练日志会在最后的Rank节点打印。图1 等待模型载入最后，请参考查看日志和性能章节查看预训练的日志和性能。父主题：主流开源大模型基于Lite

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.907）
训练tokenizer文件说明 - AI开发平台ModelArts

hatglm3-6b/tokenization_chatglm.py 。文件最后几处代码中需要修改，具体位置可根据上下文代码信息进行查找，修改后如图所示。图1 修改ChatGLMv3-6B tokenizer文件图2 修改ChatGLMv3-6B tokenizer文件 GLMv4-9B

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 训练脚本说明
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

准备代码本教程中用到的训练推理代码和如下表所示，请提前准备好。获取模型软件包本方案支持的模型对应的软件和依赖包获取地址如表1所示，模型列表、对应的开源权重获取地址如表2所示。表1 模型对应的软件包和依赖包获取地址代码包名称代码说明下载地址 AscendCloud-6

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作
从Manifest文件导入数据到数据集 - AI开发平台ModelArts

”：默认关闭，可通过勾选高级选项提供增强功能。 “按标签导入”：系统将自动获取此数据集的标签，您可以单击“添加标签”添加。此字段为可选字段，您也可以在导入数据集后，在标注数据操作时，添加或删除标签。 “只导入难例”：难例指manifest文件中的“hard”属性，勾选此参数，表示此导入操作，只导入man

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 导入数据到ModelArts数据集 > 从OBS导入数据到ModelArts数据集
创建训练作业提示错误码ModelArts.2763 - AI开发平台ModelArts

原因分析用户选择的训练规格资源和算法不匹配。例如：算法支持的是GPU规格，创建训练作业时选择了ASCEND规格的资源类型。处理方法查看算法代码中设置的训练资源规格。检查创建训练作业时所选的资源规格是否正确，重新创建训练作业选择正确的资源规格。父主题：云上迁移适配故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
训练作业的日志出现detect failed（昇腾预检失败） - AI开发平台ModelArts

通过给训练作业加环境变量“MA_DETECT_TRAIN_INJECT_CODE”并将对应的值设置成0，就可以将预检功能关闭。环境变量说明参考查看训练容器环境变量。父主题： Ascend相关问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > Ascend相关问题
准备BF16权重 - AI开发平台ModelArts

opensourcerelease/DeepSeek-R1-bf16 下载完成后，需要修改权重文件中config.json文件，把model_type字段值改为“deepseekv2”。方式二：将FP8权重转换为BF16权重介绍如何将DeepSeek官方发布的FP8权重转换为BF16的权重。用

 帮助中心 > AI开发平台ModelArts > 最佳实践 > DeepSeek系列模型推理 > DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导 > 准备权重
使用MoXing复制数据报错 - AI开发平台ModelArts

检查复制的OBS的路径是否与开发环境或训练作业在同一个区域。进入ModelArts管理控制台，查看其所在区域。然后再进入OBS管理控制台，查看您使用的OBS桶所在的区域。查看是否在同一区域。是，请执行3。否，请在ModelArts同一区域的OBS中新建桶和文件夹，并将所需的数据上传至此OBS桶中。

帮助中心 > AI开发平台ModelArts > 故障排除 > MoXing
训练作业性能降低 - AI开发平台ModelArts

通过CloudShell登录到Linux工作页面，检查GPU工作情况：通过输入“nvidia-smi”命令，查看GPU工作是否异常。通过输入“nvidia-smi -q -d TEMPERATURE”命令，查看TEMP参数是否存在异常，如果温度过高，会导致训练性能下降。父主题：训练作业性能问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业性能问题
管理Workflow Execution - AI开发平台ModelArts

是否使用的是缓存。表13 WorkflowConditionExecution 参数参数类型描述 result String 执行结果。 metric_list Array of WorkflowMetricPair objects 工作流度量信息列表。表14 WorkflowMetricPair

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
服务管理概述 - AI开发平台ModelArts

服务管理概述服务管理，包括将已创建成功的模型部署为在线服务或本地服务。可以实现在线预测、本地预测、服务详情查询、查看服务日志等功能。这里的在线服务包括“predictor”和“transformer”两类，都包括下文描述的功能，本章节以“predictor”服务为例进行说明。

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

> 弹性集群”，选择创建的专属资源池。图1 查看专属资源池在专属池详情页可查看驱动及固件版本。如下图显示Ascend驱动为7.1.0.7.220-23.0.5，表示固件版本为7.1.0.7.220，驱动版本为23.0.5。图2 查看专属池驱动创建OBS桶 ModelArts使用对象存储服务（Object

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911） > 准备工作

总条数： 1827

上一页
1
...
72
73
74
...
92
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练日志失败分析 - AI开发平台ModelArts

在ECS中创建ma-user和ma-group - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

管理批量推理作业 - AI开发平台ModelArts

更新Workflow Execution - AI开发平台ModelArts

创建算法 - AI开发平台ModelArts

标注图像分类数据 - AI开发平台ModelArts

云上迁移适配故障 - AI开发平台ModelArts

预训练任务 - AI开发平台ModelArts

训练tokenizer文件说明 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

从Manifest文件导入数据到数据集 - AI开发平台ModelArts

创建训练作业提示错误码ModelArts.2763 - AI开发平台ModelArts

训练作业的日志出现detect failed（昇腾预检失败） - AI开发平台ModelArts

准备BF16权重 - AI开发平台ModelArts

使用MoXing复制数据报错 - AI开发平台ModelArts

训练作业性能降低 - AI开发平台ModelArts

管理Workflow Execution - AI开发平台ModelArts

服务管理概述 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线