搜索_华为云

场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

场景介绍方案概览本文档利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件，为用户提供了常见主流开源大模型在ModelArts Lite Server上的预训练和全量微调方案。训练框架使用的是ModelLink。本方案目前仅适用于部分企业客户，完成本方案

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912）
OOM导致训练作业失败 - AI开发平台ModelArts

OOM导致训练作业失败问题现象因为OOM导致的训练作业失败，会有如下几种现象。错误码返回137，如下图所示。 Modelarts Service Log Trainina end with return code: 137 Modelarts Service Log]handle

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
导出ModelArts数据集中的数据到OBS - AI开发平台ModelArts

导出ModelArts数据集中的数据到OBS 针对数据集中的数据，用户可以选中部分数据或者通过条件筛选出需要的数据，当需要将数据集中的数据存储至OBS用于后续导出使用时，可通过此种方式导出成新的数据集。用户可以通过任务历史查看数据导出的历史记录。目前只有“图像分类”、“物体检测

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 导出ModelArts数据集中的数据
断点续训和故障快恢说明 - AI开发平台ModelArts

断点续训和故障快恢说明相同点断点续训（Checkpointing）和故障快恢都是指训练中断后可从训练中一定间隔（${save-interval}）保存的模型（包括模型参数、优化器状态、训练迭代次数等）继续训练恢复，而不需要从头开始。不同点断点续训：可指定加载训练过程中生成

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明
我的Gallery介绍 - AI开发平台ModelArts

我的Gallery介绍 “我的Gallery”可以查看各类AI资产的发布订阅情况和个人资料等。在“AI Gallery”页面中，单击右上角“我的Gallery > 我的主页”进入个人中心页面。图1 进入我的Gallery 表1 我的Gallery列表介绍模块列表功能介绍我的主页

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版）
断点续训和故障快恢说明 - AI开发平台ModelArts

断点续训和故障快恢说明相同点断点续训（Checkpointing）和故障快恢都是指训练中断后可从训练中一定间隔（${save-interval}）保存的模型（包括模型参数、优化器状态、训练迭代次数等）继续训练恢复，而不需要从头开始。不同点断点续训：可指定加载训练过程中生成

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明参考
断点续训和故障快恢说明 - AI开发平台ModelArts

断点续训和故障快恢说明相同点断点续训（Checkpointing）和故障快恢都是指训练中断后可从训练中一定间隔（${save-interval}）保存的模型（包括模型参数、优化器状态、训练迭代次数等）继续训练恢复，而不需要从头开始。不同点断点续训：可指定加载训练过程中生成

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明参考
断点续训和故障快恢说明 - AI开发平台ModelArts

断点续训和故障快恢说明相同点断点续训（Checkpointing）和故障快恢都是指训练中断后可从训练中一定间隔（${save-interval}）保存的模型（包括模型参数、优化器状态、训练迭代次数等）继续训练恢复，而不需要从头开始。不同点断点续训：可指定加载训练过程中生成

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明
创建数据集 - AI开发平台ModelArts

创建数据集创建数据集，支持从OBS中导入数据。 create_dataset(session, dataset_name=None, data_type=None, data_sources=None, work_path=None, dataset_type=None, **kwargs)

帮助中心 > AI开发平台ModelArts > SDK参考 > 数据管理 > 数据集管理
管理AI Gallery镜像 - AI开发平台ModelArts

管理AI Gallery镜像编辑镜像介绍资产发布上架后，准确、完整的资产介绍有助于提升资产的排序位置和访问量，能更好的支撑用户使用该资产。在镜像详情页，选择“镜像介绍”页签，单击右侧“编辑介绍”。编辑镜像基础设置和镜像描述。表1 镜像介绍的参数说明参数名称说明基础设置

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery镜像
托管镜像到AI Gallery - AI开发平台ModelArts

托管镜像到AI Gallery 创建镜像资产登录AI Gallery，单击右上角“我的Gallery”进入我的Gallery页面。单击左上方“创建资产”，选择“镜像”。在“创建镜像”弹窗中配置参数，单击“创建”。表1 创建镜像参数名称说明英文名称必填项，镜像的英文名称。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery镜像
下载或读取文件报错，提示超时、无剩余空间 - AI开发平台ModelArts

下载或读取文件报错，提示超时、无剩余空间问题现象训练过程中复制数据/代码/模型时出现如下报错：图1 错误日志原因分析出现该问题的可能原因如下。磁盘空间不足。分布式作业时，有些节点的docker base size配置未生效，容器内“/”根目录空间未达到50GB，只有默认的10GB，导致作业训练失败。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
查看日志和性能 - AI开发平台ModelArts

查看日志和性能查看日志训练过程中，训练日志会在第一个的Rank节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，日志存放在第一个的Rank节点中；日志存放路径为：对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件。查看性能

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911）
查看日志和性能 - AI开发平台ModelArts

查看日志和性能查看日志训练过程中，训练日志会在第一个的Rank节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，日志存放在第一个的Rank节点中；日志存放路径为：对应修改重要参数表格中output_dir参数值路径下的trainer_log.jsonl文件

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912）
查看日志和性能 - AI开发平台ModelArts

查看日志和性能查看日志训练过程中，训练日志会在第一个的Rank节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，日志存放在第一个的Rank节点中；日志存放路径为：对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件查看性能

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910）
日志提示“No space left on device” - AI开发平台ModelArts

日志提示“No space left on device” 问题现象训练过程中复制数据/代码/模型时出现如下报错：图1 错误日志原因分析出现该问题的可能原因如下。磁盘空间不足。分布式作业时，有些节点的docker base size配置未生效，容器内“/”根目录空间未

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
配置Grafana数据源 - AI开发平台ModelArts

配置Grafana数据源在Grafana配置数据源后，即可通过Grafana查看ModelArts的监控数据。前提条件已安装Grafana。配置Grafana数据源获取Grafana数据源配置代码。进入AOM管理控制台。图1 AOM管理控制台在左侧导航栏中选择“Prometheus监控

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标
设置无条件自动重启 - AI开发平台ModelArts

设置无条件自动重启背景信息训练过程中可能会碰到预期外的情况导致训练失败，且无法及时重启训练作业，导致训练周期长，而无条件自动重启可以避免这类问题。无条件自动重启是指当训练作业失败时，不管什么原因系统都会自动重启训练作业，提高训练成功率和提升作业的稳定性。为了避免无效重启浪费算

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
查看日志和性能 - AI开发平台ModelArts

查看日志和性能查看日志训练过程中，训练日志会在第一个的Rank节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，日志存放在第一个的Rank节点中；日志存放路径为：对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件查看性能

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909）
查询数据集列表 - AI开发平台ModelArts

查询数据集列表分页查询用户的数据集列表。 list_datasets(session, dataset_type=None, dataset_name=None, offset=None, limit=None) 示例代码示例一：查询数据集列表 from modelarts.session

帮助中心 > AI开发平台ModelArts > SDK参考 > 数据管理 > 数据集管理

总条数： 2399

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

场景介绍 - AI开发平台ModelArts

OOM导致训练作业失败 - AI开发平台ModelArts

导出ModelArts数据集中的数据到OBS - AI开发平台ModelArts

断点续训和故障快恢说明 - AI开发平台ModelArts

我的Gallery介绍 - AI开发平台ModelArts

断点续训和故障快恢说明 - AI开发平台ModelArts

断点续训和故障快恢说明 - AI开发平台ModelArts

断点续训和故障快恢说明 - AI开发平台ModelArts

创建数据集 - AI开发平台ModelArts

管理AI Gallery镜像 - AI开发平台ModelArts

托管镜像到AI Gallery - AI开发平台ModelArts

下载或读取文件报错，提示超时、无剩余空间 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

日志提示“No space left on device” - AI开发平台ModelArts

配置Grafana数据源 - AI开发平台ModelArts

设置无条件自动重启 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查询数据集列表 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线