搜索_华为云

ascendfactory-cli方式启动（推荐） - AI开发平台ModelArts

使用yaml配置文件方便用户根据自己实际需求进行修改。权重文件支持以下组合方式，用户根据自己实际要求选择：训练stage 不加载权重增量训练：加载权重，不加载优化器断点续训：加载权重+优化器 sft、dpo model_name_or_path=xxx train_from_scratch=true

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.5.901） > 执行训练任务
投机推理使用说明 - AI开发平台ModelArts

机流程，平均可以生成3个有效token，即用1.5倍的时间代价，生成了3倍的token数量，性能提升了100%。投机推理参数设置在启动离线或在线推理服务时参考表1所示配置参数，使用投机推理功能。表1 投机推理相关参数服务启动方式配置项取值类型配置说明 offline

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.5.901） > 推理关键特性使用 > 投机推理
准备Notebook（可选） - AI开发平台ModelArts

准备Notebook（可选）本步骤为可选操作。ModelArts Notebook云上云下，无缝协同，更多关于ModelArts Notebook的详细资料请查看开发环境介绍。本案例中，如果用户有自定义开发的需要，比如查看和编辑代码、数据预处理、权重转换等操作，可通过Note

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.5.901） > 准备工作
准备Notebook（可选） - AI开发平台ModelArts

准备Notebook（可选）本步骤为可选操作。ModelArts Notebook云上云下，无缝协同，更多关于ModelArts Notebook的详细资料请查看开发环境介绍。本案例中，如果用户有自定义开发的需要，比如查看和编辑代码、数据预处理、权重转换等操作，可通过Note

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作
准备镜像环境 - AI开发平台ModelArts

首先给出单个节点训练的config.yaml文件模板，用于配置pod。而在训练中，需要按照参数说明修改${}中的参数值。该模板使用SFS Turbo挂载方案。 apiVersion: v1 kind: ConfigMap metadata: name: configmap1980-vcjob

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911） > 准备工作
在MaaS中创建模型 - AI开发平台ModelArts

Region下。关于如何获取权重文件，请参见Hugging Face官网。如果Hugging Face网站打不开，请在互联网上搜索解决方案。关于权重文件的格式要求，请参见约束限制。关于如何将权重文件存储到OBS桶，请参见上传概述。修改权重配置当选择ChatGLM3-6

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
ModelArts入门指引 - AI开发平台ModelArts

ModelArts入门指引本文旨在帮助您了解ModelArts的基本使用流程以及相关的常见问题，帮助您快速上手ModelArts服务。面向不同AI基础的开发者，本文档提供了相应的入门教程，帮助用户更快速地了解ModelArts的功能，您可以根据经验选择相应的教程。面向AI开

 帮助中心 > AI开发平台ModelArts > 快速入门
准备Notebook - AI开发平台ModelArts

准备Notebook ModelArts Notebook云上云下，无缝协同，更多关于ModelArts Notebook的详细资料请查看开发环境介绍。本案例中的训练作业需要通过SFS Turbo挂载盘的形式创建，因此需要将上述数据集、代码、权重文件从OBS桶上传至SFS Turbo中。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905） > 准备工作
训练参数配置说明【旧】 - AI开发平台ModelArts

1：加载权重不加载优化器状态【增量训练】 2：加载权重且加载优化器状态【断点续训】详见断点续训和故障快恢说明 USER_CONVERTED_CKPT_PATH /home/ma-user/ws/xxx 【可选】已转换Megatron格式权重目录或训练输出结果权重目录，一般搭配断点续训或增量训练。增

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.5.901） > 训练脚本说明参考
常见的磁盘空间不足的问题和解决办法 - AI开发平台ModelArts

常见的磁盘空间不足的问题和解决办法该章节用于统一整体所有的常见的磁盘空间不足的问题和解决办法。减少相关问题文档的重复内容。问题现象训练过程中复制数据/代码/模型时出现如下报错：图1 错误日志原因分析出现该问题的可能原因如下：本地数据、文件保存将"/cache"目录空间用完。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
（可选）本地服务器安装ModelArts SDK - AI开发平台ModelArts

no valid version specifier) modelarts==latest 针对以上报错，可重新安装更低版本的pip，或将离线包名modelarts-latest-py2.py3-none-any.whl中的latest修改为任意版本号，例如modelarts-1

帮助中心 > AI开发平台ModelArts > SDK参考
下载或读取文件报错，提示超时、无剩余空间 - AI开发平台ModelArts

下载或读取文件报错，提示超时、无剩余空间问题现象训练过程中复制数据/代码/模型时出现如下报错：图1 错误日志原因分析出现该问题的可能原因如下。磁盘空间不足。分布式作业时，有些节点的docker base size配置未生效，容器内“/”根目录空间未达到50GB，只有默认的10GB，导致作业训练失败。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
OBS复制过程中提示“BrokenPipeError: Broken pipe” - AI开发平台ModelArts

OBS复制过程中提示“BrokenPipeError: Broken pipe” 问题现象训练作业在使用MoXing复制数据时，日志中出现报错“BrokenPipeError: [Errno xx] Broken pipe”。原因分析出现该问题的可能原因如下：在大规模分布

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
查询数据集导入任务的详情 - AI开发平台ModelArts

查询数据集导入任务的详情功能介绍查询数据集导入任务的详情。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/datase

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
读取文件报错，如何正确读取文件 - AI开发平台ModelArts

读取文件报错，如何正确读取文件问题现象创建训练作业如何读取“json”和“npy”文件。训练作业如何使用cv2库读取文件。如何在MXNet环境下使用torch包。训练作业读取文件，出现如下报错： NotFoundError (see above for traceback):

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
查询数据集导入任务列表 - AI开发平台ModelArts

查询数据集导入任务列表功能介绍分页查询数据集导入任务列表。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/datase

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
在推理生产环境中部署推理服务 - AI开发平台ModelArts

E=1 # IFA算子（增量decode阶段的flash-attention）是否使用高精度模式；默认值为0表示不开启。针对Qwen2-7B、Qwen2-57b、Qwen2-72B，在长序列下需要开启，否则会有概率性精度异常；其他模型不建议开启，会影响增量时延增加5%~10%。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910）
设置断点续训练 - AI开发平台ModelArts

ckpt的代码，使能读取前一次训练保存的预训练模型。 ModelArts Standard中如何实现断点续训练在ModelArts Standard训练中实现断点续训练或增量训练，建议使用“训练输出”功能。在创建训练作业时，设置训练“输出”参数为“train_url”，在指定的训练输出的数据存储位置中保存Ch

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

准备代码本教程中用到的数据和代码如下表所示，请提前准备好。获取数据及代码表1 准备代码代码包名称代码说明下载地址 AscendCloud-3rdLLM-6.3.904-xxx.zip 说明：软件包名称中的xxx表示时间戳。包含了本教程中使用到的模型训练代码、推理部

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > GLM3-6B模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > 准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

准备代码本教程中用到的训练推理代码和如下表所示，请提前准备好。获取数据及代码表1 准备代码代码包名称代码说明下载地址 AscendCloud-3rdLLM-6.3.904-xxx.zip 说明：软件包名称中的xxx表示时间戳。包含了本教程中使用到的模型训练代码、推

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > Baichuan2-13B模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > 准备工作

总条数： 578

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

ascendfactory-cli方式启动（推荐） - AI开发平台ModelArts

投机推理使用说明 - AI开发平台ModelArts

准备Notebook（可选） - AI开发平台ModelArts

准备Notebook（可选） - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

在MaaS中创建模型 - AI开发平台ModelArts

ModelArts入门指引 - AI开发平台ModelArts

准备Notebook - AI开发平台ModelArts

训练参数配置说明【旧】 - AI开发平台ModelArts

常见的磁盘空间不足的问题和解决办法 - AI开发平台ModelArts

（可选）本地服务器安装ModelArts SDK - AI开发平台ModelArts

下载或读取文件报错，提示超时、无剩余空间 - AI开发平台ModelArts

OBS复制过程中提示“BrokenPipeError: Broken pipe” - AI开发平台ModelArts

查询数据集导入任务的详情 - AI开发平台ModelArts

读取文件报错，如何正确读取文件 - AI开发平台ModelArts

查询数据集导入任务列表 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

设置断点续训练 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线