搜索_华为云

LoRA微调训练 - AI开发平台ModelArts

业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中，不断地保存训练结果（包括但不限于EPOCH、模型权重、优化器状态、调度器状态）。即便模型训

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909）
LoRA微调训练 - AI开发平台ModelArts

业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中，不断地保存训练结果（包括但不限于EPOCH、模型权重、优化器状态、调度器状态）。即便模型训

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910）
云上迁移适配故障 - AI开发平台ModelArts

云上迁移适配故障无法导入模块训练作业日志中提示“No module named .*” 如何安装第三方包，安装报错的处理方法下载代码目录失败训练作业日志中提示“No such file or directory” 训练过程中无法找到so文件 ModelArts训练作业无法解析参数，日志报错

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业
查看训练作业日志 - AI开发平台ModelArts

存训练日志。图6 下载日志搜索关键字用户可以在系统日志右上角的搜索框搜索关键字，如图7所示。图7 搜索关键字系统支持高亮关键字并实现搜索结果间的跳转。搜索功能仅支持搜索当前页面加载的日志，如果日志加载不全（请关注页面提示）则需要下载或者通过打开全量日志访问链接进行搜索。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
查询训练作业参数详情 - AI开发平台ModelArts

查询训练作业参数详情功能介绍查看指定的训练作业参数详情。 URI GET /v1/{project_id}/training-job-configs/{config_name} 参数说明如表1所示。表1 路径参数参数是否必选参数类型说明 project_id 是 String

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业参数配置
yaml配置文件参数配置说明 - AI开发平台ModelArts

可选项。用于指定DeepSpeed的配置文件相对或绝对路径。DeepSpeed是一个开源库，用于加速深度学习训练。通过使用DeepSpeed，可以实现如混合精度训练、ZeRO内存优化等高级特性，以提高训练效率和性能 stage sft 表示训练类型。可选择值：[pt、sf、rm、ppo]

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.907） > 训练脚本说明
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中，不断地保存训练结果（包括但不限于EPOCH、模型权重、优化器状态、调度器状态）。即便模型训

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910）
SFT全参微调训练 - AI开发平台ModelArts

业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图3 开启故障重启断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中，不断地保存训练结果（包括但不限于EPOCH、模型权重、优化器状态、调度器状态）。即便模型训

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909）
SFT全参微调训练 - AI开发平台ModelArts

业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图3 开启故障重启断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中，不断地保存训练结果（包括但不限于EPOCH、模型权重、优化器状态、调度器状态）。即便模型训

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910）
训练启动脚本说明和参数配置 - AI开发平台ModelArts

、2_convert_mg_hf.sh中的具体python指令，并在Notebook环境中运行执行。用户可通过Notebook中创建.ipynb文件，并编辑以下代码可实现Notebook环境中的数据与OBS中的数据进行相互传递。 import moxing as mox # OBS存放数据路径 obs_data_dir=

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 训练脚本说明
查询训练作业列表 - AI开发平台ModelArts

查询训练作业列表示例代码在ModelArts Notebook平台，Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。 from modelarts.session import Session from modelarts.estimatorV2

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
如何在ModelArts的Notebook的CodeLab上安装依赖？ - AI开发平台ModelArts

如何在ModelArts的Notebook的CodeLab上安装依赖？ ModelArts CodeLab中已安装Jupyter、Python程序包等多种环境，您也可以使用pip install在Notebook或Terminal中安装依赖包。在Notebook中安装在总览页面进入CodeLab。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
更新训练作业参数 - AI开发平台ModelArts

更新训练作业参数功能介绍更新训练作业参数。 URI PUT /v1/{project_id}/training-job-configs/{config_name} 参数说明如表1所示。表1 参数说明参数是否必选参数类型说明 project_id 是 String 用

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业参数配置
发布免费模型 - AI开发平台ModelArts

参数说明资产分类选择“模型”。发布方式发布方式选择“创建新资产”。资产标题在AI Gallery显示的资产名称，建议按照您的实现目的设置。来源选择“HiLens”。 HiLens区域设置可以使用该资产的HiLens区域，以控制台实际可选值为准。技能名称从HiLens技能管理中选择待分享的技能。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 发布分享
创建训练作业参数 - AI开发平台ModelArts

创建训练作业参数功能介绍创建训练作业参数。 URI POST /v1/{project_id}/training-job-configs 参数说明如表1所示。表1 参数说明参数是否必选参数类型说明 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业参数配置
训练作业进程被kill - AI开发平台ModelArts

训练作业进程被kill 问题现象用户进程被Kill表示用户进程因外部因素被Kill或者中断，表现为日志中断。原因分析 CPU软锁在解压大量文件可能会出现此情况并造成节点重启。可以适当在解压大量文件时，加入sleep。比如每解压1w个文件，就停止1s。存储限制根据规格情况

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
查询训练作业版本详情 - AI开发平台ModelArts

查询训练作业版本详情功能介绍根据作业ID查看指定的训练作业详情。 URI GET /v1/{project_id}/training-jobs/{job_id}/versions/{version_id} 参数说明如表1所示。表1 参数说明参数是否必选参数类型说明 project_id

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

torchair_cache文件夹，避免由于缓存文件与实际推理不匹配而报错。若要使用eagle投机，配置环境变量，使eagle投机对齐实验室版本实现。目前默认开启此模式，若不开启，目前vllm0.6.0版本与实验室版本权重无法对齐，会导致小模型精度问题。 export EAGLE_US

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910）
如何在Notebook中安装外部库？ - AI开发平台ModelArts

如何在Notebook中安装外部库？ ModelArts Notebook中已安装Jupyter、Python程序包等多种环境，包括TensorFlow、MindSpore、PyTorch、Spark等。您也可以使用pip install在Notobook或Terminal中安装外部库。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
LoRA微调训练 - AI开发平台ModelArts

业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中，不断地保存训练结果（包括但不限于EPOCH、模型权重、优化器状态、调度器状态）。即便模型训

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.911）

总条数： 768

上一页
1
...
32
33
34
...
39
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

LoRA微调训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

云上迁移适配故障 - AI开发平台ModelArts

查看训练作业日志 - AI开发平台ModelArts

查询训练作业参数详情 - AI开发平台ModelArts

yaml配置文件参数配置说明 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

查询训练作业列表 - AI开发平台ModelArts

如何在ModelArts的Notebook的CodeLab上安装依赖？ - AI开发平台ModelArts

更新训练作业参数 - AI开发平台ModelArts

发布免费模型 - AI开发平台ModelArts

创建训练作业参数 - AI开发平台ModelArts

训练作业进程被kill - AI开发平台ModelArts

查询训练作业版本详情 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

如何在Notebook中安装外部库？ - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线