搜索_华为云

LoRA微调训练 - AI开发平台ModelArts

的值进行整除。 Step4 开启训练故障自动重启功能创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断点续训练是通过ch

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910）
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

c0 表2 模型镜像版本模型版本 CANN cann_8.0.rc2 PyTorch 2.1.0 Step1 检查环境 SSH登录机器后，检查NPU设备检查。运行如下命令，返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU训练指导（6.3.905） > 准备工作
创建训练作业版本 - AI开发平台ModelArts

填入model_id后app_url/boot_file_url和engine_id无需填写。请从查询作业引擎规格接口获取引擎规格ID。 model_id 是 Long 训练作业的内置模型ID。请通过查询预置算法接口获取model_id。填入model_id后app_url与bo

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
断点续训和故障快恢说明 - AI开发平台ModelArts

lora微调不支持断点续训启动前需检查latest_checkpointed_iteration.txt文件中内容是否与所需iter_000xxxx数字（表示训练后保存权重对应迭代次数）保持一致，不一致则修改latest_checkpointed_iteration.txt内容与iter_000xxxx保持一致。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明参考
断点续训和故障快恢说明 - AI开发平台ModelArts

lora微调不支持断点续训启动前需检查latest_checkpointed_iteration.txt文件中内容是否与所需iter_000xxxx数字（表示训练后保存权重对应迭代次数）保持一致，不一致则修改latest_checkpointed_iteration.txt内容与iter_000xxxx保持一致。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明参考
使用llm-compressor工具量化 - AI开发平台ModelArts

2、若量化Deepseek-v2-236b模型，大致需要10+小时。使用量化模型使用量化模型需要在NPU的机器上运行。启动vLLM前，请开启图模式（参考步骤六启动推理服务中的配置环境变量），启动服务的命令和启动非量化模型一致。父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
使用llm-compressor工具量化 - AI开发平台ModelArts

2、若量化Deepseek-v2-236b模型，大致需要10+小时。使用量化模型使用量化模型需要在NPU的机器上运行。启动vLLM前，请开启图模式（参考步骤六启动推理服务中的配置环境变量），启动服务的命令和启动非量化模型一致。父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
使用llm-compressor工具量化 - AI开发平台ModelArts

2、如果量化Deepseek-v2-236b模型，大致需要10+小时。使用量化模型使用量化模型需要在NPU的机器上运行。启动vLLM前，请开启图模式（参考步骤六启动推理服务中的配置环境变量），启动服务的命令和启动非量化模型一致。父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
权限配置 - AI开发平台ModelArts
权限配置 - AI开发平台ModelArts

容器镜像仓库所有权限。使用SWR服务时需要配置。同时，还需开通SWR组织权限。 VPC虚拟私有云子用户在创建ModelArts的专属资源池过程中，如果需要开启自定义网络配置，需要配置VPC权限。 DEW密钥管理服务当子用户使用ModelArts Notebook的SSH远程功能时，需要配置子用户密钥管理服务的使用权限。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置
断点续训和故障快恢说明 - AI开发平台ModelArts

lora微调不支持断点续训启动前需检查latest_checkpointed_iteration.txt文件中内容是否与所需iter_000xxxx数字（表示训练后保存权重对应迭代次数）保持一致，不一致则修改latest_checkpointed_iteration.txt内容与iter_000xxxx保持一致。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明
获取训练作业支持的公共规格 - AI开发平台ModelArts

/v2/{project_id}/training-job-flavors 表1 路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。表2 Query参数参数是否必选参数类型描述 flavor_type 否 String

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
创建训练作业镜像保存任务 - AI开发平台ModelArts

{task_id}/save-image-job 表1 路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
查询AI应用列表 - AI开发平台ModelArts

请求参数表3 请求Header参数参数是否必选参数类型描述 X-Auth-Token 是 String 用户Token。通过调用IAM服务获取用户Token接口获取（响应消息头中X-Subject-Token的值）。响应参数状态码：200 表4 响应Body参数

 帮助中心 > AI开发平台ModelArts > API参考 > AI应用管理
LoRA微调训练 - AI开发平台ModelArts

的值进行整除。 Step4 开启训练故障自动重启功能创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断点续训练是通过ch

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.911）
发布免费模型 - AI开发平台ModelArts

修改“谁可以看”。 “时长限制”（ModelArts模型）或“路数限制”（HiLens技能）可以选择“不启用”或“启用”。当启用时，可以设置资产的免费使用时长或路数，以及到期后是否续订。单击“保存”，完成修改。编辑版本选择“版本”页签，单击右上方的“编辑”。在此页面可以修

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 发布分享
创建网络资源 - AI开发平台ModelArts

Turbo的连接状态信息。可选值如下： Active：SFS连通状态正常 Abnormal：SFS连通状态异常 ipAddr String SFS Turbo的访问地址。状态码：400 表19 响应Body参数参数参数类型描述 error_code String ModelArts错误码。 error_msg

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

准备AscendSpeed训练代码。准备镜像准备训练模型适用的容器镜像。准备Notebook 本案例需要创建一个Notebook，以便能够通过它访问SFS Turbo服务。随后，通过Notebook将OBS中的数据上传至SFS Turbo，并对存储在SFS Turbo中的数据执行编辑操作。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.908）
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

2406-aarch64-snt9b-20240910112800-2a95df3 cann_8.0.rc3 Step1 检查环境 SSH登录机器后，检查NPU设备检查。运行如下命令，返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 准备工作
创建数据处理任务版本 - AI开发平台ModelArts

"version_id" : "qSaudx2sbPvthHygckA" } 状态码状态码描述 200 OK 401 Unauthorized 403 Forbidden 404 Not Found 错误码请参见错误码。父主题：数据管理（旧版）

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
（可选）配置镜像预热 - AI开发平台ModelArts

自定义：可直接填写镜像地址。添加镜像密钥若本租户不具有预热镜像的权限（即非公开/非本租户私有/非他人共享的镜像），此时需要添加镜像密钥。在开启镜像密钥开关后，选择命名空间及对应密钥。创建密钥方法可参考创建密钥，密钥类型须为kubernetes.io/dockerconfigjson类型。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置

总条数： 1038

上一页
1
...
44
45
46
...
52
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

LoRA微调训练 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

创建训练作业版本 - AI开发平台ModelArts

断点续训和故障快恢说明 - AI开发平台ModelArts

断点续训和故障快恢说明 - AI开发平台ModelArts

使用llm-compressor工具量化 - AI开发平台ModelArts

使用llm-compressor工具量化 - AI开发平台ModelArts

使用llm-compressor工具量化 - AI开发平台ModelArts

权限配置 - AI开发平台ModelArts

断点续训和故障快恢说明 - AI开发平台ModelArts

获取训练作业支持的公共规格 - AI开发平台ModelArts

创建训练作业镜像保存任务 - AI开发平台ModelArts

查询AI应用列表 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

发布免费模型 - AI开发平台ModelArts

创建网络资源 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

创建数据处理任务版本 - AI开发平台ModelArts

（可选）配置镜像预热 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线