搜索_华为云

训练的权重转换说明 - AI开发平台ModelArts

son文件。如果缺少则需要直接复制至权重转换后的文件夹中，否则不能直接用于推理。用户自定义执行权重转换参数修改说明如果用户要自定义数据处理脚本并且单独执行，同样以 llama2 为例。注意脚本中的python命令分别有Hugging Face 转 Megatron格式，以及Megatron

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.909） > 训练脚本说明
查询Notebook支持的可切换规格列表 - AI开发平台ModelArts

AscendInfo object NPU信息。 billing BillingInfo object 话单信息。 category String 规格处理器类型。 CPU GPU ASCEND description String 规格描述信息。 feature String 规格类别，可选值如下：

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
执行训练任务 - AI开发平台ModelArts

5 表示训练轮次，根据实际需要修改。一个Epoch是将所有训练样本训练一次的过程。可根据自己要求适配 cutoff_len 4096 文本处理时的最大长度，此处为4096，用户可根据自己要求适配 dataset 指令监督微调/ppo：alpaca_en_demo rm/dpo:dpo_en_demo

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910）
执行训练任务 - AI开发平台ModelArts

5 表示训练轮次，根据实际需要修改。一个Epoch是将所有训练样本训练一次的过程。可根据自己要求适配 cutoff_len 4096 文本处理时的最大长度，此处为4096，用户可根据自己要求适配 dataset 指令监督微调/ppo：alpaca_en_demo rm/dpo:dpo_en_demo

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909）
查询引擎规格列表 - AI开发平台ModelArts

查询引擎规格列表示例代码在ModelArts notebook平台，Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。 from modelarts.session import Session from modelarts.estimatorV2

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 资源和引擎规格接口
使用AI Gallery微调大师训练模型 - AI开发平台ModelArts

attention维度。 per_device_train_batch_size int 用于训练的每个GPU/TPU core/CPU的批处理大小。 gradient_accumulation_steps int 梯度累计步数。 max_steps int 训练最大步数，如果数据耗尽，训练将会在最大步数前停止。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版）
大量数据文件，训练过程中读取数据效率低？ - AI开发平台ModelArts

大量数据文件，训练过程中读取数据效率低？当数据集存在较多数据文件（即海量小文件），数据存储在OBS中，训练过程需反复从OBS中读取文件，导致训练过程一直在等待文件读取，效率低。解决方法建议将海量小文件，在本地压缩打包。例如打包成.zip格式。将此压缩后的文件上传至OBS。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 训练过程读取数据
更新训练作业描述 - AI开发平台ModelArts

更新训练作业描述示例代码在ModelArts notebook平台，Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。方式一：根据指定的job_id更新。 from modelarts.session import Session from

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
在ECS上构建自定义镜像并在Notebook中使用 - AI开发平台ModelArts

安装docker。如果挂载了GPU，则会安装nvidia-docker2，用以将GPU挂载到docker容器中。制作自定义镜像这一节描述如何编写一个Dockerfile，并据此构建出一个新镜像在Notebook创建实例并使用。关于Dockerfile的具体编写方法，请参考官网。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于创建Notebook
启动智能任务 - AI开发平台ModelArts

是否必选参数类型描述 envs 否 Map<String,String> 运行模型需要的环境变量键值对，可选填，默认为空。为确保您的数据安全，在环境变量中，请勿输入敏感信息。 instance_count 否 Integer 模型部署的实例数，即计算节点的个数。 model_id

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
Wav2Lip基于DevServer适配PyTorch NPU训练指导（6.3.902） - AI开发平台ModelArts

Wav2Lip基于DevServer适配PyTorch NPU训练指导（6.3.902）本文档主要介绍如何在ModelArts Lite的DevServer环境中，使用NPU卡训练Wav2Lip模型。本文档中提供的Wav2Lip模型，是在原生Wav2Lip代码基础上适配后的模型，可以用于NPU芯片训练。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 数字人模型训练推理
用户使用torch报错Unexpected error from cudaGetDeviceCount - AI开发平台ModelArts

用户使用torch报错Unexpected error from cudaGetDeviceCount 问题现象在Notebook执行兼容gpu的脚本时报错不兼容，但是通过nvcc --version排查显示是兼容。 import torch import sys print('A'

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
语言模型推理性能测试 - AI开发平台ModelArts

├── requirements.txt # 第三方依赖目前性能测试已经支持投机推理能力。静态benchmark验证本章节介绍如何进行静态benchmark验证。已经上传benchmark验证脚本到推理容器中。如果在步骤四制作推理镜像步骤中已经上传过AscendCloud-LLM-x

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910） > 推理性能测试
VS Code连接开发环境失败时的排查方法 - AI开发平台ModelArts

VS Code连接开发环境失败时的排查方法 VS Code连接开发环境失败时，请参考以下步骤进行基础排查。网络链路检查在ModelArts控制台查看Notebook实例状态是否正常，确保实例无问题。在VS Code Terminal里执行如下命令检测SSH命令是否可用； ssh

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > VS Code连接开发环境失败常见问题
训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

训练作业运行失败，出现NCCL报错问题现象训练作业的状态“运行失败”，查看训练作业的“日志”，存在NCCL的报错，例如“NCCL timeout”、“RuntimeError: NCCL communicator was aborted on rank 7”、“NCCL WARN

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

配置，否则精度会异常；其他模型不建议开启，因为性能会有损失。如果需要增加模型量化功能，启动推理服务前，先参考推理模型量化章节对模型做量化处理。启动服务与请求。此处提供vLLM服务API接口启动和OpenAI服务API接口启动2种方式。详细启动服务与请求方式参考：https://docs

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）
模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

其他加速框架或ZeRO (Zero Redundancy Optimizer)优化器、NPU节点数即其他配置。具体优化工具使用说明可参考如何选择最佳性能的zero-stage和-offloads。父主题：训练脚本说明

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.908） > 训练脚本说明
CogVideoX训练推理基于DevServer适配PyTorch NPU指导（6.3.910） - AI开发平台ModelArts

CogVideoX训练推理基于DevServer适配PyTorch NPU指导（6.3.910）本文档主要介绍如何在ModelArts Lite的DevServer环境中，使用NPU卡对CogVideoX进行LoRA微调及推理。本文档中提供的脚本，是基于原生CogVideoX的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
Wav2Lip训练基于DevServer适配PyTorch NPU训练指导（6.3.907） - AI开发平台ModelArts

Wav2Lip训练基于DevServer适配PyTorch NPU训练指导（6.3.907）本文档主要介绍如何在ModelArts Lite的DevServer环境中，使用NPU卡训练Wav2Lip模型。本文档中提供的Wav2Lip模型，是在原生Wav2Lip代码基础上适配后的模型，可以用于NPU芯片训练。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 数字人模型训练推理
离线训练安装包准备说明 - AI开发平台ModelArts

离线训练安装包准备说明申请的模型软件包一般依赖联通网络的环境。若用户的机器或资源池无法联通网络，并无法git clone下载代码、安装python依赖包的情况下，用户则需要找到已联网的机器（本章节以Linux系统机器为例）提前下载资源，以实现离线安装。用户可遵循以下步骤操作。步骤一：资源下载

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.910） > 训练脚本说明参考

总条数： 951

上一页
1
...
43
44
45
...
48
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练的权重转换说明 - AI开发平台ModelArts

查询Notebook支持的可切换规格列表 - AI开发平台ModelArts

执行训练任务 - AI开发平台ModelArts

执行训练任务 - AI开发平台ModelArts

查询引擎规格列表 - AI开发平台ModelArts

使用AI Gallery微调大师训练模型 - AI开发平台ModelArts

大量数据文件，训练过程中读取数据效率低？ - AI开发平台ModelArts

更新训练作业描述 - AI开发平台ModelArts

在ECS上构建自定义镜像并在Notebook中使用 - AI开发平台ModelArts

启动智能任务 - AI开发平台ModelArts

Wav2Lip基于DevServer适配PyTorch NPU训练指导（6.3.902） - AI开发平台ModelArts

用户使用torch报错Unexpected error from cudaGetDeviceCount - AI开发平台ModelArts

语言模型推理性能测试 - AI开发平台ModelArts

VS Code连接开发环境失败时的排查方法 - AI开发平台ModelArts

训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

CogVideoX训练推理基于DevServer适配PyTorch NPU指导（6.3.910） - AI开发平台ModelArts

Wav2Lip训练基于DevServer适配PyTorch NPU训练指导（6.3.907） - AI开发平台ModelArts

离线训练安装包准备说明 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线