搜索_华为云

常见错误原因和解决方法 - AI开发平台ModelArts

常见错误原因和解决方法显存溢出错误网卡名称错误保存ckpt时超时报错 mc2融合算子报错父主题：主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912）
ECS获取基础镜像 - AI开发平台ModelArts

ECS获取基础镜像 Step1 登录ECS服务器根据创建ECS服务器创建完成ECS服务器后，单击“远程登录”，可使用华为CloudShell远程登录。后续安装Docker、获取镜像、构建镜像等操作均在该ECS上进行。 Step2 创建镜像组织在SWR服务页面创建镜像组织。图1

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912） > 准备工作 > 准备镜像
使用基础镜像 - AI开发平台ModelArts

由于基础镜像内需要安装固定版本依赖包，如果直接使用基础镜像进行训练，每次创建训练作业时，训练作业的图1中都需要执行 install.sh文件，来安装依赖以及下载完整代码。以创建llama2-13b预训练作业为例，执行脚本0_pl_pretrain_13b.sh时，命令如下： cd

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.908） > 准备工作 > 准备镜像
训练的权重转换说明 - AI开发平台ModelArts

etrain_hf中的文件与原始Hugging Face模型中的文件进行对比，查看是否缺少如tokenizers.json、tokenizer_config.json、special_tokens_map.json等tokenizer文件或者其他json文件。如果缺少则需要直接复

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911） > 训练脚本说明
常见错误原因和解决方法 - AI开发平台ModelArts

常见错误原因和解决方法显存溢出错误网卡名称错误父主题：主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911）
常见错误原因和解决方法 - AI开发平台ModelArts

常见错误原因和解决方法显存溢出错误网卡名称错误保存ckpt时超时报错父主题：主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907）
自动学习训练作业失败 - AI开发平台ModelArts

据调整后再重新训练。文件规范：名称由以字母数字及中划线下划线组成，以'.csv'结尾，且文件不能直接放在OBS桶的根目录下，应该存放在OBS桶的文件夹内。如：“/obs-xxx/data/input.csv”。文件内容：文件保存为“csv”文件格式，文件内容以换行符（即字符“

帮助中心 > AI开发平台ModelArts > 故障排除 > 自动学习 > 模型训练
入门案例：快速创建一个物体检测的数据集 - AI开发平台ModelArts

导出方式选择“OBS”，填写相关信息，然后单击“确定”，开始执行导出操作。 “保存路径”：即导出数据存储的路径。建议不要将数据存储至当前数据集所在的输入路径或输出路径。图12 导出至OBS 数据导出成功后，您可以前往您设置的保存路径，查看到存储的数据。查看任务历史当您导出数据后，可以通过任务历史查看导出任务明细。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理
ECS中构建新镜像 - AI开发平台ModelArts

ECS中构建新镜像通过ECS获取基础镜像获取基础镜像后，可通过ECS运行Dockerfile文件，在镜像的基础上构建新镜像。 Step1 构建新ModelArts Standard训练镜像获取模型软件包，并上传到ECS的目录下（可自定义路径），获取地址参考表1。解压Asce

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912） > 准备工作 > 准备镜像
更新服务配置 - AI开发平台ModelArts

批量任务中调用的推理接口，需要从模型的config.json文件中选取一个api路径用于此次推理 mapping_type 是 String 输入数据的映射类型，可选“file”或“csv”。 file指每个推理请求对应到输入数据目录下的一个文件，当使用此方式时，此模型对应req_uri只能有一个输入参数且此参数的类型是file。

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
部署推理服务 - AI开发平台ModelArts

clone，确保集群可以访问公网。 Step1 上传权重文件将权重文件上传到集群节点机器中。权重文件的格式要求为Huggingface格式。开源权重文件获取地址请参见支持的模型列表和权重文件。如果使用模型训练后的权重文件进行推理，模型训练及训练后的权重文件转换操作可以参考相关文档章节中提供的模型训练文档。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
部署推理服务 - AI开发平台ModelArts

clone，确保集群可以访问公网。 Step1 上传权重文件将权重文件上传到集群节点机器中。权重文件的格式要求为Huggingface格式。开源权重文件获取地址请参见支持的模型列表和权重文件。如果使用模型训练后的权重文件进行推理，模型训练及训练后的权重文件转换操作可以参考相关文档章节中提供的模型训练文档。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
准备数据 - AI开发平台ModelArts
准备数据 - AI开发平台ModelArts

--test_count=3 (随机选择 3个数据作为测试集) user_id：用户的唯一不重复的ID值，必选。 excel_addr：待处理的excel文件的地址，必选。 dataset_name：处理后的数据集名称，必选。 proportion：测试集所占份数，范围[1,9]，可选。 tes

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.911） > 准备工作
常见错误原因和解决方法 - AI开发平台ModelArts

常见错误原因和解决方法显存溢出错误网卡名称错误父主题：主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.908）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.908）
使用基础镜像 - AI开发平台ModelArts

训练，每次创建训练作业时，训练作业的图1中都需要执行 install.sh文件，来安装依赖以及下载完整代码。使用基础镜像的方法，需要确认训练作业的资源池是否联通公网，否则执行 install.sh 文件时下载代码会失败。因此可以选择配置网络或使用ECS中构建新镜像的方法。若要

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作 > 准备镜像
工具介绍及准备工作 - AI开发平台ModelArts

mark，支持训练、性能对比、下游任务评测、loss和下游任务对比能力。对比结果以excel文件呈现。方便用户验证发布模型的质量。所有配置都通过yaml文件设置，用户查看默认yaml文件即可知道最优性能的配置。目前仅支持SFT指令监督微调训练阶段。代码目录 benchmark

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练benchmark工具
使用基础镜像 - AI开发平台ModelArts

由于基础镜像内需要安装固定版本依赖包，若直接使用基础镜像进行训练，每次创建训练作业时，训练作业的图1中都需要执行 install.sh 文件，来安装依赖以及下载完整代码。以创建llama2-13b预训练作业为例，执行脚本0_pl_pretrain_13b.sh时，命令如下： cd

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 准备工作 > 准备镜像
训练的权重转换说明 - AI开发平台ModelArts

etrain_hf中的文件与原始Hugging Face模型中的文件进行对比，查看是否缺少如tokenizers.json、tokenizer_config.json、special_tokens_map.json等tokenizer文件或者其他json文件。若缺少则需要直接复制

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 训练脚本说明
训练的权重转换说明 - AI开发平台ModelArts

etrain_hf中的文件与原始Hugging Face模型中的文件进行对比，查看是否缺少如tokenizers.json、tokenizer_config.json、special_tokens_map.json等tokenizer文件或者其他json文件。如果缺少则需要直接复

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.908） > 训练脚本说明
使用基础镜像 - AI开发平台ModelArts

由于基础镜像内需要安装固定版本依赖包，如果直接使用基础镜像进行训练，每次创建训练作业时，训练作业的图1中都需要执行 install.sh文件，来安装依赖以及下载完整代码。以创建llama2-13b预训练作业为例，执行脚本0_pl_pretrain_13b.sh时，命令如下： cd

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作 > 准备镜像

总条数： 1660

上一页
1
...
43
44
45
...
83
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

常见错误原因和解决方法 - AI开发平台ModelArts

ECS获取基础镜像 - AI开发平台ModelArts

使用基础镜像 - AI开发平台ModelArts

训练的权重转换说明 - AI开发平台ModelArts

常见错误原因和解决方法 - AI开发平台ModelArts

常见错误原因和解决方法 - AI开发平台ModelArts

自动学习训练作业失败 - AI开发平台ModelArts

入门案例：快速创建一个物体检测的数据集 - AI开发平台ModelArts

ECS中构建新镜像 - AI开发平台ModelArts

更新服务配置 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

准备数据 - AI开发平台ModelArts

常见错误原因和解决方法 - AI开发平台ModelArts

使用基础镜像 - AI开发平台ModelArts

工具介绍及准备工作 - AI开发平台ModelArts

使用基础镜像 - AI开发平台ModelArts

训练的权重转换说明 - AI开发平台ModelArts

训练的权重转换说明 - AI开发平台ModelArts

使用基础镜像 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线