搜索_华为云

训练tokenizer文件说明 - AI开发平台ModelArts

件chatglm3-6b/tokenization_chatglm.py 。文件最后几处代码中需要修改，具体位置可根据上下文代码信息进行查找，修改后如图所示。图1 修改ChatGLMv3-6B tokenizer文件图2 修改ChatGLMv3-6B tokenizer文件

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.906） > 训练脚本说明
上传算法至SFS - AI开发平台ModelArts

$IMAGE_DATA_PATH --cfg ./configs/swin/swin_base_patch4_window7_224_22k.yaml 推荐先使用单机单卡运行脚本，待正常运行后再改用多机多卡运行脚本。多机多卡run.sh中的“VC_WORKER_HOSTS”、“VC_WORKER_

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 多机多卡
模型管理计费项 - AI开发平台ModelArts

存储到OBS中的数据需在OBS控制台进行手动删除。如果未删除，则会按照OBS的计费规则进行持续计费。按需计费包年/包月创建桶不收取费用，按实际使用的存储容量和时长收费计费示例示例：存储费用假设用户于2023年4月1日10:00将创建模型需用到的模型包文件上传至OBS桶中。按照存储费用结算，那么创建的费用计算如下：

帮助中心 > AI开发平台ModelArts > 计费说明 > 计费项
镜像方案说明 - AI开发平台ModelArts

2409-aarch64-snt9b-20241213131522-aafe527 CANN：cann_8.0.rc3 PyTorch：2.1.0 基础镜像的使用用户通过ECS获取基础镜像步骤拉取基础镜像并上传至SWR中。随后可通过ECS中构建新镜像的方式来部署训练环境。可以在ECS中，通过运行D

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912） > 准备工作 > 准备镜像
镜像方案说明 - AI开发平台ModelArts

2409-aarch64-snt9b-20241213131522-aafe527 CANN：cann_8.0.rc3 PyTorch：2.1.0 基础镜像的使用用户通过ECS获取基础镜像步骤拉取基础镜像并上传至SWR中。随后可通过ECS中构建新镜像的方式来部署训练环境。可以在ECS中，通过运行D

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912） > 准备工作 > 准备镜像
训练作业进程被kill - AI开发平台ModelArts

在解压大量文件可能会出现此情况并造成节点重启。可以适当在解压大量文件时，加入sleep。比如每解压1w个文件，就停止1s。存储限制根据规格情况合理使用数据盘，数据盘大小请参考训练环境中不同规格资源大小。 CPU过载减少线程数。排查办法根据错误信息判断，报错原因来源于用户代码。您可以通过以下两种方式排查：

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
数据保护技术 - AI开发平台ModelArts

传输中的数据保护在ModelArts中导入模型时，支持用户自己选择HTTP和HTTPS两种传输协议，为保证数据传输的安全性，推荐用户使用更加安全的HTTPS协议。数据完整性检查推理部署功能模块涉及到的用户模型文件和发布到AIGallery的资产在上传过程中，有可能会因为

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
训练作业进程异常退出 - AI开发平台ModelArts

可能是内存溢出造成的。请减少数据量、减少batch_size，优化代码，合理聚合、复制数据。请注意，数据文件大小不等于内存占用大小，需仔细评估内存使用情况。退出码139 请排查安装包的版本，可能存在包冲突的问题。排查办法根据错误信息判断，报错原因来源于用户代码。您可以通过以下两种方式排查：

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
Cann软件与Ascend驱动版本不匹配 - AI开发平台ModelArts

ModelArts上支持的Ascend驱动版本可以在ModelArts专属资源池（NEW）的详情页面查看到。ModelArts上支持的Cann软件版本可以在训练基础镜像详情页面查看，具体请参见训练基础镜像详情（Ascend-Powered-Engine）。 Ascend驱动版本与Cann软件版本的兼容关系如下表所示：

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > Ascend相关问题
管理Lite Cluster资源池的游离节点 - AI开发平台ModelArts

Cluster资源池的游离节点如果资源中存在游离节点，即没有被纳管到资源池中的节点，可在“AI专属资源池 > 弹性集群Cluster >节点”下查看此类节点的相关信息。系统支持对游离节点进行续费、退订、开通/修改自动续费、添加/编辑资源标签、删除资源标签、搜索等操作。续费/开通自动续费/修改自动续费

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
管理Standard专属资源池的游离节点 - AI开发平台ModelArts

管理Standard专属资源池的游离节点如果资源中存在游离节点，即没有被纳管到资源池中的节点，可在“AI专属资源池 > 弹性集群Cluster >节点”下查看此类节点的相关信息。系统支持对游离节点进行续费、退订、开通/修改自动续费、添加/编辑资源标签、删除资源标签、搜索等操作。续费/开通自动续费/修改自动续费

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
SFT全参微调训练 - AI开发平台ModelArts

在OBS中新建一个log目录，作业日志选择OBS中的该路径，训练作业的日志信息则保存该路径下。最后，提交训练作业，训练完成后，请参考查看日志和性能章节查看SFT微调的日志和性能。了解更多ModelArts训练功能，可查看模型开发简介。父主题： Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912）
LoRA微调训练 - AI开发平台ModelArts

在OBS中新建一个log目录，作业日志选择OBS中的该路径，训练作业的日志信息则保存该路径下。最后，提交训练作业，训练完成后，请参考查看日志和性能章节查看SFT微调的日志和性能。了解更多ModelArts训练功能，可查看模型开发简介。父主题： Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912）
数据管理计费项 - AI开发平台ModelArts

存储到OBS中的数据需在OBS控制台进行手动删除。如果未删除，则会按照OBS的计费规则进行持续计费。按需计费包年/包月创建桶不收取费用，按实际使用的存储容量和时长收费计费示例以下案例中出现的费用价格仅供参考，实际价格请参见各服务价格详情。示例：存储费用假设用户于2023年4月

 帮助中心 > AI开发平台ModelArts > 计费说明 > 计费项
镜像在SWR上显示只有13G，安装少量的包，然后镜像保存过程会提示超过35G大小保存失败，为什么？ - AI开发平台ModelArts

然后镜像保存过程会提示超过35G大小保存失败，为什么？问题现象我的镜像在SWR侧看，只有13G左右，在开发环境Notebook镜像管理注册，启动Notebook实例后，安装一些包后，镜像保存过程会提示超过35G大小，保存失败？原因分析 SWR侧看到的大小是镜像压缩后的大小，解压后实际大小一般是压缩后的2

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard镜像相关
ModelArts的自定义镜像软件版本匹配有哪些注意事项？ - AI开发平台ModelArts

MLNX_OFED_LINUX-5.4-3.1.0.0。 CUDA版本需要参考专属资源池的GPU驱动版本，自主进行适配，GPU驱动版本可在专属资源池详情页面查看。父主题： Standard镜像相关

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard镜像相关
各模型支持的最小卡数和最大序列 - AI开发平台ModelArts

rk下的最大max-model-len。 e5-mistral-7B和gte-Qwen2-7B-instruct模型，使用openai启动服务，发送推理请求使用的是接口curl -X POST http://localhost:port/v1/embedding。表1 基于vL

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 附录
发布需求 - AI开发平台ModelArts
发布需求 - AI开发平台ModelArts

发布需求如果你已经注册成为了AI Gallery平台上的合作伙伴，你可以在AI Gallery上发布你的需求。在“AI Gallery”页面中，单击右上角“我的Gallery > 我的主页”进入个人中心页面。左侧菜单栏选择“我的需求”进入我的需求列表页，单击右上方的“发布”，进入发布需求页面。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 需求广场
训练网络迁移总结 - AI开发平台ModelArts

精度问题根因和表现种类很多，会导致问题定位较为复杂，一般还是需要GPU上充分稳定的网络（包含混合精度）再到NPU上排查精度问题。常见的精度调测手段，包含使用全精度FP32，或者关闭算子融合开关等，先进行排查。对于精度问题，系统工程人员需要对算法原理有较深入的理解，仅从工程角度分析有时候会非常受

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导
无法导入模块 - AI开发平台ModelArts

“site-package”中才能运行。但是在ModelArts可以将“project_dir”加入到“sys.path”中解决该问题。使用from module_dir import module_file来导包，代码结构如下： project_dir |- main.py |-

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障

总条数： 2497

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练tokenizer文件说明 - AI开发平台ModelArts

上传算法至SFS - AI开发平台ModelArts

模型管理计费项 - AI开发平台ModelArts

镜像方案说明 - AI开发平台ModelArts

镜像方案说明 - AI开发平台ModelArts

训练作业进程被kill - AI开发平台ModelArts

数据保护技术 - AI开发平台ModelArts

训练作业进程异常退出 - AI开发平台ModelArts

Cann软件与Ascend驱动版本不匹配 - AI开发平台ModelArts

管理Lite Cluster资源池的游离节点 - AI开发平台ModelArts

管理Standard专属资源池的游离节点 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

数据管理计费项 - AI开发平台ModelArts

镜像在SWR上显示只有13G，安装少量的包，然后镜像保存过程会提示超过35G大小保存失败，为什么？ - AI开发平台ModelArts

ModelArts的自定义镜像软件版本匹配有哪些注意事项？ - AI开发平台ModelArts

各模型支持的最小卡数和最大序列 - AI开发平台ModelArts

发布需求 - AI开发平台ModelArts

训练网络迁移总结 - AI开发平台ModelArts

无法导入模块 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线