搜索_华为云

训练专属预置镜像列表 - AI开发平台ModelArts

orch，MindSpore等常用深度学习任务的基础镜像，镜像里已经安装好运行任务所需软件。当基础镜像里的软件无法满足您的程序运行需求时，您可以基于这些基础镜像制作一个新的镜像并进行训练。训练基础镜像列表 ModelArts中预置的训练基础镜像如下表所示。表1 ModelArts训练基础镜像列表

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > ModelArts支持的预置镜像列表
日志提示Compile graph failed - AI开发平台ModelArts

日志提示Compile graph failed 问题现象日志提示：Compile graph failed。图1 报错提示原因分析模型转换时未指定Ascend后端。处理方法需要在模型转换阶段指定“--device=Ascend”。父主题：常见问题

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导 > 常见问题
创建ModelArts人工标注作业 - AI开发平台ModelArts

墨西哥城二。标注作业支持的数据类型对于不同类型的数据集，用户可以选择不同的标注任务，当前ModelArts支持如下类型的标注任务。图片图像分类：识别一张图片中是否包含某种物体。物体检测：识别出图片中每个物体的位置及类别。图像分割：根据图片中的物体划分出不同区域。音频

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据 > 通过人工标注方式标注数据
ModelArts统一镜像列表 - AI开发平台ModelArts

ModelArts统一镜像列表统一镜像列表 ModelArts提供了ARM+Ascend规格的统一镜像，包括MindSpore、PyTorch。适用于开发环境，模型训练，服务部署，请参考统一镜像列表。表1 MindSpore 预置镜像适配芯片适用范围 mindspore_2

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > ModelArts支持的预置镜像列表
推理专属预置镜像列表 - AI开发平台ModelArts

推理专属预置镜像列表 ModelArts的推理平台提供了一系列的基础镜像，用户可以基于这些基础镜像构建自定义镜像，用于部署推理服务。 X86架构（CPU/GPU）的推理基础镜像表1 TensorFlow AI引擎版本支持的运行环境镜像名称 URI 2.1.0 CPU GPU(cuda10

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > ModelArts支持的预置镜像列表
内存不足如何处理？ - AI开发平台ModelArts

运行中服务出现告警时，需要分析是您的代码是否出现漏洞导致内存溢出、是否因为业务使用量太大需要更多的内存。如果因业务原因需要更多内存，请升级在线服务选择更大内存规格的计算节点。父主题：服务部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
执行训练任务 - AI开发平台ModelArts

必须修改。用于指定模板。如果设置为"qwen"，则使用Qwen模板进行训练，模板选择可参照表1中的template列 output_dir /home/ma-user/ws/Qwen2-72B/sft-4096 必须修改。指定输出目录。训练过程中生成的模型参数和日志文件将保存在这个目录下。用户根据自己实际要求适配。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911）
AI Gallery简介 - AI开发平台ModelArts

Gallery使用限制目前自动学习产生的模型暂不支持发布到AI Gallery。订阅或购买主要是获取AI资产的使用配额和使用权，支持在配额定义的约束下，有限地使用AI资产。使用AI资产时，可能需要消耗硬件资源，硬件资源费用将根据实际使用情况，由华为云ModelArts等管理控制台向使用方收取。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版）
指令监督微调训练任务 - AI开发平台ModelArts

必须修改。用于指定模板。如果设置为"qwen"，则使用Qwen模板进行训练，模板选择可参照表1中的template列 output_dir /home/ma-user/ws/Qwen2-72B/sft-4096 必须修改。指定输出目录。训练过程中生成的模型参数和日志文件将保存在这个目录下。用户根据自己实际要求适配。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.907）
附录：大模型推理常见问题 - AI开发平台ModelArts

max_model_len 解决方法：修改config.json文件中的"seq_length"的值，"seq_length"需要大于等于 --max-model-len的值。config.json存在模型对应的路径下，例如：/data/nfs/benchmark/tokenize

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
执行微调训练任务 - AI开发平台ModelArts

必须修改。用于指定模板。如果设置为"qwen"，则使用Qwen模板进行训练，模板选择可参照表1中的template列 output_dir /home/ma-user/ws/Qwen2-72B/sft-4096 必须修改。指定输出目录。训练过程中生成的模型参数和日志文件将保存在这个目录下。用户根据自己实际要求适配。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908）
执行训练任务 - AI开发平台ModelArts

必须修改。用于指定模板。如果设置为"qwen"，则使用Qwen模板进行训练，模板选择可参照表1中的template列 output_dir /home/ma-user/ws/Qwen2-72B/sft-4096 必须修改。指定输出目录。训练过程中生成的模型参数和日志文件将保存在这个目录下。用户根据自己实际要求适配。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909）
执行训练任务 - AI开发平台ModelArts

必须修改。用于指定模板。如果设置为"qwen"，则使用Qwen模板进行训练，模板选择可参照表1中的template列 output_dir /home/ma-user/ws/Qwen2-72B/sft-4096 必须修改。指定输出目录。训练过程中生成的模型参数和日志文件将保存在这个目录下。用户根据自己实际要求适配。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910）
Ascend-vLLM推理常见问题 - AI开发平台ModelArts

max_model_len 解决方法：修改config.json文件中的"seq_length"的值，"seq_length"需要大于等于 --max-model-len的值。config.json存在模型对应的路径下，例如：/data/nfs/benchmark/tokenize

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 附录
附录：大模型推理常见问题 - AI开发平台ModelArts

max_model_len 解决方法：修改config.json文件中的"seq_length"的值，"seq_length"需要大于等于 --max-model-len的值。config.json存在模型对应的路径下，例如：/data/nfs/benchmark/tokenize

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911）
查询预置算法 - AI开发平台ModelArts

Integer 指定每一页展示作业参数的总量，默认为10，“per_page”可选的范围为[1，100]。 page 否 Integer 指定要查询页的索引，默认为1。 sortBy 否 String 指定查询的排序方式，默认是根据引擎查找“engine”，目前支持的排序还有模型名称“mode

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
附录：大模型推理常见问题 - AI开发平台ModelArts

max_model_len 解决方法：修改config.json文件中的"seq_length"的值，"seq_length"需要大于等于 --max-model-len的值。config.json存在模型对应的路径下，例如：/data/nfs/benchmark/tokenize

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911）
OOM导致训练作业失败 - AI开发平台ModelArts

修改网络参数，比如batch_size、hide_layer、cell_nums等。释放一些不需要的tensor，使用过的，如下： del tmp_tensor torch.cuda.empty_cache() 必现的问题，使用本地Pycharm远程连接Notebook调试超参。如果还存在问题，可能

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
Notebook无法执行代码，如何处理？ - AI开发平台ModelArts

保留无法使用之前的所有变量空间。如果重新打开的Notebook仍然无法使用，则进入ModelArts管理控制台页面的Notebook列表页面，“停止”此无法使用的Notebook。待Notebook处于“停止”状态后，再单击“启动”，重新启动此Notebook，并打开Noteb

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 代码运行故障
日志提示“max_pool2d_with_indices_out_cuda_frame failed with error code 0” - AI开发平台ModelArts

将版本回退至pytorch1.3。必现的问题，使用本地Pycharm远程连接Notebook调试。建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题

总条数： 2626

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练专属预置镜像列表 - AI开发平台ModelArts

日志提示Compile graph failed - AI开发平台ModelArts

创建ModelArts人工标注作业 - AI开发平台ModelArts

ModelArts统一镜像列表 - AI开发平台ModelArts

推理专属预置镜像列表 - AI开发平台ModelArts

内存不足如何处理？ - AI开发平台ModelArts

执行训练任务 - AI开发平台ModelArts

AI Gallery简介 - AI开发平台ModelArts

指令监督微调训练任务 - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

执行微调训练任务 - AI开发平台ModelArts

执行训练任务 - AI开发平台ModelArts

执行训练任务 - AI开发平台ModelArts

Ascend-vLLM推理常见问题 - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

查询预置算法 - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

OOM导致训练作业失败 - AI开发平台ModelArts

Notebook无法执行代码，如何处理？ - AI开发平台ModelArts

日志提示“max_pool2d_with_indices_out_cuda_frame failed with error code 0” - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线