搜索_华为云

训练日志失败分析 - AI开发平台ModelArts

也可以前往ModelArts论坛中查看是否有同类问题。Ascend训练场景可以前往昇腾论坛查看或提问。最后，如果以上均不能解决问题，可以提工单进行人工咨询。父主题：模型训练高可靠性

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
模型管理计费项 - AI开发平台ModelArts

假设用户于2023年4月1日10:00将创建模型需用到的模型包文件上传至OBS桶中。按照存储费用结算，那么创建的费用计算如下：存储费用：创建模型的模型包文件通过对象存储服务（OBS）上传或导出，存储计费按照OBS的计费规则。具体费用可参见对象存储价格详情。综上，模型的费用 = 存储费用父主题：

帮助中心 > AI开发平台ModelArts > 计费说明 > 计费项
模型调试 - AI开发平台ModelArts
模型调试 - AI开发平台ModelArts

String 来源训练作业的ID，模型是从训练作业产生的可填写，用于溯源；如模型是从第三方元模型导入，则为空，默认值为空。 source_job_version 否 String 来源训练作业的版本，模型是从训练作业产生的可填写，用于溯源；如模型是从第三方元模型导入，则为空，默认值为空。

帮助中心 > AI开发平台ModelArts > SDK参考 > 模型管理
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

准备资源创建专属资源池本文档中的模型运行环境是ModelArts Standard。资源规格需要使用专属资源池中的昇腾Snt9B资源，请参考创建资源池购买资源。推荐使用“西南-贵阳一”Region上的昇腾资源。专属资源池驱动检查登录ModelArts控制台，单击“专属资源池

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908） > 准备工作
eagle 投机小模型训练 - AI开发平台ModelArts

py --base-path 大模型权重地址 --draft-path 小模型权重地址 --base-weight-name 大模型包含lm_head的权重文件名 --draft-weight-name 小模型权重文件名 --base-path：为大模型权重地址，例如 ./llama2-7b-chat

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910）
模型发布失败 - AI开发平台ModelArts

模型，自动学习产生的模型都是以“exeML-”开头的。单击模型名称进入模型详情页面，在“基本信息”区域，获取“ID”的值。图1 获取模型ID 获取模型事件信息。进入模型详情页面后，单击“事件”页签，将事件信息表截图后反馈给技术支持人员。图2 获取事件信息父主题：模型发布

 帮助中心 > AI开发平台ModelArts > 故障排除 > 自动学习 > 模型发布
Eagle投机小模型训练 - AI开发平台ModelArts

Eagle投机小模型训练本章节提供eagle小模型自行训练的能力，客户可通过本章节，使用自己的数据训练eagle小模型，并使用自行训练的小模型进行eagle推理。支持llama1系列、llama2系列和Qwen2系列模型。步骤一：安装Eagle Eagle训练适配代码存放在代码包AscendCloud-LLM-x

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911）
Eagle投机小模型训练 - AI开发平台ModelArts

Eagle投机小模型训练本章节提供eagle小模型自行训练的能力，客户可通过本章节，使用自己的数据训练eagle小模型，并使用自行训练的小模型进行eagle推理。支持llama1系列、llama2系列和Qwen2系列模型。步骤一：安装Eagle Eagle训练适配代码存放在代码包AscendCloud-LLM-x

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
模型管理 - AI开发平台ModelArts
模型管理 - AI开发平台ModelArts

通过OBS创建模型时，构建日志中提示pip下载包失败通过自定义镜像创建模型失败导入模型后部署服务，提示磁盘不足创建模型成功后，部署服务报错，如何排查代码问题自定义镜像导入配置运行时依赖无效通过API接口查询模型详情，model_name返回值出现乱码导入模型提示模型或镜像大小超过限制

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署
模型管理 - AI开发平台ModelArts
模型管理 - AI开发平台ModelArts

模型管理模型调试导入模型查询模型列表查询模型对象列表查询模型详情删除模型

 帮助中心 > AI开发平台ModelArts > SDK参考
从OBS中导入模型文件创建模型 - AI开发平台ModelArts

从OBS中导入模型文件创建模型针对使用常用框架完成模型开发和训练的场景，可以将您的模型导入至ModelArts中，创建为模型，并进行统一管理。约束与限制针对创建模型的模型，需符合ModelArts的模型包规范，推理代码和配置文件也需遵循ModelArts的要求，详细说明请参

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建模型
模型发布 - AI开发平台ModelArts
模型发布 - AI开发平台ModelArts

模型发布模型发布失败父主题：自动学习

 帮助中心 > AI开发平台ModelArts > 故障排除 > 自动学习
eagle投机小模型训练 - AI开发平台ModelArts

py --base-path 大模型权重地址 --draft-path 小模型权重地址 --base-weight-name 大模型包含lm_head的权重文件名 --draft-weight-name 小模型权重文件名 --base-path：为大模型权重地址，例如 ./llama2-7b-chat

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
导入模型后部署服务，提示磁盘不足 - AI开发平台ModelArts

导入模型后部署服务，提示磁盘不足问题现象用户在导入模型后，部署服务时，提示磁盘空间不足：“No space left on device”。原因分析 ModelArts部署使用的是容器化部署，容器运行时有空间大小限制，当用户的模型文件或者其他自定义文件，系统文件超过Docker

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

准备资源创建专属资源池本文档中的模型运行环境是ModelArts Standard，用户需要购买专属资源池，具体步骤请参考创建资源池。资源规格要求：计算规格：用户可参考表1。硬盘空间：至少200GB。昇腾资源规格： Ascend: 1*ascend-snt9b表示昇腾单卡。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

准备资源创建专属资源池本文档中的模型运行环境是ModelArts Standard，用户需要购买专属资源池，具体步骤请参考创建资源池。资源规格要求：计算规格：用户可参考表1。硬盘空间：至少200GB。昇腾资源规格： Ascend: 1*ascend-snt9b表示昇腾单卡。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作
使用大模型在ModelArts Standard创建模型部署在线服务 - AI开发平台ModelArts

使用大模型在ModelArts Standard创建模型部署在线服务背景说明目前大模型的参数量已经达到千亿甚至万亿，随之大模型的体积也越来越大。千亿参数大模型的体积超过200G，在版本管理、生产部署上对平台系统产生了新的要求。例如：导入模型时，需要支持动态调整租户存储配额；模

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
查看训练作业资源占用情况 - AI开发平台ModelArts

Library（DALI）等工具提高数据增强的速度。模型保存不要太频繁：模型保存操作一般会阻塞训练，如果模型较大，并且较频繁地进行保存，就会影响GPU/NPU利用率。同理，其他非GPU/NPU操作尽量不要阻塞训练主进程太多的时间，如日志打印，保存训练指标信息等。父主题：管理模型训练作业

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
查看ModelArts模型详情 - AI开发平台ModelArts

查看ModelArts模型详情查看模型列表当模型创建成功后，您可在模型列表页查看所有创建的模型。模型列表页包含以下信息。表1 模型列表参数说明模型名称模型的名称。最新版本模型的当前最新版本。状态模型当前状态。部署类型模型支持部署的服务类型。版本数量模型的版本数量。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理ModelArts模型
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

创建SFS Turbo 其中，文件系统类型推荐选用500MB/s/TiB或1000MB/s/TiB，应用于AI大模型场景中。存储容量推荐使用 6.0~10.8TB ，以存储更多模型文件。图2 SFS类型和容量选择创建ECS服务器弹性云服务器（Elastic Cloud Serve

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作

总条数： 1902

上一页
1
2
3
4
5
...
96
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练日志失败分析 - AI开发平台ModelArts

模型管理计费项 - AI开发平台ModelArts

模型调试 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

eagle 投机小模型训练 - AI开发平台ModelArts

模型发布失败 - AI开发平台ModelArts

Eagle投机小模型训练 - AI开发平台ModelArts

Eagle投机小模型训练 - AI开发平台ModelArts

模型管理 - AI开发平台ModelArts

模型管理 - AI开发平台ModelArts

从OBS中导入模型文件创建模型 - AI开发平台ModelArts

模型发布 - AI开发平台ModelArts

eagle投机小模型训练 - AI开发平台ModelArts

导入模型后部署服务，提示磁盘不足 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

使用大模型在ModelArts Standard创建模型部署在线服务 - AI开发平台ModelArts

查看训练作业资源占用情况 - AI开发平台ModelArts

查看ModelArts模型详情 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线