检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
也可以前往ModelArts论坛中查看是否有同类问题。Ascend训练场景可以前往昇腾论坛查看或提问。 最后,如果以上均不能解决问题,可以提工单进行人工咨询。 父主题: 模型训练高可靠性
假设用户于2023年4月1日10:00将创建模型需用到的模型包文件上传至OBS桶中。按照存储费用结算,那么创建的费用计算如下: 存储费用:创建模型的模型包文件通过对象存储服务(OBS)上传或导出,存储计费按照OBS的计费规则。具体费用可参见对象存储价格详情。 综上,模型的费用 = 存储费用 父主题:
String 来源训练作业的ID,模型是从训练作业产生的可填写,用于溯源;如模型是从第三方元模型导入,则为空,默认值为空。 source_job_version 否 String 来源训练作业的版本,模型是从训练作业产生的可填写,用于溯源;如模型是从第三方元模型导入,则为空,默认值为空。
准备资源 创建专属资源池 本文档中的模型运行环境是ModelArts Standard。资源规格需要使用专属资源池中的昇腾Snt9B资源,请参考创建资源池购买资源。 推荐使用“西南-贵阳一”Region上的昇腾资源。 专属资源池驱动检查 登录ModelArts控制台,单击“专属资源池
py --base-path 大模型权重地址 --draft-path 小模型权重地址 --base-weight-name 大模型包含lm_head的权重文件名 --draft-weight-name 小模型权重文件名 --base-path:为大模型权重地址,例如 ./llama2-7b-chat
模型,自动学习产生的模型都是以“exeML-”开头的。单击模型名称进入模型详情页面,在“基本信息”区域,获取“ID”的值。 图1 获取模型ID 获取模型事件信息。 进入模型详情页面后,单击“事件”页签,将事件信息表截图后反馈给技术支持人员。 图2 获取事件信息 父主题: 模型发布
Eagle投机小模型训练 本章节提供eagle小模型自行训练的能力,客户可通过本章节,使用自己的数据训练eagle小模型,并使用自行训练的小模型进行eagle推理。支持llama1系列、llama2系列和Qwen2系列模型。 步骤一:安装Eagle Eagle训练适配代码存放在代码包AscendCloud-LLM-x
Eagle投机小模型训练 本章节提供eagle小模型自行训练的能力,客户可通过本章节,使用自己的数据训练eagle小模型,并使用自行训练的小模型进行eagle推理。支持llama1系列、llama2系列和Qwen2系列模型。 步骤一:安装Eagle Eagle训练适配代码存放在代码包AscendCloud-LLM-x
通过OBS创建模型时,构建日志中提示pip下载包失败 通过自定义镜像创建模型失败 导入模型后部署服务,提示磁盘不足 创建模型成功后,部署服务报错,如何排查代码问题 自定义镜像导入配置运行时依赖无效 通过API接口查询模型详情,model_name返回值出现乱码 导入模型提示模型或镜像大小超过限制
模型管理 模型调试 导入模型 查询模型列表 查询模型对象列表 查询模型详情 删除模型
从OBS中导入模型文件创建模型 针对使用常用框架完成模型开发和训练的场景,可以将您的模型导入至ModelArts中,创建为模型,并进行统一管理。 约束与限制 针对创建模型的模型,需符合ModelArts的模型包规范,推理代码和配置文件也需遵循ModelArts的要求,详细说明请参
模型发布 模型发布失败 父主题: 自动学习
py --base-path 大模型权重地址 --draft-path 小模型权重地址 --base-weight-name 大模型包含lm_head的权重文件名 --draft-weight-name 小模型权重文件名 --base-path:为大模型权重地址,例如 ./llama2-7b-chat
导入模型后部署服务,提示磁盘不足 问题现象 用户在导入模型后,部署服务时,提示磁盘空间不足:“No space left on device”。 原因分析 ModelArts部署使用的是容器化部署,容器运行时有空间大小限制,当用户的模型文件或者其他自定义文件,系统文件超过Docker
准备资源 创建专属资源池 本文档中的模型运行环境是ModelArts Standard,用户需要购买专属资源池,具体步骤请参考创建资源池。 资源规格要求: 计算规格:用户可参考表1。 硬盘空间:至少200GB。 昇腾资源规格: Ascend: 1*ascend-snt9b表示昇腾单卡。
准备资源 创建专属资源池 本文档中的模型运行环境是ModelArts Standard,用户需要购买专属资源池,具体步骤请参考创建资源池。 资源规格要求: 计算规格:用户可参考表1。 硬盘空间:至少200GB。 昇腾资源规格: Ascend: 1*ascend-snt9b表示昇腾单卡。
使用大模型在ModelArts Standard创建模型部署在线服务 背景说明 目前大模型的参数量已经达到千亿甚至万亿,随之大模型的体积也越来越大。千亿参数大模型的体积超过200G,在版本管理、生产部署上对平台系统产生了新的要求。例如:导入模型时,需要支持动态调整租户存储配额;模
Library(DALI)等工具提高数据增强的速度。 模型保存不要太频繁:模型保存操作一般会阻塞训练,如果模型较大,并且较频繁地进行保存,就会影响GPU/NPU利用率。同理,其他非GPU/NPU操作尽量不要阻塞训练主进程太多的时间,如日志打印,保存训练指标信息等。 父主题: 管理模型训练作业
查看ModelArts模型详情 查看模型列表 当模型创建成功后,您可在模型列表页查看所有创建的模型。模型列表页包含以下信息。 表1 模型列表 参数 说明 模型名称 模型的名称。 最新版本 模型的当前最新版本。 状态 模型当前状态。 部署类型 模型支持部署的服务类型。 版本数量 模型的版本数量。
创建SFS Turbo 其中,文件系统类型推荐选用500MB/s/TiB或1000MB/s/TiB,应用于AI大模型场景中。存储容量推荐使用 6.0~10.8TB ,以存储更多模型文件。 图2 SFS类型和容量选择 创建ECS服务器 弹性云服务器(Elastic Cloud Serve