检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ModelArts SDK下载文件目标路径设置为文件名,部署服务时报错 问题现象 ModelArts SDK在OBS下载文件时,目标路径设置为文件名,在本地IDE运行不报错,部署为在线服务时报错。 代码如下: session.obs.download_file(obs_path,
镜像方案说明 准备大模型训练适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置Standard物理机环境操作。 基础镜像地址 本教程中用到的训练的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 配套版本 训练基础镜像
准备Notebook(可选) 本步骤为可选操作。ModelArts Notebook云上云下,无缝协同,更多关于ModelArts Notebook的详细资料请查看开发环境介绍。 本案例中,如果用户需要自定义开发,可通过Notebook环境进行数据预处理、权重转换等操作。并且No
在推理生产环境中部署推理服务 本章节介绍如何在ModelArts的推理生产环境(ModelArts控制台的在线服务功能)中部署推理服务。 Step1 准备模型文件和权重文件 在OBS桶中,创建文件夹,准备ascend_vllm代码包、模型权重文件、推理启动脚本run_vllm.s
准备资源 创建专属资源池 本文档中的模型运行环境是ModelArts Standard,用户需要购买专属资源池,具体步骤请参考创建资源池。 资源规格要求: 计算规格:用户可参考表2。 硬盘空间:至少200GB。 昇腾资源规格: Ascend: 1*ascend-snt9b表示昇腾单卡。
准备资源 创建专属资源池 本文档中的模型运行环境是ModelArts Standard,用户需要购买专属资源池,具体步骤请参考创建资源池。 资源规格要求: 计算规格:用户可参考表2。 硬盘空间:至少200GB。 昇腾资源规格: Ascend: 1*ascend-snt9b表示昇腾单卡。
下载代码目录失败 问题现象 训练作业运行时下载失败,出现如下报错,请参见图1: ERROR:modelarts-downloader.py: Get object key failed: 'Contents' 图1 获取内容失败 原因分析 在创建训练作业时指定的代码目录不存在导致训练失败。
复制数据至容器中空间不足 问题现象 ModelArts训练作业运行时,日志中遇到如下报错,导致数据无法复制至容器中。 OSError:[Errno 28] No space left on device 原因分析 数据下载至容器的位置空间不足。 处理方法 请排查是否将数据下载至“
准备代码 本教程中用到的模型软件包如下表所示,请提前准备好。 获取模型软件包 本方案支持的模型对应的软件和依赖包获取地址如表1所示。 表1 模型对应的软件包和依赖包获取地址 代码包名称 代码说明 下载地址 AscendCloud-6.3.907-xxx.zip 说明: 软件包名称中的xxx表示时间戳。
准备资源 创建专属资源池 本文档中的模型运行环境是ModelArts Standard,用户需要购买专属资源池,具体步骤请参考创建资源池。 资源规格要求: 计算规格:用户可参考表2。 硬盘空间:至少200GB。 昇腾资源规格: Ascend: 1*ascend-snt9b表示昇腾单卡。
准备资源 创建专属资源池 本文档中的模型运行环境是ModelArts Standard,用户需要购买专属资源池,具体步骤请参考创建资源池。 资源规格要求: 计算规格:用户可参考表2。 硬盘空间:至少200GB。 昇腾资源规格: Ascend: 1*ascend-snt9b表示昇腾单卡。
准备代码 本教程中用到的模型软件包如下表所示,请提前准备好。 获取模型软件包 本方案支持的模型对应的软件和依赖包获取地址如表1所示。 表1 模型对应的软件包和依赖包获取地址 代码包名称 代码说明 下载地址 AscendCloud-6.3.906-xxx.zip 说明: 软件包名称中的xxx表示时间戳。
eagle 投机小模型训练 本章节提供eagle小模型自行训练的能力,客户可通过本章节,使用自己的数据进行训练eagle小模型,并使用自行训练的小模型进行eagle推理。 步骤一:安装Eagle Eagle训练适配代码存放在代码包AscendCloud-LLM-x.x.x.zip
使用大模型在ModelArts Standard创建模型部署在线服务 背景说明 目前大模型的参数量已经达到千亿甚至万亿,随之大模型的体积也越来越大。千亿参数大模型的体积超过200G,在版本管理、生产部署上对平台系统产生了新的要求。例如:导入模型时,需要支持动态调整租户存储配额;模
使用Msprobe工具分析偏差 观察上一章Loss趋势,在首个Step有较小偏差,所以对第一个Step进行比对分析。此处使用Msprobe的整网Dump和比对分析功能。 首先安装社区Msprobe工具,命令如下: pip install mindstudio-probe 使能工具
准备代码 本教程中用到的模型软件包如下表所示,请提前准备好。 获取模型软件包 本方案支持的模型对应的软件和依赖包获取地址如表1所示。 表1 模型对应的软件包和依赖包获取地址 代码包名称 代码说明 下载地址 AscendCloud-6.3.910-xxx.zip 说明: 软件包名称中的xxx表示时间戳。
准备代码 本教程中用到的模型软件包如下表所示,请提前准备好。 获取模型软件包 本方案支持的模型对应的软件和依赖包获取地址如表1所示。 表1 模型对应的软件包和依赖包获取地址 代码包名称 代码说明 下载地址 AscendCloud-6.3.911-xxx.zip 说明: 软件包名称中的xxx表示时间戳。
镜像方案说明 准备大模型训练适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置Standard物理机环境操作。 基础镜像地址 本教程中用到的训练的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 配套版本 训练基础镜像
镜像方案说明 准备大模型训练适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置Standard物理机环境操作。 基础镜像地址 本教程中用到的训练的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 配套版本 训练基础镜像
镜像方案说明 准备大模型训练适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置Standard物理机环境操作。 基础镜像地址 本教程中用到的训练的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 配套版本 训练基础镜像