检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
附录:大模型推理常见问题 问题1:在推理预测过程中遇到NPU out of memory。 解决方法:调整推理服务启动时的显存利用率,将--gpu-memory-utilization的值调小。 问题2:在推理预测过程中遇到ValueError:User-specified max_model_len
如何查看ModelArts消费详情? 在“费用中心”,您可以根据需求按照账期、产品类型等查询ModelArts的消费详情。本章节以查询“账单详情”为例指导您查看计费情况,如需了解更多的账单情况,请参见查看费用账单。 查询方法: 单击右上方的“费用中心 > 费用账单”进入费用中心详情页面
训练精度测试 约束限制 目前仅支持以下模型: qwen2.5-7b qwen2-7b qwen1.5-7b llama3.2-3b llama3.1-8b llama3-8b llama2-7b yi-6b 流程图 训练精度测试流程图如下图所示。 图1 训练精度测试流程图 执行训练任务
yaml配置文件参数配置说明 本小节主要详细描述demo_yaml样例配置文件、配置参数说明,用户可根据实际自行选择其需要的参数。 表1 模型训练脚本参数 参数 示例值 参数说明 model_name_or_path /home/ma-user/ws/tokenizers/Qwen2
常见的磁盘空间不足的问题和解决办法 该章节用于统一整体所有的常见的磁盘空间不足的问题和解决办法。减少相关问题文档的重复内容。 问题现象 训练过程中复制数据/代码/模型时出现如下报错: 图1 错误日志 原因分析 出现该问题的可能原因如下: 本地数据、文件保存将"/cache"目录空间用完
准备资源 创建专属资源池 本文档中的模型运行环境是ModelArts Standard,用户需要购买专属资源池,具体步骤请参考创建资源池。 资源规格要求: 计算规格:不同模型训练推荐的NPU卡数请参见不同模型推荐的参数与NPU卡数设置。 硬盘空间:至少200GB。 昇腾资源规格:
查询专属资源池作业列表 功能介绍 查询专属资源池作业列表。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/pools/{pool_name
动态shape 在某些推理场景中,模型输入的shape可能是不固定的,因此需要支持用户指定模型的动态shape,并能够在推理中接收多种shape的输入。在CPU上进行模型转换时无需考虑动态shape问题,因为CPU算子支持动态shape;而在Ascend场景上,算子需要指定具体的shape
推理性能测试 benchmark方法介绍 性能benchmark包括两部分。 静态性能测试:评估在固定输入、固定输出和固定并发下,模型的吞吐与首token延迟。该方式实现简单,能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。 动态性能测试:评估在请求并发在一定范围内波动,
ECS中构建新镜像(可选) 通过ECS获取和上传基础镜像获取基础镜像后,可通过ECS运行Dockerfile文件,在镜像的基础上构建新镜像。 Step1 构建新ModelArts Standard训练镜像 获取模型软件包,并上传到ECS的目录下(可自定义路径),获取地址参考表1。
在ModelArts Standard上运行GPU训练作业的场景介绍 不同AI模型训练所需要的数据量和算力不同,在训练时选择合适的存储及训练方案可提升模型训练效率与资源性价比。ModelArts Standard支持单机单卡、单机多卡和多机多卡的训练场景,满足不同AI模型训练的要求
Yaml配置文件参数配置说明 本小节主要详细描述demo_yaml配置文件、配置参数说明,用户可根据实际自行选择其需要的参数。 表1 模型训练脚本参数 参数 示例值 参数说明 model_name_or_path /home/ma-user/ws/tokenizers/Qwen2-
创建Notebook实例后无法打开页面,如何处理? 如果您在创建Notebook实例之后,打开Notebook时,因报错导致无法打开页面,您可以根据以下对应的错误码来排查解决。 打开Notebook显示黑屏 Notebook打开后黑屏,由于代理问题导致,切换代理。 打开Notebook
ECS中构建新镜像 通过ECS获取和上传基础镜像获取基础镜像后,可通过ECS运行Dockerfile文件,在镜像的基础上构建新镜像。 Step1 构建新ModelArts Standard训练镜像 获取模型软件包,并上传到ECS的目录下(可自定义路径),获取地址参考表1。 解压AscendCloud
ECS中构建新镜像 通过ECS获取和上传基础镜像获取基础镜像后,可通过ECS运行Dockerfile文件,在镜像的基础上构建新镜像。 Step1 构建新ModelArts Standard训练镜像 获取模型软件包,并上传到ECS的目录下(可自定义路径),获取地址参考表1。 解压AscendCloud
远程连接处于retry状态如何解决? 问题现象 原因分析 之前下载VS Code server失败,有残留信息,导致本次无法下载。 解决方法 方法一(本地):打开命令面板(Windows: Ctrl+Shift+P,macOS:Cmd+Shift+P),搜索“Kill VS Code
产品优势 ModelArts服务具有以下产品优势。 稳定安全的算力底座,极快至简的模型训练 支持万节点计算集群管理。 大规模分布式训练能力,加速大模型研发。 提供高性价比国产算力。 多年软硬件经验沉淀,AI场景极致优化。 加速套件,训练、推理、数据访问多维度加速。 一站式端到端生产工具链
准备镜像 准备训练模型适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置物理机环境操作。 镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 基础镜像 swr.cn-southwest
文档导读 本文档指导您如何安装和配置开发环境、如何通过调用ModelArts SDK提供的接口函数进行二次开发。 章节 内容 SDK简介 简要介绍ModelArts SDK的概念。 快速开始 介绍如何使用ModelArts SDK进行二次开发。 (可选)本地服务器安装ModelArts
精度调优前准备工作 在定位精度问题之前,首先需要排除训练脚本及参数配置等差异的干扰。目前大部分精度无法对齐的问题都是由于模型超参数、Python三方库版本、模型源码等与标杆环境(GPU/CPU)设置的不一致导致,为了在定位过程中少走弯路,需要在定位前先对训练环境及代码做有效排查。此外