检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
本章节介绍如何使用SmoothQuant量化工具实现推理量化。 SmoothQuant量化工具使用到的脚本存放在代码包AscendCloud-LLM-x.x.x.zip的llm_tools目录下。 代码目录如下: AutoSmoothQuant #量化工具 ├── asc
kv-cache-int8量化支持的模型请参见表3。 Step1使用tensorRT量化工具进行模型量化,必须在GPU环境 在GPU机器上使用tensorRT 0.9.0版本工具进行模型量化,工具下载使用指导请参见https://github.com/NVIDIA/TensorRT-LLM/tree/v0
本章节介绍如何使用SmoothQuant量化工具实现推理量化。 SmoothQuant量化工具使用到的脚本存放在代码包AscendCloud-LLM-x.x.x.zip的llm_tools目录下。 代码目录如下: AutoSmoothQuant #量化工具 ├── asc
本章节介绍如何使用SmoothQuant量化工具实现推理量化。 SmoothQuant量化工具使用到的脚本存放在代码包AscendCloud-LLM-x.x.x.zip的llm_tools目录下。 代码目录如下: AutoSmoothQuant #量化工具 ├── asc
推理精度测试 本章节介绍如何使用lm-eval工具开展语言模型的推理精度测试,数据集包含mmlu、ARC_Challenge、GSM_8k、Hellaswag、Winogrande、TruthfulQA等。 约束限制 确保容器可以访问公网。 当前的精度测试仅适用于语言模型精度验证
推理精度测试 本章节介绍如何使用lm-eval工具开展语言模型的推理精度测试,数据集包含mmlu、ARC_Challenge、GSM_8k、Hellaswag、Winogrande、TruthfulQA等。 约束限制 确保容器可以访问公网。 当前的精度测试仅适用于语言模型精度验证
sh,并预测模型。基础镜像中默认提供了run.sh作为启动脚本。启动命令如下: sh run.sh 图6 运行启动脚本 上传一张预测图片(手写数字图片)到Notebook中。 图7 手写数字图片 图8 上传预测图片 重新打开一个新的Terminal终端,执行如下命令进行预测。 curl -kv -F 'image
为了更好地了解这种计算差异,并且能够正确区分正常计算差异和引起模型精度问题的异常差异,本指南提供了算子问题定位工具集详细的使用场景和使用步骤,方便用户自行或在支持下排查可能的数值计算精度问题。 当用户将大语言模型或者其他类型深度神经网络的训练从GPU迁移到昇腾AI处理器时,可能出现以下不同现象的模型精度问题。一般包括:
--image-input-shape:输入图片维度,当前不支持图片动态维度,如果图片不是(1,336,336)shape,将会被resize。 --image-feature-size:图片输入解析维度大小;llava-v1.6图片输入维度与image-feature-size关系映射表见git;计算原理如下:
--image-input-shape:输入图片维度,当前不支持图片动态维度,如果图片不是(1,336,336)shape,将会被resize。 --image-feature-size:图片输入解析维度大小;llava-v1.6图片输入维度与image-feature-size关系映射表见git;计算原理如下:
推理精度测试 本章节介绍如何使用opencompass工具开展语言模型的推理精度测试,数据集是ceval_gen、mmlu_gen、math_gen、gsm8k_gen、humaneval_gen。 约束限制 确保容器可以访问公网。 当前的精度测试仅适用于语言模型精度验证,不适用
参见表3。 本章节介绍如何使用AWQ量化工具实现推理量化。 量化方法:per-group Step1 模型量化 可以在Huggingface开源社区获取AWQ量化后的模型权重;或者获取FP16/BF16的模型权重之后,通过autoAWQ工具进行量化。 方式一:从开源社区下载发布的AWQ量化模型。
Boolean SMN开关。 subscription_id String SMN消息订阅ID。 exeml_template_id String 自动学习模板ID。 last_modified_at String 最近一次修改的时间。 package WorkflowServicePackege
据集的最大样本数量限制:1000000,最大标签数量限制:10000。 除图片类型之外的数据集(如视频、文本、音频等),单个样本大小限制:5GB。 针对图片类数据集(物体检测、图像分类、图像分割),单个图片大小限制:25MB。 单个manifest文件大小限制:5GB。 文本文件单行大小限制:100KB。
gpu_duration", "quota" : 20, "min_quota" : -1, "name_cn" : "自动学习(图像分类、物体检测、声音分类)训练时长", "unit_cn" : "分钟", "name_en" : "ExeML training
计算得出的模型参数/权重更新的次数。在调优过程中,每一个Iterations会消耗32条训练数据。 参见表3 学习率/learning_rate 设置每个迭代步数(iteration)模型参数/权重更新的速率。学习率设置得过高会导致模型难以收敛,过低则会导致模型收敛速度过慢。 参见表3 Checkpoint保存个数
参见表3。 本章节介绍如何使用AWQ量化工具实现推理量化。 量化方法:per-group Step1 模型量化 可以在Huggingface开源社区获取AWQ量化后的模型权重;或者获取FP16/BF16的模型权重之后,通过autoAWQ工具进行量化。 方式一:从开源社区下载发布的AWQ量化模型。
Platform=ModelArts-Service 原因分析 出现该问题的可能原因如下: 用户的自定义镜像中无ascend_check工具,导致启动预检失败。 用户的自定义镜像中的ascend相关工具不可用,导致预检失败。 处理方法 通过给训练作业加环境变量“MA_DETECT_TRAIN_INJECT_C
obsutil安装和配置 obsutil是用于访问、管理对象存储服务OBS的命令行工具,使用该工具可以对OBS进行常用的配置管理操作,如创建桶、上传文件/文件夹、下载文件/文件夹、删除文件/文件夹等。 obsutil安装和配置的具体操作指导请参见obsutils快速入门。 操作命
同步请求:单次推理,可同步返回结果(约<60s)。例如: 图片、较小视频文件。 异步请求:单次推理,需要异步处理返回结果(约>60s)。例如: 实时视频推理、大视频文件。 创建时间 模型的创建时间。 描述 模型的描述。 操作 部署:将模型发布为在线服务、批量服务或边缘服务。 创建新版本:创建新的模