检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用GPTQ量化 当前版本使用GPTQ量化仅支持W8A16 perchannel的量化形式,使用W8A16的量化不仅可以保证精度在可接受的范围内,同时也有一定的性能收益。 GPTQ W8A16量化支持的模型请参见支持的模型列表和权重文件。 本章节介绍如何在GPU的机器上使用开源GPTQ量化工具GPTQ
常见错误原因和解决方法 显存溢出错误 网卡名称错误 工作负载Pod异常 父主题: 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导(6.3.911)
准备数据(可选) 此小节为自定义数据集执行过程,如非自定义数据集此小节忽略。 本教程使用到的是LLamaFactory代码包自带数据集。您也可以自行准备数据集,目前指令微调数据集支持alpaca格式和sharegpt格式的数据集;使用自定义数据集时,请更新代码目录下data/dataset_info
使用AWQ量化 AWQ(W4A16/W8A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见表3。 本章节介绍如何使用AWQ量化工具实现推理量化。 量化方法:W4A16 per-group/per-channel,
使用SmoothQuant量化 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见表3。 本章节介绍如何使用SmoothQuant量化工具实现推理量化。
使用AWQ量化 AWQ(W4A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见支持的模型列表和权重文件。 本章节介绍如何使用AWQ量化工具实现推理量化。 量化方法:W4A16 per-group/per-channel,W8A16
执行预训练任务 Step1 上传训练权重文件和数据集 如果在准备代码和数据阶段已经上传权重文件和数据集到容器中,可以忽略此步骤。 如果未上传训练权重文件和数据集到容器中,具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。
执行预训练任务 步骤一 上传训练权重文件和数据集 如果在准备代码和数据阶段已经上传权重文件和数据集到容器中,可以忽略此步骤。 如果未上传训练权重文件和数据集到容器中,具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。
准备镜像环境 准备训练模型适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置物理机环境操作。 镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 基础镜像 swr.cn-southwest-2
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行install.sh文件,来安装依赖以及下载完整代码。命令如下:
准备镜像环境 准备训练模型适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置物理机环境操作。 镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 基础镜像 swr.cn-southwest-2
准备数据(可选) 此小节为自定义数据集执行过程,如非自定义数据集此小节忽略。 本教程使用到的是LLamaFactory代码包自带数据集。您也可以自行准备数据集,目前支持alpaca格式和sharegpt格式的微调数据集;使用自定义数据集时,请更新代码目录下data/dataset_info
训练精度测试 流程图 训练精度测试流程图如下图所示: 图1 训练精度测试流程图 执行训练任务 进入test-benchmark目录执行训练命令,可以多次执行,按自己实际情况。 benchmark-cli train <cfgs_yaml_file> <model_name> <run_type>
为微服务配置告警策略 支持对某个服务下的单个微服务或者多个微服务配置告警策略,告警信息会进行上报,业务可在监控服务(ServiceInsight)管理台上查看告警信息。 前提条件 需要具备AppStage服务运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。 新增告警配置
在SLB中配置监听共享 AppStage的资源按照服务级隔离,跨服务使用监听时,需要配置共享。 前提条件 需要具备AppStage服务运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。 配置监听共享 进入AppStage运维中心。 在顶部导航栏选择服务。 单击,选择“微服务开发
创建Workflow数据集节点 功能介绍 通过对ModelArts数据集能力进行封装,实现新版数据集的创建功能。主要用于通过创建数据集对已有数据(已标注/未标注)进行统一管理的场景,后续常见数据集导入节点或者数据集标注节点。 属性总览 您可以使用CreateDatasetStep
手动上传各类包到AppStage软件仓库 部署服务支持手动上传软件包、部署包、SQL包、IaC3.0包及TF模板包至软件仓库。 前提条件 已获取服务运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。 上传包 上传包需要获取服务运维岗位权限,权限申请操作请参见申请权限。 进入AppStage运维中心。
创建定时作业定时执行脚本 监控服务支持配置定时作业,通过指定作业执行的时间、周期,分批次执行作业脚本。 前提条件 已获取服务运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。 已设置执行机。 创建定时作业 进入AppStage运维中心。 在顶部导航栏选择服务。 单击,选择“运维
基于数仓配置图表 配置warehouse类型数据源后,可以基于数仓中创建的指标或视图配置图表,本章节介绍如何配置数仓图表。 前提条件 已创建指标或创建视图。 已新增业务报表页面。 已获取服务运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。 配置数仓图表 进入报表开发页面。
为隔离域关联安全组 安全组是一个逻辑上的分组,为具有相同安全保护需求并相互信任的资源实例提供访问策略。通过为已创建的隔离域关联安全组,为隔离域提供访问策略,本章节介绍如何为隔离域关联安全组。 前提条件 已获取服务运维岗位权限、基础运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。