检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
训练精度测试 流程图 训练精度测试流程图如下图所示: 图1 训练精度测试流程图 执行训练任务 进入test-benchmark目录执行训练命令,可以多次执行,按自己实际情况。 benchmark-cli train <cfgs_yaml_file> <model_name> <run_type
准备镜像环境 准备训练模型适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置物理机环境操作。 镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 基础镜像 swr.cn-southwest
执行预训练任务 Step1 上传训练权重文件和数据集 如果在准备代码和数据阶段已经上传权重文件和数据集到容器中,可以忽略此步骤。 如果未上传训练权重文件和数据集到容器中,具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作
性能调优总体原则和思路 PyTorch在昇腾AI处理器的加速实现方式是以算子为粒度进行调用(OP-based),即通过Python与C++调用CANN层接口Ascend Computing Language(AscendCL)调用一个或几个亲和算子组合的形式,代替原有GPU的实现方式
常见错误原因和解决方法 显存溢出错误 网卡名称错误 父主题: 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导(6.3.909)
手动上传各类包到AppStage软件仓库 部署服务支持手动上传软件包、部署包、SQL包、IaC3.0包及TF模板包至软件仓库。 前提条件 已获取服务运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。 上传包 上传包需要获取服务运维岗位权限,权限申请操作请参见申请权限。 进入
创建定时作业定时执行脚本 监控服务支持配置定时作业,通过指定作业执行的时间、周期,分批次执行作业脚本。 前提条件 已获取服务运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。 已设置执行机。 创建定时作业 进入AppStage运维中心。 在顶部导航栏选择服务。 单击,选择“
在SLB中创建OLC服务 CPU过载控制OLC(Overload Control)是一种CPU过载调控机制。当CPU过载时,OLC能够对受监控协议报文和任务进行调控,通过不同优先级业务的合理规划和限制报文通过等方式,降低对CPU资源的消耗,并确保设备不会因为某种受监控协议或任务冲击
在SLB中创建资源组 前提条件 需要具备AppStage服务运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。 在SLB中创建资源组 进入AppStage运维中心。 在顶部导航栏选择服务。 单击,选择“微服务开发 > 负载均衡”。 选择左侧导航栏的“资源管理 > 资源组”。
查看注册到CloudMap的服务列表 查看服务列表 进入AppStage运维中心。 在顶部导航栏选择服务。 单击,选择“微服务开发 > 服务发现”。 选择左侧导航栏的“服务目录 > 一方服务”。 选择“服务列表”页签,查看当前服务的信息,包括服务下的微服务、微服务实例数、接入地址、
在SLB中初始配置灰度服务 灰度服务创建完成后,需要进行初始化配置。 前提条件 需要具备AppStage服务运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。 初始配置灰度服务 进入AppStage运维中心。 在顶部导航栏选择服务。 单击,选择“微服务开发 > 负载均衡”。
基于数仓配置图表 配置warehouse类型数据源后,可以基于数仓中创建的指标或视图配置图表,本章节介绍如何配置数仓图表。 前提条件 已创建指标或创建视图。 已新增业务报表页面。 已获取服务运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。 配置数仓图表 进入报表开发页面。
为隔离域关联子网 ENS根据隔离域的用途从VPC规划的相应网段中分配子网。比如隔离域的用途为DB,就从隔离域关联的VPC的普通虚拟机网段创建一个子网,用于部署DB。 本章节介绍如何为隔离域关联子网,支持创建子网,或绑定在华为云VPC已创建的子网。 前提条件 已获取服务运维岗位权限、
CES指标接入监控服务 云监控服务CES可以收集云服务内置监控指标的数据,可以通过监控这些指标来跟踪对应云服务状态。AppStage运维中心支持将CES收集的监控指标数据采集到运维中心监控服务中进行管理,可以参考支持监控的服务列表查看CES当前已支持的监控指标。 选择服务后首次使用监控服务
发布负载均衡OLC服务 OLC服务配置完成后,配置数据只是保存到数据库中,如需将OLC服务应用到SLB,还需要执行发布操作。 前提条件 需要具备AppStage服务运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。 发布OLC服务 进入AppStage运维中心。 在顶部导航栏选择服务
准备数据(可选) 此小节为自定义数据集执行过程,如非自定义数据集此小节忽略。 本教程使用到的是LLamaFactory代码包自带数据集。您也可以自行准备数据集,目前指令微调数据集支持alpaca格式和sharegpt格式的数据集;使用自定义数据集时,请更新代码目录下data/dataset_info.json
使用SmoothQuant量化 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见表3。 本章节介绍如何使用SmoothQuant量化工具实现推理量化。
使用GPTQ量化 当前版本使用GPTQ量化仅支持W8A16 perchannel的量化形式,使用W8A16的量化不仅可以保证精度在可接受的范围内,同时也有一定的性能收益。 GPTQ W8A16量化支持的模型请参见支持的模型列表和权重文件。 本章节介绍如何在GPU的机器上使用开源GPTQ
此场景Notebook作为制作镜像的平台。具体案例参考在Notebook中通过Dockerfile从0制作自定义镜像。 场景三:通过预置的镜像创建Notebook实例,在预置镜像上安装对应的自定义软件和依赖,进而将运行的实例环境以容器镜像的方式保存下来。
“SENT”,平台已下发给设备,但还未收到设备响应。 “DELIVERED”,平台收到设备响应,命令已到达设备。 “SUCCESS”,平台收到命令结果上报,且上报的结果是成功。 “FAIL”,平台收到命令结果上报,且上报的结果是失败。