检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用GPTQ量化 当前版本使用GPTQ量化仅支持W8A16 perchannel的量化形式,使用W8A16的量化不仅可以保证精度在可接受的范围内,同时也有一定的性能收益。 GPTQ W8A16量化支持的模型请参见支持的模型列表和权重文件。 本章节介绍如何在GPU的机器上使用开源GPTQ量化工具GPTQ
执行预训练任务 Step1 上传训练权重文件和数据集 如果在准备代码和数据阶段已经上传权重文件和数据集到容器中,可以忽略此步骤。 如果未上传训练权重文件和数据集到容器中,具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。
常见错误原因和解决方法 显存溢出错误 网卡名称错误 父主题: 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导(6.3.911)
准备镜像环境 准备训练模型适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置物理机环境操作。 镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 基础镜像 swr.cn-southwest-2
训练精度测试 流程图 训练精度测试流程图如下图所示: 图1 训练精度测试流程图 执行训练任务 进入test-benchmark目录执行训练命令,可以多次执行,按自己实际情况。 benchmark-cli train <cfgs_yaml_file> <model_name> <run_type>
常见错误原因和解决方法 显存溢出错误 网卡名称错误 工作负载Pod异常 父主题: 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导(6.3.911)
创建Workflow数据集节点 功能介绍 通过对ModelArts数据集能力进行封装,实现新版数据集的创建功能。主要用于通过创建数据集对已有数据(已标注/未标注)进行统一管理的场景,后续常见数据集导入节点或者数据集标注节点。 属性总览 您可以使用CreateDatasetStep
已有镜像迁移至ModelArts用于训练模型 场景描述 本地已有镜像,需要做云上适配,用于ModelArts模型训练。 操作步骤 参考如下Dockerfile,修改已有镜像,使其符合模型训练的自定义镜像规范。 FROM {已有镜像} USER root # 如果已存在 gid
部署物体检测服务 模型部署 模型部署操作即将模型部署为在线服务,并且提供在线的测试UI与监控能力。完成模型训练后,可选择准确率理想且训练状态为“运行成功”的版本部署上线。具体操作步骤如下。 在“运行节点”页面中,待服务部署节点的状态变为“等待输入”时,双击“服务部署”进入配置详情页,完成资源的参数配置操作。
准备声音分类数据 使用ModelArts自动学习构建模型时,您需要将数据上传至对象存储服务(OBS)中。OBS桶需要与ModelArts在同一区域。 声音分类的数据要求 音频只支持16bit的WAV格式。支持WAV的所有子格式。 单条音频时长应大于1s,大小不能超过4MB。 适当
准备文本分类数据 使用ModelArts自动学习构建模型时,您需要将数据上传至对象存储服务(OBS)中。OBS桶需要与ModelArts在同一区域。 数据集要求 文件格式要求为txt或者csv,文件大小不能超过8MB。 以换行符作为分隔符,每行数据代表一个标注对象。 文本分类目前只支持中文。
部署文本分类服务 模型部署 模型部署操作即将模型部署为在线服务,并且提供在线的测试UI与监控能力。完成模型训练后,可选择准确率理想且训练状态为“运行成功”的版本部署上线。具体操作步骤如下。 在“运行总览”页面中,待服务部署节点的状态变为“等待输入”,双击“服务部署”节点,进入配置详情页,完成资源的参数配置操作。
手动上传各类包到AppStage软件仓库 部署服务支持手动上传软件包、部署包、SQL包、IaC3.0包及TF模板包至软件仓库。 前提条件 已获取服务运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。 上传包 上传包需要获取服务运维岗位权限,权限申请操作请参见申请权限。 进入AppStage运维中心。
创建定时作业定时执行脚本 监控服务支持配置定时作业,通过指定作业执行的时间、周期,分批次执行作业脚本。 前提条件 已获取服务运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。 已设置执行机。 创建定时作业 进入AppStage运维中心。 在顶部导航栏选择服务。 单击,选择“运维
查看注册到CloudMap的服务列表 查看服务列表 进入AppStage运维中心。 在顶部导航栏选择服务。 单击,选择“微服务开发 > 服务发现”。 选择左侧导航栏的“服务目录 > 一方服务”。 选择“服务列表”页签,查看当前服务的信息,包括服务下的微服务、微服务实例数、接入地址
基于数仓配置图表 配置warehouse类型数据源后,可以基于数仓中创建的指标或视图配置图表,本章节介绍如何配置数仓图表。 前提条件 已创建指标或创建视图。 已新增业务报表页面。 已获取服务运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。 配置数仓图表 进入报表开发页面。
为隔离域关联安全组 安全组是一个逻辑上的分组,为具有相同安全保护需求并相互信任的资源实例提供访问策略。通过为已创建的隔离域关联安全组,为隔离域提供访问策略,本章节介绍如何为隔离域关联安全组。 前提条件 已获取服务运维岗位权限、基础运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。
查看隔离域关联的IP信息 对于容器类型的隔离域,会自动关联容器的IP,您可以查看隔离域关联的IP信息。 查看隔离域关联的IP信息 进入AppStage运维中心。 在顶部导航栏选择服务。 单击,选择“运维 > 弹性网络服务(ENS)”。 选择左侧导航栏的“隔离域”,默认显示“隔离域配置”页签。
CES指标接入监控服务 云监控服务CES可以收集云服务内置监控指标的数据,可以通过监控这些指标来跟踪对应云服务状态。AppStage运维中心支持将CES收集的监控指标数据采集到运维中心监控服务中进行管理,可以参考支持监控的服务列表查看CES当前已支持的监控指标。 选择服务后首次使
为微服务配置告警策略 支持对某个服务下的单个微服务或者多个微服务配置告警策略,告警信息会进行上报,业务可在监控服务(ServiceInsight)管理台上查看告警信息。 前提条件 需要具备AppStage服务运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。 新增告警配置