检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用AWQ量化 AWQ(W4A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见表3。 本章节介绍如何使用AWQ量化工具实现推理量化。 量化方法:per-group Step1 模型量化 可以在Huggingfac
使用SmoothQuant量化 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见表3。 本章节介绍如何使用SmoothQuant量化工具实现推理量化。
附录:大模型推理常见问题 问题1:在推理预测过程中遇到NPU out of memory。 解决方法:调整推理服务启动时的显存利用率,将--gpu-memory-utilization的值调小。 问题2:在推理预测过程中遇到ValueError:User-specified max_model_len
准备镜像环境 准备训练模型适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置物理机环境操作。 镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 基础镜像 swr.cn-southwest-2
常见错误原因和解决方法 显存溢出错误 网卡名称错误 父主题: 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导(6.3.909)
常见错误原因和解决方法 显存溢出错误 网卡名称错误 工作负载Pod异常 父主题: 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导(6.3.909)
镜像方案说明 准备大模型训练适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置Standard物理机环境操作。 基础镜像地址 本教程中用到的训练的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 配套版本 基础镜像 swr
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行install.sh文件,来安装依赖以及下载完整代码。命令如下:
使用Prometheus查看Lite Cluster监控指标 Prometheus是一款开源监控工具,ModelArts支持Exporter功能,方便用户使用Prometheus等第三方监控系统获取ModelArts采集到的指标数据。 本章节主要介绍如何通过Prometheus查看Lite
查看弹性伸缩-HPA策略运行情况 ServiceStage支持查看已设置好的弹性伸缩-HPA策略的运行状态和运行事件。 前提条件 已设置组件弹性伸缩-HPA策略,请参考创建弹性伸缩-HPA策略。 查看弹性伸缩-HPA策略运行情况 登录ServiceStage控制台。 选择以下任意方式进入组件“伸缩”页面:
登录(当事人+工作人员) 打开浏览器,在浏览器中输入平台网址。 图1 进入平台网址 进入平台首页后,单击右上角【登录】。 系统支持账号密码登录(手机号/身份证号+密码)和手机号登录(手机号+验证码)两种方式,信息输入完成后,单击【登录】进入平台,即可进行仲裁申请相关操作。 图2 进行登录操作
Weblogic双机集群部署 本章节介绍了Weblogic如何配置集群,也介绍了在集群部署方式下,ABI5.3.1应用配置集群。部署weblogic集群是为了使用weblogic的proxy代理,并不使用weblogic集群的任何特性; 集群(Cluster)是由两台或多台节点机
创建图像分类自动学习项目并完成图片标注,训练按钮显示灰色,无法开始训练? 图像分类项目,图片标注至少需要两个类别,且每个类别至少5张图片,才可以开始自动训练。 父主题: 模型训练
在物体检测作业中上传已标注图片后,为什么部分图片显示未标注? 请您检查未标注图片的标注文件是否正确。如果标注框文件坐标超过图片,自动学习默认该图片未标注。 父主题: 数据标注
使用VSCode-huawei,报错:卸载了‘ms-vscode-remote.remot-sdh’,它被报告存在问题 问题现象 使用华为自研的VS Code软件时,报错“卸载了‘ms-vscode-remote.remot-sdh’,它被报告存在问题”。 原因分析 Remote
如何修复意外重启等原因导致的XStream模式Oracle CDC功能异常? 因Oracle数据库意外重启等原因导致CDC功能异常时,可以在Oracle数据库中执行以下命令来排查和修复。 以sys用户连接到Oracle数据库,然后执行以下命令: SELECT CAPTURE_NAME
团队下批量更新团队角色状态 功能介绍 批量更新团队下团队角色,设置团队角色的生失效状态。 URI PUT /unidata/public/api/v1/team/team-role/batch-update 请求参数 表1 请求Header参数 参数 是否必选 参数类型 描述 Authorization
修改AstroZero预置Anonymous User Profile权限的访问权限 在AstroZero中开发的应用是支持游客(Guest)访问的,游客属于一种特殊的业务用户。通过AstroZero预置的Anonymous User Profile权限,可控制游客用户的访问权限。
修改系统预置版本活动关联的工具链 持续规划、持续开发阶段预置的版本活动默认关联CodeArts,持续部署发布阶段预置的版本活动默认对接运维中心WiseEye,开发中心支持修改系统预置版本活动关联的工具链。 前提条件 已获取组织管理员角色权限,权限申请方法请参见申请权限。 修改关联工具链
网卡名称错误 当训练开始时提示网卡名称错误。或者通信超时。可以使用ifconfig命令检查网卡名称配置是否正确。 比如,ifconfig看到当前机器IP对应的网卡名称为enp67s0f5,则可以设置环境变量指定该值。 export GLOO_SOCKET_IFNAME=enp67s0f5