检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用GPTQ量化 当前版本使用GPTQ量化仅支持W8A16 perchannel的量化形式,使用W8A16的量化不仅可以保证精度在可接受的范围内,同时也有一定的性能收益。 GPTQ W8A16量化支持的模型请参见表3。 本章节介绍如何在GPU的机器上使用开源GPTQ量化工具GPTQ
附录:大模型推理常见问题 问题1:在推理预测过程中遇到NPU out of memory。 解决方法:调整推理服务启动时的显存利用率,将--gpu-memory-utilization的值调小。 问题2:在推理预测过程中遇到ValueError:User-specified max_model_len
使用SmoothQuant量化 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见表3。 本章节介绍如何使用SmoothQuant量化工具实现推理量化。
准备环境 本文档中的模型运行环境是ModelArts Lite的DevServer。请参考本文档要求准备资源环境。 资源规格要求 计算规格:对于Llama2-7B和Llama2-13B单机训练需要使用单机8卡,多机训练需要使用2机16卡。对于Llama2-70B至少需要4机32卡
准备数据(可选) 此小节为自定义数据集执行过程,如非自定义数据集此小节忽略。 本教程使用到的是LLamaFactory代码包自带数据集。您也可以自行准备数据集,目前支持alpaca格式和sharegpt格式的微调数据集;使用自定义数据集时,请更新代码目录下data/dataset_info
WAIT_EVENTS显示当前节点wait event的相关统计信息,如表1所示。内核中关键的事件信息见表2。或从视图wait_event_info中查看系统中所有的事件列表。关于每种事务锁对业务的影响程度,请参考LOCK语法小节的详细描述。 表1 WAIT_EVENTS字段 名称 类型 描述 nodename
创建企业路由器 功能介绍 创建企业路由器实例,如果使能默认关联路由表或使能默认传递路由表,那么系统会默认创建一张路由表,作为默认关联路由表或默认传递路由表。 调用方法 请参见如何调用API。 URI POST /v3/{project_id}/enterprise-router/instances
招聘结果,通过订阅该事件,系统根据状态结果自动发邮件给人事部,通知人事部是否办理入职手续。 通过服务编排订阅事件 参考如何开发服务编排中操作,新建一个服务编排。 图1 新建一个服务编排 标签:新建服务编排的标签名,用于在页面展示。 名称:服务编排在系统中的唯一标识,创建后不可修改。
附录 状态码 错误码 获取项目ID 获取账号ID
目录管理 创建目录 查询用例树 修改目录 删除目录 父主题: API
AXE模式 AXE模式接口使用说明 AXE模式绑定接口 AXE模式解绑接口 AXE模式绑定信息修改接口 AXE模式绑定信息查询接口 AXE模式呼叫事件通知接口 AXE模式话单通知接口 X号码状态通知接口 获取录音文件下载地址接口
快速卸载 解决方案部署成功后,单击该方案堆栈后的“删除”。 图1 一键卸载 在弹出的删除堆栈确认框中,输入方案的堆栈名称,单击“确定”,即可卸载解决方案。 图2 删除堆栈确认 父主题: 实施步骤
快速部署 本章节主要帮助用户快速部署“基于Blender构建云端渲染服务”解决方案。 表1 参数说明 参数名称 类型 是否必填 参数说明 取值样例 vpc_name String 必填 虚拟私有云名称,该模板使用新建VPC,不支持重名。取值范围:1-64个字符,支持数字、字母、中文、_(下划线)、-(中划线)、
5G消息开通备案管理 5G消息开通备案管理 进入5G消息控制台后,如果已开通了5G业务,则会直接进入应用管理页面,如果未开通,则弹出“开通5G消息业务”提示窗口。 按照需求开通视频短信回落或短信回落功能,单击我已阅读《5G消息服务声明》、《视频短信服务协议》和《短信服务协议》。
其他连接 更新连接基本信息 查询连接详情 查询连接列表 父主题: API
Namespace 查询所有Namespaces 创建Namespace 删除Namespace 查询Namespace 父主题: Kubernetes API
Endpoint 查询指定namespace下的Endpoints 创建Endpoint 删除Endpoint 查询Endpoint 更新Endpoint 替换Endpoint 父主题: Kubernetes API
Event 查询指定namespace下的Events 删除Event 查询Event 父主题: Kubernetes API
产品概述 产品概述 5G消息基于手机原生应用,无需下载App,可提供图片、语音、视频、位置、文件等丰富的富媒体内容。同时,5G消息提供了交互化的ChatBot服务号,用户通过聊天式的智能交互即可业务闭环。
应用场景 AstroZero覆盖了低代码、零代码和Astro大屏应用三大开发场景,满足行业客户、合作伙伴和开发者的各种需求。 低代码 低代码基于可视化开发能力、组件与模板拖拉拽积木式搭建以及灵活开放的元数据引擎,使能伙伴、开发者、客户降本增效、加速业务高效创新、沉淀资产,聚焦企业