检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用W8A16的量化不仅可以保证精度在可接受的范围内,同时也有一定的性能收益。 约束限制 只支持GPTQ W8A16 perchannel量化,只支持desc_act=false。 GPTQ W8A16量化支持的模型请参见支持的模型列表。 步骤一:量化模型权重 在GPU的机器上使用开源GPTQ量化工具GPTQ
使用GPTQ量化 当前版本使用GPTQ量化仅支持W8A16 perchannel的量化形式,使用W8A16的量化不仅可以保证精度在可接受的范围内,同时也有一定的性能收益。 GPTQ W8A16量化支持的模型请参见支持的模型列表和权重文件。 本章节介绍如何在GPU的机器上使用开源GPTQ量化工具GPTQ
使用GPTQ量化 当前版本使用GPTQ量化仅支持W8A16 perchannel的量化形式,使用W8A16的量化不仅可以保证精度在可接受的范围内,同时也有一定的性能收益。 GPTQ W8A16量化支持的模型请参见支持的模型列表和权重文件。 本章节介绍如何在GPU的机器上使用开源GPTQ量化工具GPTQ
使用GPTQ量化 当前版本使用GPTQ量化仅支持W8A16 perchannel的量化形式,使用W8A16的量化不仅可以保证精度在可接受的范围内,同时也有一定的性能收益。 GPTQ W8A16量化支持的模型请参见支持的模型列表和权重文件。 本章节介绍如何在GPU的机器上使用开源GPTQ量化工具GPTQ
部署在线服务predictor和transformer参数说明 参数 是否必选 参数类型 描述 service_name 否 String 服务名称,支持1-64位可见字符(含中文),只能以英文大小写字母或者中文字符开头,名称可以包含字母、中文、数字、中划线、下划线。 description
kv-cache-int8是实验特性,在部分场景下性能可能会劣于非量化。当前支持per-tensor静态量化,支持kv-cache-int8量化和FP16、BF16、AWQ、smoothquant的组合。 kv-cache-int8量化支持的模型请参见支持的模型列表和权重文件。 Step1使用tensorRT量化工具进行模型量化
自定义模型规范 AI Gallery除了支持托管文本生成和文本问答任务类型的模型,还支持托管其他任务类型的模型,其他任务类型的模型被称为自定义模型。但是托管的自定义模型要满足规范才支持使用AI Gallery工具链服务(微调大师、在线推理服务)。 自定义模型的使用流程 托管模型到AI
使用GPTQ量化 当前版本使用GPTQ量化仅支持W8A16 perchannel的量化形式,使用W8A16的量化不仅可以保证精度在可接受的范围内,同时也有一定的性能收益。 GPTQ W8A16量化支持的模型请参见支持的模型列表和权重文件。 本章节介绍如何在GPU的机器上使用开源GPTQ量化工具GPTQ
使用GPTQ量化 当前版本使用GPTQ量化仅支持W8A16 perchannel的量化形式,使用W8A16的量化不仅可以保证精度在可接受的范围内,同时也有一定的性能收益。 GPTQ W8A16量化支持的模型请参见支持的模型列表和权重文件。 本章节介绍如何在GPU的机器上使用开源GPTQ量化工具GPTQ
使用GPTQ量化 当前版本使用GPTQ量化仅支持W8A16 perchannel的量化形式,使用W8A16的量化不仅可以保证精度在可接受的范围内,同时也有一定的性能收益。 GPTQ W8A16量化支持的模型请参见支持的模型列表和权重文件。 本章节介绍如何在GPU的机器上使用开源GPTQ量化工具GPTQ
更新模型服务的单个属性 功能介绍 更新模型服务的单个属性,目前只支持instance_count(更新模型服务实例数量),仅运行中、告警、异常状态下的在线服务可以执行该操作。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK
管理Workflow StepExecution 功能介绍 本接口支持对Workflow StepExecution进行重试、停止和继续操作。 接口约束 无 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。
删除指定API网关应用的指定的AppCode,只有APP的创建用户才可以删除AppCode,且只有共享/专享版APIG的APP才支持AppCode。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI
重置指定API网关应用的指定的AppCode,只有APP的创建用户才可以重置AppCode,且只有共享/专享版APIG的APP才支持AppCode。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI
查询处理任务详情 功能介绍 查询处理任务详情,支持查询“特征分析”任务和“数据处理”两大类任务。可通过指定路径参数“task_id”来查询某个具体任务的详情。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。
UNKNOWN: 未明确设置的镜像支持的服务类型。 services 否 Array of strings 镜像支持的服务,默认值NOTEBOOK、SSH。枚举值如下: NOTEBOOK:镜像支持通过https协议访问Notebook。 SSH:镜像支持本地IDE通过SSH协议远程连接Notebook。
Diffusion的WebUI套件,使用NPU卡进行推理。 约束限制 本方案目前仅适用于部分企业客户,完成本方案的部署,需要先联系您所在企业的华为方技术支持。 适配的Cann版本是cann_8.0.rc3。 资源规格要求 ModelArts Lite DevServer或ModelArts Standard专属资源池的资源:
删除节点池 功能介绍 删除节点池。包周期资源池不支持。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI DELETE /v2/{project_id}/pools/{
SDK目前只提供Python语言的SDK,同时支持大于3.7.x版本且小于3.10.x版本的Python版本,推荐使用3.7.x版本。 使用场景 ModelArts SDK目前仅支持在ModelArts开发环境Notebook和本地PC两种环境使用。 ModelArts SDK不支持在训练作业和在线服务中使用。
删除资源标签 功能介绍 删除服务(目前只支持在线服务)的标签,支持批量删除。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI DELETE /v1/{project_