搜索_华为云

使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

nnel粒度量化，否则为per-tensor粒度量化。启动smoothQuant量化服务。参考Step3 启动推理服务，启动推理服务时添加如下命令。 -q smoothquant 或者 --quantization smoothquant 父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
查询AI应用详情 - AI开发平台ModelArts

是 String 模型ID，在创建AI应用时即可在返回体中获取，也可通过查询AI应用列表接口获取当前用户拥有的AI应用，其中model_id字段即为模型ID。 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。请求参数表2 请求Header参数

 帮助中心 > AI开发平台ModelArts > API参考 > AI应用管理
续费概述 - AI开发平台ModelArts
续费概述 - AI开发平台ModelArts

续费概述续费简介包年/包月专属资源池到期后会影响ModelArts正常使用。如果您想继续使用，需要在指定的时间内为专属资源池续费，否则资源会自动释放，数据丢失且不可恢复。续费操作仅适用于包年/包月专属资源池，按需计费专属资源池不需要续费，只需要保证账户余额充足即可。专属资

 帮助中心 > AI开发平台ModelArts > 计费说明 > 续费
Wav2Lip训练基于DevServer适配PyTorch NPU训练指导（6.3.907） - AI开发平台ModelArts

请参考DevServer资源开通，购买DevServer资源，并确保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 数字人模型训练推理
动态扩充云硬盘EVS容量 - AI开发平台ModelArts

动态扩充云硬盘EVS容量什么是动态扩容EVS 存储配置采用云硬盘EVS的Notebook实例，存储盘是挂载至容器/home/ma-user/work/目录下，可以在实例运行中的状态下，动态扩充存储盘容量，单次最大动态扩容100GB。动态扩容EVS适用于哪些使用场景在No

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 管理Notebook实例
模型训练使用流程 - AI开发平台ModelArts

模型训练使用流程 AI模型开发的过程，称之为Modeling，一般包含两个阶段：开发阶段：准备并配置环境，调试代码，使代码能够开始进行深度学习训练，推荐在ModelArts开发环境中调试。实验阶段：调整数据集、调整超参等，通过多轮实验，训练出理想的模型，推荐在ModelArts训练中进行实验。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
使用kv-cache-int8量化 - AI开发平台ModelArts

t8的scale系数的抽取和加载。 Step3 启动kv-cache-int8量化服务在使用OpenAI接口或vLLM接口启动推理服务时添加如下参数： --kv-cache-dtype int8 #只支持int8，表示kvint8量化 --quantization-param-path

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
使用AWQ量化工具转换权重 - AI开发平台ModelArts

5-72B-Chat-AWQ 参数说明： model：模型路径。 Step3 启动AWQ量化服务参考Step3 启动推理服务，在启动服务时添加如下命令。 --q awq 或者--quantization awq 父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

t8的scale系数的抽取和加载。 Step3 启动kv-cache-int8量化服务在使用OpenAI接口或vLLM接口启动推理服务时添加如下参数： --kv-cache-dtype int8 #只支持int8，表示kvint8量化 --quantization-param-path

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

t8的scale系数的抽取和加载。 Step3 启动kv-cache-int8量化服务在使用OpenAI接口或vLLM接口启动推理服务时添加如下参数： --kv-cache-dtype int8 #只支持int8，表示kvint8量化 --quantization-param-path

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

t8的scale系数的抽取和加载。 Step3 启动kv-cache-int8量化服务在使用OpenAI接口或vLLM接口启动推理服务时添加如下参数： --kv-cache-dtype int8 #只支持int8，表示kvint8量化 --quantization-param-path

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
模型配置文件编写说明 - AI开发平台ModelArts

持pip安装方式。dependency结构数组说明如表6所示。如果模型包内没有推理代码customize_service.py文件，则该字段可不填。自定义镜像模型不支持安装依赖包。说明： “dependencies”参数支持多个“dependency”结构数组，以list格式

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建AI应用规范参考
SDXL ComfyUI插件基于DevServer适配PyTorch NPU推理指导（6.3.904） - AI开发平台ModelArts

请参考DevServer资源开通，购买DevServer资源，并确保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
使用MaaS压缩模型 - AI开发平台ModelArts

“事件”：选择要订阅的事件类型。例如“创建中”、“已完成”、“运行失败”等。说明：需要为消息通知服务中创建的主题添加订阅，当订阅状态为“已确认”后，方可收到事件通知。订阅主题的详细操作请参见添加订阅。使用消息通知服务会产生相关服务费用，详细信息请参见计费说明。自动停止当使用付费资源时，可以选择是否打开“自动停止”开关。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
部署服务 - AI开发平台ModelArts
部署服务 - AI开发平台ModelArts

vm.ai1.snt3(需申请)/custom(仅支持在部署到专属资源池时使用)，需申请的规格请提交工单，由ModelArts运维工程师添加权限。若配置为custom，需同时指定custom_spec参数。 weight 否 Integer real-time类型必选。权重百分

 帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
SD3 Diffusers框架基于DevServer适配PyTorch NPU推理指导（6.3.907） - AI开发平台ModelArts

过SSH登录，不同机器之间网络互通。购买DevServer资源时如果无可选资源规格，需要联系华为云技术支持申请开通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
查询算法列表 - AI开发平台ModelArts

offset Integer 查询到当前用户名下的所有算法查询偏移量。 sort_by String 查询到当前用户名下的所有算法排序依赖字段。 order String 查询到当前用户名下的所有算法排序方式，默认为“desc”，降序排序。也可以选择对应的“asc”，升序排序。 group_by

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
动态shape - AI开发平台ModelArts
动态shape - AI开发平台ModelArts

动态shape 在某些推理场景中，模型输入的shape可能是不固定的，因此需要支持用户指定模型的动态shape，并能够在推理中接收多种shape的输入。在CPU上进行模型转换时无需考虑动态shape问题，因为CPU算子支持动态shape；而在Ascend场景上，算子需要指定具体的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导 > 模型适配
SDXL&SD1.5 ComfyUI插件基于DevServer适配PyTorch NPU推理指导（6.3.906） - AI开发平台ModelArts

请参考DevServer资源开通，购买DevServer资源，并确保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
使用AWQ量化 - AI开发平台ModelArts

5-72B-Chat-AWQ 参数说明： model：模型路径。 Step3 启动AWQ量化服务参考Step6 启动推理服务，在启动服务时添加如下命令。 -q awq 或者--quantization awq 父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908） > 推理模型量化

总条数： 707

上一页
1
...
29
30
31
...
36
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

查询AI应用详情 - AI开发平台ModelArts

续费概述 - AI开发平台ModelArts

Wav2Lip训练基于DevServer适配PyTorch NPU训练指导（6.3.907） - AI开发平台ModelArts

动态扩充云硬盘EVS容量 - AI开发平台ModelArts

模型训练使用流程 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

模型配置文件编写说明 - AI开发平台ModelArts

SDXL ComfyUI插件基于DevServer适配PyTorch NPU推理指导（6.3.904） - AI开发平台ModelArts

使用MaaS压缩模型 - AI开发平台ModelArts

部署服务 - AI开发平台ModelArts

SD3 Diffusers框架基于DevServer适配PyTorch NPU推理指导（6.3.907） - AI开发平台ModelArts

查询算法列表 - AI开发平台ModelArts

动态shape - AI开发平台ModelArts

SDXL&SD1.5 ComfyUI插件基于DevServer适配PyTorch NPU推理指导（6.3.906） - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线