搜索_华为云

使用kv-cache-int8量化 - AI开发平台ModelArts

ype类型不影响int8的scale系数的抽取和加载。启动kv-cache-int8-per-tensor量化服务。在使用OpenAI接口或vLLM接口启动推理服务时添加如下参数： --kv-cache-dtype int8_pertensor #只支持int8，表示kvint8

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
产品优势 - AI开发平台ModelArts
产品优势 - AI开发平台ModelArts

产品优势 ModelArts服务具有以下产品优势。稳定安全的算力底座，极快至简的模型训练支持万节点计算集群管理大规模分布式训练能力，加速大模型研发提供高性价比国产算力多年软硬件经验沉淀，AI场景极致优化加速套件，训练、推理、数据访问多维度加速一站式端到端生产工具链，一致性开发体验

 帮助中心 > AI开发平台ModelArts > 产品介绍
AI Gallery功能介绍 - AI开发平台ModelArts

AI Gallery功能介绍面向开发者提供了AI Gallery大模型开源社区，通过大模型为用户提供服务，普及大模型行业。AI Gallery提供了大量基于昇腾云底座适配的三方开源大模型，同步提供了可以快速体验模型的能力、极致的开发体验，助力开发者快速了解并学习大模型。构建零

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍
配置SWR组织权限 - AI开发平台ModelArts

IAM用户创建后，需要管理员在组织中为用户添加授权，使IAM用户对组织内所有镜像享有读取/编辑/管理的权限。只有具备“管理”权限的帐号和IAM用户才能添加授权。登录容器镜像服务控制台。在左侧菜单栏选择“组织管理”，单击组织名称。在“用户”页签下单击“添加授权”，在弹出的窗口中为IAM用户选择权限，然后单击“确定”。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置 > 权限配置
Finetune训练 - AI开发平台ModelArts

ing）以优化模型性能。启动SD1.5 Finetune训练服务使用ma-user用户执行如下命令运行训练脚本。 sh diffusers_finetune_train.sh 启动SDXL Finetune训练服务使用ma-user用户执行如下命令运行训练脚本。 sh di

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理 > SD1.5&SDXL Diffusers框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
在Workflow中指定仅运行部分节点 - AI开发平台ModelArts

), wf.policy.Scene( scene_name="服务部署", scene_steps=[model_step, service_step]

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > Workflow高阶能力
推理性能测试 - AI开发平台ModelArts

参数说明 --backend：服务类型，支持tgi、vllm、mindspore、openai等。上面命令中使用vllm举例。 --host ${docker_ip}：服务部署的IP，${docker_ip}替换为宿主机实际的IP地址。 --port：推理服务端口8080。 --tok

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.906）
托管模型到AI Gallery - AI开发平台ModelArts

规范，否则该模型无法正常使用AI Gallery工具链服务（微调大师和在线推理服务）。当托管的是自定义镜像时，上传的模型文件要满足自定义镜像规范，否则该镜像无法正常使用AI Gallery工具链服务（微调大师和在线推理服务）。当文件状态变成“上传成功”表示数据文件成功上传至AI

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型
使用AWQ量化 - AI开发平台ModelArts

/home/ma-user/Qwen1.5-72B-Chat-AWQ 参数说明： model：模型路径。 Step3 启动AWQ量化服务参考Step6 启动推理服务，在启动服务时添加如下命令。 -q awq 或者--quantization awq 父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
使用SmoothQuant量化 - AI开发平台ModelArts

--per-channel：权重量化方法，若指定则为per-channel粒度量化，否则为per-tensor粒度量化。启动smoothQuant量化服务。参考Step6 启动推理服务，启动推理服务时添加如下命令。 -q smoothquant 或者 --quantization smoothquant 父主题：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

3fn"。dtype类型不影响int8的scale系数的抽取和加载。 Step3 启动kv-cache-int8量化服务参考Step3 启动推理服务，启动推理服务时添加如下命令。 --kv-cache-dtype int8 #只支持int8，表示kvint8量化 --quantization-param-path

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
使用SmoothQuant量化 - AI开发平台ModelArts

--per-channel：权重量化方法，若指定则为per-channel粒度量化，否则为per-tensor粒度量化。启动smoothQuant量化服务。参考步骤六启动推理服务，启动推理服务时添加如下命令。 -q smoothquant 或者 --quantization smoothquant --dtype=float16

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
使用SmoothQuant量化 - AI开发平台ModelArts

--per-channel：权重量化方法，若指定则为per-channel粒度量化，否则为per-tensor粒度量化。启动smoothQuant量化服务。参考步骤六启动推理服务，启动推理服务时添加如下命令。 -q smoothquant 或者 --quantization smoothquant --dtype=float16

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

3fn"。dtype类型不影响int8的scale系数的抽取和加载。 Step3 启动kv-cache-int8量化服务参考Step3 启动推理服务，启动推理服务时添加如下命令。 --kv-cache-dtype int8 #只支持int8，表示kvint8量化 --quantization-param-path

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

3fn"。dtype类型不影响int8的scale系数的抽取和加载。 Step3 启动kv-cache-int8量化服务参考Step3 启动推理服务，启动推理服务时添加如下命令。 --kv-cache-dtype int8 #只支持int8，表示kvint8量化 --quantization-param-path

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

--per-channel：权重量化方法，若指定则为per-channel粒度量化，否则为per-tensor粒度量化。启动smoothQuant量化服务。参考Step3 启动推理服务，启动推理服务时添加如下命令。 -q smoothquant 或者 --quantization smoothquant 父主题：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
VS Code连接后长时间未操作，连接自动断开 - AI开发平台ModelArts

如果想保持长时间连接不断开，可以通过配置SSH定期发送通信消息，避免防火墙认为链路空闲而关闭。客户端配置（用户可根据需要自行配置，不配置默认是不给服务端发心跳包），如图1，图2所示。图1 打开VS Code ssh config配置文件图2 增加配置信息配置信息示例如下： Host

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > VS Code连接开发环境失败常见问题
VS Code连接后长时间未操作，连接自动断开 - AI开发平台ModelArts

如果想保持长时间连接不断开，可以通过配置SSH定期发送通信消息，避免防火墙认为链路空闲而关闭。客户端配置（用户可根据需要自行配置，不配置默认是不给服务端发心跳包），如图1，图2所示。图1 打开VS Code ssh config配置文件图2 增加配置信息配置信息示例如下： Host

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
使用AWQ量化工具转换权重 - AI开发平台ModelArts

/home/ma-user/Qwen1.5-72B-Chat-AWQ 参数说明： model：模型路径。 Step3 启动AWQ量化服务参考Step3 启动推理服务，在启动服务时添加如下命令。 --q awq 或者--quantization awq 父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
注册自定义镜像 - AI开发平台ModelArts

service_type 否 String 镜像支持服务类型。枚举值如下： COMMON：通用镜像。 INFERENCE: 建议仅在推理部署场景使用。 TRAIN: 建议仅在训练任务场景使用。 DEV: 建议仅在开发调测场景使用。 UNKNOWN: 未明确设置的镜像支持的服务类型。 services 否

 帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理

总条数： 1961

上一页
1
...
91
92
93
...
99
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用kv-cache-int8量化 - AI开发平台ModelArts

产品优势 - AI开发平台ModelArts

AI Gallery功能介绍 - AI开发平台ModelArts

配置SWR组织权限 - AI开发平台ModelArts

Finetune训练 - AI开发平台ModelArts

在Workflow中指定仅运行部分节点 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

托管模型到AI Gallery - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

VS Code连接后长时间未操作，连接自动断开 - AI开发平台ModelArts

VS Code连接后长时间未操作，连接自动断开 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

注册自定义镜像 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线