搜索_华为云

使用SmoothQuant量化 - AI开发平台ModelArts

--smooth-strength：平滑系数，推荐先指定为0.5，后续可以根据推理效果进行调整。 --per-token：激活值量化方法，若指定则为per-token粒度量化，否则为per-tensor粒度量化。 --per-channel：权重量化方法，若指定则为per-ch

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
使用SmoothQuant量化 - AI开发平台ModelArts

--smooth-strength：平滑系数，推荐先指定为0.5，后续可以根据推理效果进行调整。 --per-token：激活值量化方法，若指定则为per-token粒度量化，否则为per-tensor粒度量化。 --per-channel：权重量化方法，若指定则为per-ch

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
使用SmoothQuant量化 - AI开发平台ModelArts

--smooth-strength：平滑系数，推荐先指定为0.5，后续可以根据推理效果进行调整。 --per-token：激活值量化方法，如果指定则为per-token粒度量化，否则为per-tensor粒度量化。 --per-channel：权重量化方法，如果指定则为per-c

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
DevServer权限 - AI开发平台ModelArts

DevServer权限表1 DevServer细化权限说明权限对应API接口授权项依赖的授权项 IAM项目企业项目创建DevServer实例 POST /v1/{project_id}/dev-servers modelarts:devserver:create e

帮助中心 > AI开发平台ModelArts > API参考 > 权限策略和授权项
使用SmoothQuant量化 - AI开发平台ModelArts

--smooth-strength：平滑系数，推荐先指定为0.5，后续可以根据推理效果进行调整。 --per-token：激活值量化方法，如果指定则为per-token粒度量化，否则为per-tensor粒度量化。 --per-channel：权重量化方法，如果指定则为per-c

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
部署推理服务 - AI开发平台ModelArts

e。通过vLLM服务API接口启动服务在ascend_vllm目录下通过vLLM服务API接口启动服务，具体操作命令如下，API Server的命令相关参数说明如下，可以根据参数说明修改配置。 python -m vllm.entrypoints.api_server --model

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于LIte Server适配PyTorch NPU推理指导（6.3.905）
多模态 - AI开发平台ModelArts
多模态 - AI开发平台ModelArts

encode_image(image_path) stop_token_ids = args.stop_token_ids if args.stop_token_ids is not None else get_stop_token_ids(args.model_path) headers

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用
模型管理权限 - AI开发平台ModelArts

模型管理权限表1 模型管理细化权限说明权限对应API接口授权项依赖的授权项 IAM项目企业项目导入模型 POST /v1/{project_id}/models modelarts:model:create obs:bucket:ListAllMybuckets o

帮助中心 > AI开发平台ModelArts > API参考 > 权限策略和授权项
在推理生产环境中部署推理服务 - AI开发平台ModelArts

是否使用推理与Token解码并行；默认值为1表示开启并行，取值为0表示关闭并行。开启该功能会略微增加首Token时间，但可以提升推理吞吐量。 export DEFER_MS=10 # 延迟解码时间，默认值为10，单位为ms。将Token解码延迟进行的毫秒数，使得当次Token解码能与

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
在推理生产环境中部署推理服务 - AI开发平台ModelArts

是否使用推理与Token解码并行；默认值为1表示开启并行，取值为0表示关闭并行。开启该功能会略微增加首Token时间，但可以提升推理吞吐量。 export DEFER_MS=10 # 延迟解码时间，默认值为10，单位为ms。将Token解码延迟进行的毫秒数，使得当次Token解码能与

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）
策略及授权项说明 - AI开发平台ModelArts

必须具备调用该接口所需的权限，否则，API请求将调用失败。每个接口所需要的权限，与各个接口所对应的授权项相对应，只有发起请求的用户被授予授权项所对应的策略，该用户才能成功调用该接口。例如，用户要调用接口来创建Notebook，那么这个IAM用户被授予的策略中必须包含允许“mode

帮助中心 > AI开发平台ModelArts > API参考 > 权限策略和授权项
使用SmoothQuant量化 - AI开发平台ModelArts

--smooth-strength：平滑系数，推荐先指定为0.5，后续可以根据推理效果进行调整。 --per-token：激活值量化方法，若指定则为per-token粒度量化，否则为per-tensor粒度量化。 --per-channel：权重量化方法，若指定则为per-ch

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
使用SmoothQuant量化 - AI开发平台ModelArts

--smooth-strength：平滑系数，推荐先指定为0.5，后续可以根据推理效果进行调整。 --per-token：激活值量化方法，如果指定则为per-token粒度量化，否则为per-tensor粒度量化。 --per-channel：权重量化方法，如果指定则为per-c

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

--smooth-strength：平滑系数，推荐先指定为0.5，后续可以根据推理效果进行调整。 --per-token：激活值量化方法，如果指定则为per-token粒度量化，否则为per-tensor粒度量化。 --per-channel：权重量化方法，如果指定则为per-c

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

--smooth-strength：平滑系数，推荐先指定为0.5，后续可以根据推理效果进行调整。 --per-token：激活值量化方法，若指定则为per-token粒度量化，否则为per-tensor粒度量化。 --per-channel：权重量化方法，若指定则为per-ch

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
在推理生产环境中部署推理服务 - AI开发平台ModelArts

是否使用推理与Token解码并行；默认值为1表示开启并行，取值为0表示关闭并行。开启该功能会略微增加首Token时间，但可以提升推理吞吐量。 export DEFER_MS=10 # 延迟解码时间，默认值为10，单位为ms。将Token解码延迟进行的毫秒数，使得本次Token解码能与

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）
在推理生产环境中部署推理服务 - AI开发平台ModelArts

是否使用推理与Token解码并行；默认值为1表示开启并行，取值为0表示关闭并行。开启该功能会略微增加首Token时间，但可以提升推理吞吐量。 export DEFER_MS=10 # 延迟解码时间，默认值为10，单位为ms。将Token解码延迟进行的毫秒数，使得本次Token解码能与

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）
工作空间管理权限 - AI开发平台ModelArts

工作空间管理权限表1 工作空间管理细化权限说明权限对应API接口授权项依赖的授权项 IAM项目企业项目创建工作空间 POST /v1/{project_id}/workspaces modelarts:workspace:create - √ √ 查询工作空间列表 GET

帮助中心 > AI开发平台ModelArts > API参考 > 权限策略和授权项
查询服务列表 - AI开发平台ModelArts

查询服务列表获取当前用户服务列表。示例代码在ModelArts notebook平台，Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。场景1：查询当前用户所有服务 1 2 3 4 5 6 from modelarts.session

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
部署推理服务 - AI开发平台ModelArts

方式二：通过vLLM服务API接口启动服务在llm_inference/ascend_vllm/目录下通过vLLM服务API接口启动服务，具体操作命令如下，API Server的命令相关参数说明如下，可以根据参数说明修改配置。 python -m vllm.entrypoints.api_server

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.907）

总条数： 1852

上一页
1
...
24
25
26
...
93
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用SmoothQuant量化 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

DevServer权限 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

多模态 - AI开发平台ModelArts

模型管理权限 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

策略及授权项说明 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

工作空间管理权限 - AI开发平台ModelArts

查询服务列表 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线