搜索_华为云

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

USE_VOCAB_PARALLEL=1 # 是否使用词表并行；默认值为1表示开启并行，取值为0表示关闭并行。对于词表较小的模型（如llama2系模型），关闭并行可以减少推理时延，对于词表较大的模型（如qwen系模型），开启并行可以减少显存占用，以提升推理吞吐量。 export USE_PFA_HIGH_PRECISION_MODE=1

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
使用SmoothQuant量化 - AI开发平台ModelArts

=0,1 通过命令npu-smi info查询NPU卡为容器中的第几张卡。例如下图查询出两张卡，如果希望使用第一和第二张卡，则“export ASCEND_RT_VISIBLE_DEVICES=0,1”，注意编号不是填4、5。图1 查询结果执行权重转换。 cd autosmoothquant/examples/

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
总览Workflow工作流 - AI开发平台ModelArts

用户项目ID。获取方法请参见获取项目ID和名称。表2 Query参数参数是否必选参数类型描述 workspace_id 否 String 工作空间ID。获取方法请参见查询工作空间列表。未创建工作空间时默认值为“0”，存在创建并使用的工作空间，以实际取值为准。 search_type 否 String 过滤方式。可选值如下：

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
删除工作空间 - AI开发平台ModelArts

是 String 用户项目ID。获取方法请参见获取项目ID和名称。 workspace_id 是 String 工作空间ID。获取方法请参见查询工作空间列表。未创建工作空间时默认值为“0”，存在创建并使用的工作空间，以实际取值为准。请求参数表2 请求Header参数参数是否必选

 帮助中心 > AI开发平台ModelArts > API参考 > 工作空间管理
启动智能任务 - AI开发平台ModelArts

引擎名称。 export_format 否 Integer 导出的目录格式。可选值如下： 1：树状结构。如：rabbits/1.jpg,bees/2.jpg。 2：平铺结构。如：1.jpg, 1.txt;2.jpg,2.txt。 export_params 否 ExportParams

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 AWQ(W4A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何使用AWQ量化工具实现推理量化。量化方法：W4A16 per-group/per-channel，W8A16

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
注册API并授权给APP - AI开发平台ModelArts

String 工作空间ID。获取方法请参见查询工作空间列表。未创建工作空间时默认值为“0”，存在创建并使用的工作空间，以实际取值为准。表4 Apps 参数是否必选参数类型描述 app_id 否 String APP的编号，可通过查询APP列表获取。响应参数状态码： 200

帮助中心 > AI开发平台ModelArts > API参考 > APP认证管理
使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 AWQ(W4A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何使用AWQ量化工具实现推理量化。量化方法：W4A16 per-group/per-channel，W8A16

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 AWQ(W4A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何使用AWQ量化工具实现推理量化。量化方法：W4A16 per-group/per-channel，W8A16

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
使用SmoothQuant量化 - AI开发平台ModelArts

=0,1 通过命令npu-smi info查询NPU卡为容器中的第几张卡。例如下图查询出两张卡，若希望使用第一和第二张卡，则“export ASCEND_RT_VISIBLE_DEVICES=0,1”，注意编号不是填4、5。图1 查询结果执行权重转换。 cd autosmoothquant/examples/

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
使用SmoothQuant量化 - AI开发平台ModelArts

=0,1 通过命令npu-smi info查询NPU卡为容器中的第几张卡。例如下图查询出两张卡，如果希望使用第一和第二张卡，则“export ASCEND_RT_VISIBLE_DEVICES=0,1”，注意编号不是填4、5。图1 查询结果执行权重转换。 cd autosmoothquant/examples/

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
AIGC工具tailor使用指导 - AI开发平台ModelArts

h) 查询onnx模型的输入信息。 # 查询onnx模型的输入信息 t.get_model_input_info() 图1 查询onnx模型的输入输出信息查询onnx模型的输出信息。 # 查询模型的输出信息 t.get_model_output_info() 图2 查询onnx模型的输出信息

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
更新API授权 - AI开发平台ModelArts

String 工作空间ID。获取方法请参见查询工作空间列表。未创建工作空间时默认值为“0”，存在创建并使用的工作空间，以实际取值为准。表4 Apps 参数是否必选参数类型描述 app_id 否 String APP的编号，可通过查询APP列表获取。响应参数状态码： 200

帮助中心 > AI开发平台ModelArts > API参考 > APP认证管理
授权API至APP - AI开发平台ModelArts

String 工作空间ID。获取方法请参见查询工作空间列表。未创建工作空间时默认值为“0”，存在创建并使用的工作空间，以实际取值为准。表4 Apps 参数是否必选参数类型描述 app_id 否 String APP的编号，可通过查询APP列表获取。响应参数状态码： 200

帮助中心 > AI开发平台ModelArts > API参考 > APP认证管理
委托授权ModelArts云服务使用SFS Turbo - AI开发平台ModelArts

“策略内容”：允许，云服务中搜索“SFSTurbo”服务并选中，“操作”中查找只读操作“sfsturbo:shares:showShareNic”、“sfsturbo:shares:listShareNics”并选中，查找写操作“sfsturbo:shares:addShareNic”、

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践
删除模型 - AI开发平台ModelArts
删除模型 - AI开发平台ModelArts

Model(session, model_id="your_model_id") model_instance.delete_model() 方式2：根据查询模型对象列表返回的模型对象进行模型删除 1 2 3 4 5 6 7 from modelarts.session import Session

帮助中心 > AI开发平台ModelArts > SDK参考 > 模型管理
手动续费 - AI开发平台ModelArts
手动续费 - AI开发平台ModelArts

面提示跳转到费用中心进行续费操作。在费用中心续费进入“费用中心 > 续费管理”页面。自定义查询条件。可在“手动续费项”、“自动续费项”、“到期转按需项”、“到期不续费项”页签查询全部待续费资源，对资源进行手动续费的操作。所有需手动续费的资源都可归置到“手动续费项”页签，具体操作请参见如何恢复为手动续费。

帮助中心 > AI开发平台ModelArts > 计费说明 > 续费
在Dify中配置支持Function Calling的模型使用 - AI开发平台ModelArts

在获取信息的过程中，清晰地描述你正在做什么 4. 永远不要返回空的回复 - 确保用自然语言解释你的每个步骤，比如当查询天气时，你应该先说'让我使用天气工具为您查询...'，然后再进行工具调用。记住：先表达你的理解和计划，再使用工具。每次回复都必须包含对用户的清晰解释。图2 输入提示词

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio） > 通过Function Calling扩展大语言模型交互能力
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

=0,1 通过命令npu-smi info查询NPU卡为容器中的第几张卡。例如下图查询出两张卡，如果希望使用第一和第二张卡，则“export ASCEND_RT_VISIBLE_DEVICES=0,1”，注意编号不是填4、5。图2 查询结果配置环境变量。 export USE

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911）
ModelArts CLI命令功能介绍 - AI开发平台ModelArts

ma-cli鉴权命令，支持用户名密码、AK/SK image ModelArts镜像构建、镜像注册、查询已注册镜像信息等 obs-copy 本地和OBS文件/文件夹间的相互复制 ma-job ModelArts训练作业管理，包含作业提交、资源查询等 dli-job DLI Spark任务提交及资源管理 auto-completion

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > ModelArts CLI命令参考

总条数： 1280

上一页
1
...
58
59
60
...
64
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

总览Workflow工作流 - AI开发平台ModelArts

删除工作空间 - AI开发平台ModelArts

启动智能任务 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

注册API并授权给APP - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

AIGC工具tailor使用指导 - AI开发平台ModelArts

更新API授权 - AI开发平台ModelArts

授权API至APP - AI开发平台ModelArts

委托授权ModelArts云服务使用SFS Turbo - AI开发平台ModelArts

删除模型 - AI开发平台ModelArts

手动续费 - AI开发平台ModelArts

在Dify中配置支持Function Calling的模型使用 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

ModelArts CLI命令功能介绍 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线