搜索_华为云

管理Lite Cluster节点池 - AI开发平台ModelArts

个节点池时不支持删除。查看节点池的存储配置在节点池管理的更新页面，可以查看该节点池配置的系统盘、容器盘或数据盘的磁盘类型、大小、数量、写入模式、容器引擎空间大小、挂载路径磁盘配置等参数。在Lite资源池的扩缩容页面，也可以查看节点池的存储配置信息。查找搜索节点池在节点池

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
多模态模型推理性能测试 - AI开发平台ModelArts

静态benchmark验证本章节介绍如何进行静态benchmark验证。已经上传benchmark验证脚本到推理容器中。如果在步骤三：上传代码包和权重文件中已经上传过AscendCloud-LLM-x.x.x.zip并解压，无需重复执行。进入benchmark_tools目录下，运行静态benchmark验证。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理服务性能评测
附录：大模型推理常见问题 - AI开发平台ModelArts

max_model_len is greater than the drived max_model_len 解决方法：修改config.json文件中的"seq_length"的值，"seq_length"需要大于等于 --max-model-len的值。 config.json存在模

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.906）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

准备所需的权重文件。准备代码准备AscendSpeed训练代码。准备镜像准备训练模型适用的容器镜像。准备Notebook 本案例需要创建一个Notebook，以便能够通过它访问SFS Turbo服务。随后，通过Notebook将OBS中的数据上传至SFS Turbo，并对存储在SFS

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906）
查询支持的镜像列表 - AI开发平台ModelArts

查询支持的镜像列表功能介绍根据指定条件分页查询满足条件的所有镜像。接口约束暂无约束调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v1/{project_id}/images

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
查询服务更新日志 - AI开发平台ModelArts

name String 存储卷的名称。 mount_path String 存储卷在容器中的挂载路径。如：/tmp。请不要挂载在系统目录下，如“/”、“/var/run”等，会导致容器异常。建议挂载在空目录下，若目录不为空，请确保目录下无影响容器启动的文件，否则文件会被替换，导致容器启动异常，工作负载创建失败。

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
变更计费模式 - AI开发平台ModelArts

在ModelArts列表页，选择“资源管理 > AI专属资源池 > 弹性集群Cluster ”，在Standard资源池列表中选中目标专属资源池。在资源池详情页的右上角选择“更多 > 转包周期”。在弹出的“转包周期”页面，确认无误后单击“确定”。图1 转包周期选择弹性集群的购买时长，判断是否勾选“自动续费

 帮助中心 > AI开发平台ModelArts > 计费说明
使用SmoothQuant量化 - AI开发平台ModelArts

使用SmoothQuant量化 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见表3。本章节介绍如何使用SmoothQuant量化工具实现推理量化。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
使用SmoothQuant量化 - AI开发平台ModelArts

使用SmoothQuant量化 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见表3。本章节介绍如何使用SmoothQuant量化工具实现推理量化。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
使用SmoothQuant量化 - AI开发平台ModelArts

使用SmoothQuant量化 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见表3。本章节介绍如何使用SmoothQuant量化工具实现推理量化。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

使用SmoothQuant量化工具转换权重 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见表1。本章节介绍如何在Notebook使用SmoothQuant量化工具实现推理量化。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
单模型性能测试工具Mindspore lite benchmark - AI开发平台ModelArts

dels/text_encoder.mindir --device=Ascend 上述命令中：modelFile指定生成的mindir模型文件；device指定运行推理的设备。其他用法请参考benchmark文档。测试结果如下所示：图1 测试结果父主题：性能调优

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 性能调优
附录：大模型推理常见问题 - AI开发平台ModelArts

max_model_len is greater than the drived max_model_len 解决方法：修改config.json文件中的"seq_length"的值，"seq_length"需要大于等于 --max-model-len的值。 config.json存在模

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于LIte Server适配PyTorch NPU推理指导（6.3.905）
使用SmoothQuant量化 - AI开发平台ModelArts

使用SmoothQuant量化 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见表3。本章节介绍如何使用SmoothQuant量化工具实现推理量化。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
使用SmoothQuant量化 - AI开发平台ModelArts

使用SmoothQuant量化 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见表3。本章节介绍如何使用SmoothQuant量化工具实现推理量化。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
使用AWQ量化 - AI开发平台ModelArts

/AutoAWQ-0.2.5 export PYPI_BUILD=1 pip install -e . 需要编辑“examples/quantize.py”文件，针对NPU进行如下适配工作，以支持在NPU上进行量化。添加import。 import torch_npu from torch_npu

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
在ModelArts的Notebook的Jupyterlab可以安装插件吗？ - AI开发平台ModelArts

nsions 后端插件代码安装目录：/home/ma-user/.local/lib/python3.7/site-packages 配置文件目录：/home/ma-user/.jupyter/ 后端插件使用jupyter server extension list命令查询。父主题：

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
使用AWQ量化工具转换权重 - AI开发平台ModelArts

/AutoAWQ-0.2.5 export PYPI_BUILD=1 pip install -e . 需要编辑“examples/quantize.py”文件，针对NPU进行如下适配工作，以支持在NPU上进行量化。添加import。 import torch_npu from torch_npu

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
使用SmoothQuant量化 - AI开发平台ModelArts

使用SmoothQuant量化 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见表3。本章节介绍如何使用SmoothQuant量化工具实现推理量化。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
创建模型失败，提示模型镜像构建任务超时，没有构建日志 - AI开发平台ModelArts

预先准备需要编译下载的依赖包，减少依赖包下载和编译的时间。可通过线下wheel包方式安装运行环境依赖。线下wheel包安装，需确保wheel包与模型文件放在同一目录。优化模型代码，提高构建模型镜像的编译效率。父主题：模型管理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理

总条数： 1648

上一页
1
...
68
69
70
...
83
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

管理Lite Cluster节点池 - AI开发平台ModelArts

多模态模型推理性能测试 - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

查询支持的镜像列表 - AI开发平台ModelArts

查询服务更新日志 - AI开发平台ModelArts

变更计费模式 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

使用SmoothQuant量化工具转换权重 - AI开发平台ModelArts

单模型性能测试工具Mindspore lite benchmark - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

在ModelArts的Notebook的Jupyterlab可以安装插件吗？ - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

创建模型失败，提示模型镜像构建任务超时，没有构建日志 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线