搜索_华为云

Yolov8基于Lite Server适配MindSpore Lite推理指导（6.3.909） - AI开发平台ModelArts

3.909-xxx.zip软件包中的AscendCloud-CV-6.3.909-xxx.zip 说明：包名中的xxx表示具体的时间戳，以包名的实际时间为准。获取路径：Support-E 说明：如果没有下载权限，请联系您所在企业的华为方技术支持下载获取。基础镜像西南-贵阳一：

帮助中心 > AI开发平台ModelArts > 最佳实践 > 内容审核模型训练推理
使用AWQ量化 - AI开发平台ModelArts

nt4的权重进行打包。昇腾上使用int8对权重进行打包，在线转换会增加启动时间，可以提前对权重进行转换以减少启动时间，转换步骤如下：进入llm_tools/AutoAWQ代码目录下执行以下脚本：执行时间预计10分钟。执行完成后会将权重路径下的原始权重替换成转换后的权重。如需保留之前权重格式，请在转换前备份。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
使用AWQ量化 - AI开发平台ModelArts

nt4的权重进行打包。昇腾上使用int8对权重进行打包，在线转换会增加启动时间，可以提前对权重进行转换以减少启动时间，转换步骤如下：进入llm_tools/AutoAWQ代码目录下执行以下脚本：执行时间预计10分钟。执行完成后会将权重路径下的原始权重替换成转换后的权重。如需保留之前权重格式，请在转换前备份。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
获取模型推理的Profiling数据 - AI开发平台ModelArts

获取模型推理的Profiling数据 Profiling数据是程序运行过程中收集到的系统资源（如CPU、内存、磁盘 I/O等）的使用情况、程序的运行时间、函数的调用频率等数据，以发现系统性能瓶颈，优化程序代码和系统配置。目前支持两种获取Profiling数据的方法，分别是通过LLM对象的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.5.901） > 推理服务性能评测
使用AWQ量化工具转换权重 - AI开发平台ModelArts

nt4的权重进行打包。昇腾上使用int8对权重进行打包，在线转换会增加启动时间，可以提前对权重进行转换以减少启动时间，转换步骤如下：进入llm_tools/AutoAWQ代码目录下执行以下脚本：执行时间预计10分钟。执行完成后会将权重路径下的原始权重替换成转换后的权重。如需保留之前权重格式，请在转换前备份。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
使用AWQ量化 - AI开发平台ModelArts

nt4的权重进行打包。昇腾上使用int8对权重进行打包，在线转换会增加启动时间，可以提前对权重进行转换以减少启动时间，转换步骤如下：进入llm_tools/AutoAWQ代码目录下执行以下脚本：执行时间预计10分钟。执行完成后会将权重路径下的原始权重替换成转换后的权重。如需保留之前权重格式，请在转换前备份。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
使用AWQ量化 - AI开发平台ModelArts

nt4的权重进行打包。昇腾上使用int8对权重进行打包，在线转换会增加启动时间，可以提前对权重进行转换以减少启动时间，转换步骤如下：进入llm_tools/AutoAWQ代码目录下执行以下脚本：执行时间预计10分钟。执行完成后会将权重路径下的原始权重替换成转换后的权重。如需保留之前权重格式，请在转换前备份。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
使用AWQ量化工具转换权重 - AI开发平台ModelArts

nt4的权重进行打包。昇腾上使用int8对权重进行打包，在线转换会增加启动时间，可以提前对权重进行转换以减少启动时间，转换步骤如下：进入llm_tools/AutoAWQ代码目录下执行以下脚本：执行时间预计10分钟。执行完成后会将权重路径下的原始权重替换成转换后的权重。如需保留之前权重格式，请在转换前备份。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
使用AWQ量化工具转换权重 - AI开发平台ModelArts

方式一：从开源社区下载发布的AWQ量化模型。 https://huggingface.co/models?sort=trending&search=QWEN+AWQ 方式二：使用AutoAWQ量化工具进行量化。运行“examples/quantize.py”文件进行模型量化，量化时间和模型大小有关，预计30分钟~3小时。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
使用llm-compressor工具量化 - AI开发平台ModelArts

mpressor量化模型权重，然后在NPU的机器上实现推理量化。具体操作如下：开始之前，请确保安装了以下库： git clone https://github.com/vllm-project/llm-compressor.git cd llm-compressor pip install

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
使用llm-compressor工具量化 - AI开发平台ModelArts

mpressor量化模型权重，然后在NPU的机器上实现推理量化。具体操作如下：开始之前，请确保安装了以下库： git clone https://github.com/vllm-project/llm-compressor.git cd llm-compressor pip install

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
SD1.5基于Lite Server适配PyTorch NPU Finetune训练指导（6.3.904） - AI开发平台ModelArts

分类名称获取路径插件代码包 ascendcloud-aigc-6.3.904-xxx.tar.gz 文件名中的xxx表示具体的时间戳，以包的实际时间为准。获取路径：Support-E网站。说明：如果没有软件下载权限，请联系您所在企业的华为方技术支持下载获取。基础镜像西南-贵阳一：swr

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
配置模型服务接口地址时需要注意什么格式问题？ - AI开发平台ModelArts

在大部分应用平台内配置模型服务接口地址时，需要去除URL尾部的/chat/completions路径。正确示例：假设原始地址为https://example.com/v1/chat/completions，应简化为https://example.com/v1。获取模型服务接口地址的操作步骤如下：方式一：使用预置服务。

帮助中心 > AI开发平台ModelArts > 常见问题 > MaaS
使用llm-compressor工具量化 - AI开发平台ModelArts

mpressor量化模型权重，然后在NPU的机器上实现推理量化。具体操作如下：开始之前，请确保安装了以下库： git clone https://github.com/vllm-project/llm-compressor.git cd llm-compressor pip install

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
查询数据集监控数据 - AI开发平台ModelArts

名称。表2 Query参数参数是否必选参数类型描述 end_time 是 Long 监控信息的截止时间。 start_time 是 Long 监控信息的起始时间。 workforce_task_id 否 String 团队标注任务ID。请求参数无响应参数状态码：

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
使用AWQ量化 - AI开发平台ModelArts

--calib-data：数据集路径，推荐使用：https://huggingface.co/datasets/mit-han-lab/pile-val-backup，注意需指定到val.jsonl的上一级目录。详细说明可以参考vLLM官网：https://docs.vllm.ai/en/

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
使用AWQ量化工具转换权重 - AI开发平台ModelArts

的模型权重；或者获取FP16/BF16的模型权重之后，通过autoAWQ工具进行量化。方式一：从开源社区下载发布的AWQ量化模型。 https://huggingface.co/models?sort=trending&search=QWEN+AWQ 方式二：使用AutoAWQ量化工具进行量化。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
使用AWQ量化 - AI开发平台ModelArts

的模型权重；或者获取FP16/BF16的模型权重之后，通过autoAWQ工具进行量化。方式一：从开源社区下载发布的AWQ量化模型。 https://huggingface.co/models?sort=trending&search=QWEN+AWQ 方式二：使用AutoAWQ量化工具进行量化。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
查询运行中的Notebook可用时长 - AI开发平台ModelArts

状态码：200 表2 响应Body参数参数参数类型描述 create_at Long 实例创建的时间，UTC毫秒。 duration Long 实例运行时长，以创建时间为起点计算，即“创建时间+duration > 当前时刻”时，系统会自动停止实例。 enable Boolean 是否启用自动停止功能。

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

TMOUT=0这个命令在SSH连接Linux服务器时的作用是设置会话的空闲超时时间为0，意味着不会因为空闲而自动断开连接。默认情况下，SSH连接可能会在一段时间没有操作后自动断开，这是为了安全考虑。但是，如果您正在进行需要长时间保持连接的任务，可以使用这个命令来防止连接因为空闲而断开。您可以在

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境

总条数： 1092

上一页
1
2
3
4
5
...
55
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

Yolov8基于Lite Server适配MindSpore Lite推理指导（6.3.909） - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

获取模型推理的Profiling数据 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

使用llm-compressor工具量化 - AI开发平台ModelArts

使用llm-compressor工具量化 - AI开发平台ModelArts

SD1.5基于Lite Server适配PyTorch NPU Finetune训练指导（6.3.904） - AI开发平台ModelArts

配置模型服务接口地址时需要注意什么格式问题？ - AI开发平台ModelArts

使用llm-compressor工具量化 - AI开发平台ModelArts

查询数据集监控数据 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

查询运行中的Notebook可用时长 - AI开发平台ModelArts

NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线