搜索_华为云

非分离部署推理服务 - AI开发平台ModelArts

ix-caching特性则不配置该环境变量。若要开启图模式，请配置以下5个环境变量，并且启动服务时不要添加enforce-eager参数。 export INFER_MODE=PTA # 开启PTA模式，若不使用图模式，请关闭该环境变量 export PTA_TORCHAIR

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910） > 部署推理服务
GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

GPU A系列裸金属服务器RoCE带宽不足如何解决？问题现象 GP Ant8支持RoCE网卡， Ubuntu20.04场景，在进行nccl-tests时，总线带宽理论峰值可达90GB/s，但实际测试下来的结果只有35GB/s。原因分析 “nv_peer_mem”是一个Linu

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
GPU A系列裸金属服务器如何更换NVIDIA和CUDA？ - AI开发平台ModelArts

GPU A系列裸金属服务器如何更换NVIDIA和CUDA？场景描述当裸金属服务器预置的NVIDIA版本和业务需求不匹配时，需要更换NVIDIA驱动和CUDA版本。本文介绍华为云A系列GPU裸金属服务器（Ubuntu20.04系统）如何从“NVIDIA 525+CUDA 12.0”更换为“NVIDIA

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
分离部署推理服务 - AI开发平台ModelArts

pd_ranktable_tools.py的入参说明如下。 --mode：脚本的处理模式，可选值为`gen`或者`merge`。`gen`模式表示生成rank_table文件，`merge`模式表示合并global rank_table文件。 --save-dir：保存生成的ra

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908） > 部署推理服务
分离部署推理服务 - AI开发平台ModelArts

/save_dir pd_ranktable_tools.py的入参说明如下。 --mode：脚本的处理模式，可选值为gen或者merge。gen模式表示生成rank_table文件，merge模式表示合并global rank_table文件。 --save-dir：保存生成的rank_table文件的根目录，默认为当前目录。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.909） > 部署推理服务
使用GPU A系列裸金属服务器有哪些注意事项？ - AI开发平台ModelArts

使用GPU A系列裸金属服务器有哪些注意事项？使用华为云A系列裸金属服务器时有如下注意事项： nvidia-fabricmanager版本号必须和nvidia-driver版本号保持一致，可参考安装nvidia-fabricmanager方法。 NCCL必须和CUDA版本相匹配，可单击此处可查看配套关系和安装方法。

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

Turbo，具体操作请参见配置ModelArts和SFS Turbo间网络直通。图5 ModelArts网络关联SFS Turbo SFS Turbo模式下执行流程 SFS Turbo作为完全托管的共享文件存储系统，在本方案中作为主要的存储介质应用于训练作业。因此，后续需要准备的原始数据集、原始Hugging

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

Turbo，具体操作请参见配置ModelArts和SFS Turbo间网络直通。图5 ModelArts网络关联SFS Turbo SFS Turbo模式下执行流程 SFS Turbo作为完全托管的共享文件存储系统，在本方案中作为主要的存储介质应用于训练作业。因此，后续需要准备的原始数据集、原始Hugging

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

Turbo，具体操作请参见配置ModelArts和SFS Turbo间网络直通。图5 ModelArts网络关联SFS Turbo SFS Turbo模式下执行流程 SFS Turbo作为完全托管的共享文件存储系统，在本方案中作为主要的存储介质应用于训练作业。因此，后续需要准备的原始数据集、原始Hugging

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.908） > 准备工作
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

Turbo，具体操作请参见配置ModelArts和SFS Turbo间网络直通。图5 ModelArts网络关联SFS Turbo SFS Turbo模式下执行流程 SFS Turbo作为完全托管的共享文件存储系统，在本方案中作为主要的存储介质应用于训练作业。因此，后续需要准备的原始数据集、原始Hugging

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作
分离部署推理服务 - AI开发平台ModelArts

/save_dir pd_ranktable_tools.py的入参说明如下。 --mode：脚本的处理模式，可选值为gen或者merge。gen模式表示生成rank_table文件，merge模式表示合并global rank_table文件。 --save-dir：保存生成的rank_table文件的根目录，默认为当前目录。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910） > 部署推理服务
查看Standard专属资源池详情 - AI开发平台ModelArts

在资源池详情页的右上角，单击“更多>扩缩容”，在资源池扩缩容页面可以查看该资源规格中携带的系统盘、容器盘、数据盘的磁盘类型、大小、数量和写入模式、容器引擎空间大小、挂载路径磁盘配置等参数。父主题：管理Standard专属资源池

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

Turbo，具体操作请参见配置ModelArts和SFS Turbo间网络直通。图5 ModelArts网络关联SFS Turbo SFS Turbo模式下执行流程图6 SFS Turbo和集群交互示意图 SFS Turbo作为完全托管的共享文件存储系统，在本方案中作为主要的存储介质应用于

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912） > 准备工作
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

Turbo，具体操作请参见配置ModelArts和SFS Turbo间网络直通。图5 ModelArts网络关联SFS Turbo SFS Turbo模式下执行流程 SFS Turbo作为完全托管的共享文件存储系统，在本方案中作为主要的存储介质应用于训练作业。因此，后续需要准备的原始数据集、原始Hugging

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911） > 准备工作
在ModelArts Standard上运行GPU单机多卡训练作业 - AI开发平台ModelArts

自动停止，即1小时后停止规格资源计费。开启自动停止功能后，可选择“1小时”、“2小时”、“4小时”、“6小时”或“自定义”几种模式。选择“自定义”模式时，可指定1~24小时范围内任意整数。填写Notebook详细参数，如镜像、资源规格等。镜像：在“自定义镜像”页签选择已上传的自定义镜像。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
附录：大模型推理常见问题 - AI开发平台ModelArts

inv_freq.npu() 问题6：使用Qwen2-7B、Qwen2-72B模型有精度问题，重复输出感叹号检查步骤六中4. 配置环境变量章节中，高精度模式的环境变量是否开启。问题7：使用autoAWQ进行qwen-7b模型量化时报错使用autoAWQ进行qwen-7b模型量化时报错：TypeError:

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911）
附录：大模型推理常见问题 - AI开发平台ModelArts

inv_freq.npu() 问题6：使用Qwen2-7B、Qwen2-72B模型有精度问题，重复输出感叹号检查步骤六中4. 配置环境变量章节中，高精度模式的环境变量是否开启。问题7：使用autoAWQ进行qwen-7b模型量化时报错使用autoAWQ进行qwen-7b模型量化时报错：TypeError:

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911）
GPU A系列裸金属服务器如何进行RoCE性能带宽测试？ - AI开发平台ModelArts

GPU A系列裸金属服务器如何进行RoCE性能带宽测试？场景描述本文主要指导如何在GPU A系列裸金属服务器上测试RoCE性能带宽。前提条件 GPU A系列裸金属服务器已经安装了IB驱动。（网卡设备名称可以使用ibstatus或者ibstat获取。华为云Ant8裸金属服务器使用Ubuntu20

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
启动推理服务 - AI开发平台ModelArts

--enforce-eager：未设置INFER_MODE环境变量时，部分模型会默认使用CANNGraph图模式启动来提升性能，设置该参数后将关闭图模式。CANNGraph图模式目前支持llama和qwen2系列大语言模型单卡场景，包含该系列AWQ量化模型，其他场景(如Multi-l

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理服务部署
附录：大模型推理常见问题 - AI开发平台ModelArts

inv_freq.npu() 问题6：使用Qwen2-7B、Qwen2-72B模型有精度问题，重复输出感叹号检查步骤六中4. 配置环境变量章节中，高精度模式的环境变量是否开启。问题7：使用autoAWQ进行qwen-7b模型量化时报错使用autoAWQ进行qwen-7b模型量化时报错：TypeError:

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）

总条数： 781

上一页
1
...
8
9
10
...
40
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

非分离部署推理服务 - AI开发平台ModelArts

GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

GPU A系列裸金属服务器如何更换NVIDIA和CUDA？ - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

使用GPU A系列裸金属服务器有哪些注意事项？ - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

查看Standard专属资源池详情 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

在ModelArts Standard上运行GPU单机多卡训练作业 - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

GPU A系列裸金属服务器如何进行RoCE性能带宽测试？ - AI开发平台ModelArts

启动推理服务 - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线