搜索_华为云

使用llm-compressor工具量化 - AI开发平台ModelArts

致需要10+小时。使用量化模型使用量化模型需要在NPU的机器上运行。启动vLLM前，请开启图模式（参考步骤六启动推理服务中的配置环境变量），启动服务的命令和启动非量化模型一致。父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
日志提示“No space left on device” - AI开发平台ModelArts

处理方法可以参照日志提示"write line error"文档进行修复。如果是分布式作业有的节点有错误，有的节点正常，建议提工单请求隔离有问题的节点。如果是触发了欧拉操作系统的限制，有如下建议措施。分目录处理，减少单个目录文件量。减慢创建文件的速度。关闭ext4文件系统

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
使用llm-compressor工具量化 - AI开发平台ModelArts

致需要10+小时。使用量化模型使用量化模型需要在NPU的机器上运行。启动vLLM前，请开启图模式（参考步骤六启动推理服务中的配置环境变量），启动服务的命令和启动非量化模型一致。父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
使用AWQ量化 - AI开发平台ModelArts

/home/ma-user/Qwen1.5-72B-Chat-AWQ 参数说明： model：模型路径。 Step3 启动AWQ量化服务参考Step6 启动推理服务，在启动服务时添加如下命令。 -q awq 或者--quantization awq 父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
使用AWQ量化 - AI开发平台ModelArts

/home/ma-user/Qwen1.5-72B-Chat-AWQ 参数说明： model：模型路径。 Step3 启动AWQ量化服务参考Step6 启动推理服务，在启动服务时添加如下命令。 -q awq 或者--quantization awq 父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
训练预测分析模型 - AI开发平台ModelArts

训练预测分析模型创建自动学习后，将会进行模型的训练，得到预测分析的模型。模型部署步骤将使用预测模型发布在线预测服务。操作步骤在新版自动学习页面，单击创建成功的项目名称，查看当前工作流的执行情况。在“预测分析”节点中，待节点状态由“运行中”变为“运行成功”，即完成了模型的自动训练。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现预测分析
使用AWQ量化工具转换权重 - AI开发平台ModelArts

/home/ma-user/Qwen1.5-72B-Chat-AWQ 参数说明： model：模型路径。 Step3 启动AWQ量化服务参考Step3 启动推理服务，在启动服务时添加如下命令。 --q awq 或者--quantization awq 父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
Step1 创建用户组并加入用户 - AI开发平台ModelArts

骤介绍如何创建用户组、子账号、并将子账号加入用户组中。主用户登录管理控制台，单击右上角用户名，在下拉框中选择“统一身份认证”，进入IAM服务。图1 统一身份认证创建用户组。在左侧菜单栏中，选择“用户组”。单击右上角“创建用户组”，在“用户组名称”中填入“用户组02”，然后单击“确定”完成用户组创建。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践 > 配置ModelArts基本使用权限
AI Gallery使用流程 - AI开发平台ModelArts

Gallery中的模型部署为AI应用。发布后的资产，可通过微调大师训练模型和在线推理服务部署模型，具体可参见使用AI Gallery微调大师训练模型、使用AI Gallery在线推理服务部署模型。图1 AI Gallery使用流程 AI Gallery也支持管理从Model

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版）
VS Code连接开发环境失败时的排查方法 - AI开发平台ModelArts

Terminal里执行如下检查网络。如果网络异常，请执行命令检查端口。 curl -kv telnet://<域名/ip>:<port> 端口有问题，请联系技术支持。端口无问题请继续远端排查。远端排查排查/home/ma-user目录权限是否为755/750，不是该权限，请执行如下命令设置权限。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > VS Code连接开发环境失败常见问题
训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

Connection refused, retrying”，则表示NCCL无法找到通信网卡或者是无法正常访问IP地址。需要排查训练代码中是否有设置NCCL_SOCKET_IFNAME环境变量，该环境变量由系统自动注入，训练代码中无需设置。训练代码去除NCCL_SOCKET_IFNA

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
使用AWQ量化工具转换权重 - AI开发平台ModelArts

/home/ma-user/Qwen1.5-72B-Chat-AWQ 参数说明： model：模型路径。 Step3 启动AWQ量化服务参考Step3 启动推理服务，在启动服务时添加如下命令。 --q awq 或者--quantization awq 父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
使用AWQ量化 - AI开发平台ModelArts

/home/ma-user/Qwen1.5-72B-Chat-AWQ 参数说明： model：模型路径。 Step3 启动AWQ量化服务参考Step6 启动推理服务，在启动服务时添加如下命令。 -q awq 或者--quantization awq 父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
使用AWQ量化 - AI开发平台ModelArts

/home/ma-user/Qwen1.5-72B-Chat-AWQ 参数说明： model：模型路径。 Step3 启动AWQ量化服务参考Step6 启动推理服务，在启动服务时添加如下命令。 -q awq 或者--quantization awq 父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
VS Code连接开发环境失败时的排查方法 - AI开发平台ModelArts

Terminal里执行如下检查网络。如果网络异常，请执行命令检查端口。 curl -kv telnet://<域名/ip>:<port> 端口有问题，请联系技术支持。端口无问题请继续远端排查。远端排查排查/home/ma-user目录权限是否为755/750，不是该权限，请执行如下命令设置权限。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
Notebook Cache盘告警上报 - AI开发平台ModelArts

“告警恢复通知”：开启开关图4 设置告警通知先在SMN创建一个主题，用于配置告警通知规则。更多内容请参考消息通知服务用户指南。创建主题进入“消息通知服务”控制台，单击“主题管理 > 主题”，进入“主题”页面。单击“创建主题”填写主题名称，选择企业项目后，单击确定即可创建一个主题。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 管理Notebook实例
迁移适配 - AI开发平台ModelArts
迁移适配 - AI开发平台ModelArts

和Distributed Data Parallel （DDP）。torch_npu环境下针对DDP场景的多卡训练有提供支持，具体请参见迁移单卡脚本为多卡脚本。此外，针对deepspeed环境，昇腾有专门的适配环境deepspeed-npu。在此提供一种基于deepspeed的多卡训练脚本，内容如下：

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于LLM模型的GPU训练业务迁移至昇腾指导
Controlnet训练 - AI开发平台ModelArts

k" Step2 启动SD1.5训练服务使用ma-user用户执行如下命令运行训练脚本。 cd /home/ma-user/diffusers sh diffusers_controlnet_train.sh Step3 启动sdxl训练服务使用ma-user用户执行如下命令运行训练脚本。

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理 > SD1.5&SDXL Diffusers框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

├── config ├── config.json # 请求的参数，根据实际启动的服务来调整 ├── mmlu_subject_mapping.json # 数据集配置

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905） > 准备工作
查看Standard专属资源池详情 - AI开发平台ModelArts

Standard专属资源池故障节点。还支持对节点批量添加、编辑、删除资源标签操作，“包年/包月”的节点支持批量续费、批量开通/修改自动续费功能。图2 节点批量操作如下图所示，在单个节点的操作列，支持对单个节点进行删除、替换、修复、重置、重启、授权、运行作业列表、开启高可用冗余

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池

总条数： 2217

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用llm-compressor工具量化 - AI开发平台ModelArts

日志提示“No space left on device” - AI开发平台ModelArts

使用llm-compressor工具量化 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

训练预测分析模型 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

Step1 创建用户组并加入用户 - AI开发平台ModelArts

AI Gallery使用流程 - AI开发平台ModelArts

VS Code连接开发环境失败时的排查方法 - AI开发平台ModelArts

训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

VS Code连接开发环境失败时的排查方法 - AI开发平台ModelArts

Notebook Cache盘告警上报 - AI开发平台ModelArts

迁移适配 - AI开发平台ModelArts

Controlnet训练 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

查看Standard专属资源池详情 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线