搜索_华为云

日志提示"Permission denied" - AI开发平台ModelArts

可能原因是用户使用的启动脚本为旧版本的run_train.sh，脚本里面有某些环境变量在新版本下发的作业中并不存在这些环境变量导致。可能原因是使用Python file接口并发读写同一文件。处理方法对挂载盘的数据加权限，可以改为与训练容器内相同的用户组（1000），假如/nas盘是挂载路径，执行如下代码。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 权限问题
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

硬盘组成的一种可随时获取、弹性可扩展的云服务器。具体过程请参考ECS文档购买一个Linux弹性云服务器。创建完成后，单击“远程登录”，可直接访问ECS服务器。注意：CPU架构必须选择鲲鹏计算；镜像推荐选择EulerOS；ECS服务器确保可以访问公网，用于获取镜像和构建镜像。图3

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.909） > 准备工作
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。购买专属资源池注意事项使用场景需要选择ModelArts Lite。 CCE集群已完成创建。节点数量可自定义选择使用多少节点。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.910） > 准备工作
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。购买专属资源池注意事项使用场景需要选择ModelArts Lite。 CCE集群已完成创建。节点数量可自定义选择使用多少节点。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.911） > 准备工作
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

906版本，请参考软件配套版本获取配套版本的软件包，请严格遵照版本配套关系使用本文档。推理部署使用的服务框架是vLLM。vLLM支持v0.4.2版本。仅支持FP16和BF16数据类型推理。本案例仅支持在专属资源池上运行。支持的模型列表本方案支持的模型列表、对应的开源权重获取地址如表1所示。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

硬盘组成的一种可随时获取、弹性可扩展的云服务器。具体过程请参考ECS文档购买一个Linux弹性云服务器。创建完成后，单击“远程登录”，可直接访问ECS服务器。注意：CPU架构必须选择鲲鹏计算；镜像推荐选择EulerOS；ECS服务器确保可以访问公网，用于获取镜像和构建镜像。图3

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.911） > 准备工作
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

硬盘组成的一种可随时获取、弹性可扩展的云服务器。具体过程请参考ECS文档购买一个Linux弹性云服务器。创建完成后，单击“远程登录”，可直接访问ECS服务器。注意：CPU架构必须选择鲲鹏计算；镜像推荐选择EulerOS；ECS服务器确保可以访问公网，用于获取镜像和构建镜像。图3

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.908） > 准备工作
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

硬盘组成的一种可随时获取、弹性可扩展的云服务器。具体过程请参考ECS文档购买一个Linux弹性云服务器。创建完成后，单击“远程登录”，可直接访问ECS服务器。注意：CPU架构必须选择鲲鹏计算；镜像推荐选择EulerOS；ECS服务器确保可以访问公网，用于获取镜像和构建镜像。图3

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.910） > 准备工作
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。购买专属资源池注意事项使用场景需要选择ModelArts Lite。 CCE集群已完成创建。节点数量可自定义选择使用多少节点。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.909） > 准备工作
使用AWQ量化工具转换权重 - AI开发平台ModelArts

per-group/per-channel, W8A16 per-channel Step1 模型量化可以在Huggingface开源社区获取AWQ量化后的模型权重；或者获取FP16/BF16的模型权重之后，通过autoAWQ工具进行量化。方式一：从开源社区下载发布的AWQ量化模型。 https://huggingface

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
上传镜像 - AI开发平台ModelArts
上传镜像 - AI开发平台ModelArts

选择左侧导航栏的“总览”，单击页面右上角的“登录指令”，在弹出的页面中单击复制登录指令。此处生成的登录指令有效期为24小时，如果需要长期有效的登录指令，请参见获取长期有效登录指令。获取了长期有效的登录指令后，在有效期内的临时登录指令仍然可以使用。登录指令末尾的域名为镜像仓库地址，请记录该地址，后面会使用到。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机单卡
使用DCGM监控Lite Server资源 - AI开发平台ModelArts

如果采集对象不能满足要求，可通过定制镜像或挂载的方式使用自定义配置。等待约1分钟，执行下面的命令获取GPU指标： curl localhost:9400/metrics 指标获取结果如下： # HELP DCGM_FI_DEV_SM_CLOCK SM clock frequency

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源
权限管理 - AI开发平台ModelArts
权限管理 - AI开发平台ModelArts

lArts创建训练作业，则该用户必须拥有 "modelarts:trainJob:create" 的权限才可以完成操作（无论界面操作还是API调用）。关于如何给一个用户赋权（准确讲是需要先将用户加入用户组，再面向用户组赋权），可以参考IAM的文档《权限管理》。而ModelArt

帮助中心 > AI开发平台ModelArts > 产品介绍
预置框架启动文件的启动流程说明 - AI开发平台ModelArts

加额外的torchrun命令参数，或是覆盖预设的torchrun命令参数。例如配置torchrun命令中rdzv_conf参数的训练作业API环境变量的部分示例如下： "environments": { "MA_RUN_METHOD": "torchrun", "MA_EXTRA_TORCHRUN_PARAMS":

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
使用AWQ量化工具转换权重 - AI开发平台ModelArts

per-group/per-channel, W8A16 per-channel Step1 模型量化可以在Huggingface开源社区获取AWQ量化后的模型权重；或者获取FP16/BF16的模型权重之后，通过autoAWQ工具进行量化。方式一：从开源社区下载发布的AWQ量化模型。 https://huggingface

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
训练作业运行失败排查指导 - AI开发平台ModelArts

查看训练作业的“日志”，出现报错“ERROR:root:label_map.pbtxt cannot be found. It will take a long time to open every annotation files to generate a tmp label_map

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
ModelArts权限管理基本概念 - AI开发平台ModelArts

lArts创建训练作业，则该用户必须拥有 "modelarts:trainJob:create" 的权限才可以完成操作（无论界面操作还是API调用）。关于如何给一个用户赋权（准确讲是需要先将用户加入用户组，再面向用户组赋权），可以参考IAM的文档《权限管理》。而ModelArt

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

5。本案例仅支持在专属资源池上运行。支持的模型列表本方案支持的模型列表、对应的开源权重获取地址如表1所示。表1 支持的模型列表和权重获取地址序号支持模型支持模型参数量开源权重获取地址 1 Llama llama-7b https://huggingface.co/huggyllama/llama-7b

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905）
使用AWQ量化工具转换权重 - AI开发平台ModelArts

per-group/per-channel, W8A16 per-channel Step1 模型量化可以在Huggingface开源社区获取AWQ量化后的模型权重；或者获取FP16/BF16的模型权重之后，通过autoAWQ工具进行量化。方式一：从开源社区下载发布的AWQ量化模型。 https://huggingface

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
训练作业日志中提示“No such file or directory” - AI开发平台ModelArts

由于用户本地开发的代码需要上传至ModelArts后台，训练代码中涉及到依赖文件的路径时，用户设置有误的场景较多。推荐通用的解决方案：使用os接口得到依赖文件的绝对路径，避免报错。示例： |---project_root #代码根目录 |---BootfileDirectory

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障

总条数： 1710

上一页
1
...
77
78
79
...
86
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

日志提示"Permission denied" - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

上传镜像 - AI开发平台ModelArts

使用DCGM监控Lite Server资源 - AI开发平台ModelArts

权限管理 - AI开发平台ModelArts

预置框架启动文件的启动流程说明 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

训练作业运行失败排查指导 - AI开发平台ModelArts

ModelArts权限管理基本概念 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

训练作业日志中提示“No such file or directory” - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线