搜索_华为云

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

scheduler 若重启后，还是会Pending，建议多重复重启几次。其他实例调度失败问题首先通过打印Pod日志信息。根据错误信息，可通过访问官网链接：工作负载异常：实例调度失败，进行查找。父主题：主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

scheduler 如果重启后，还是会Pending，建议多重复重启几次。其他实例调度失败问题首先通过打印Pod日志信息。根据错误信息，可通过访问官网链接：工作负载异常：实例调度失败，进行查找。父主题：主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
工作负载Pod异常 - AI开发平台ModelArts

${pod_scheduler_name} 若重启后，还是会Pending，建议多重复重启几次。其他实例调度失败问题首先通过打印Pod日志信息。根据错误信息，可通过访问官网链接：工作负载异常：实例调度失败，进行查找。如何删除config.yaml创建出的所有工作负载Pod 若要删除config.yaml创建出

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910） > 常见错误原因和解决方法
工作负载Pod异常 - AI开发平台ModelArts

${pod_scheduler_name} 若重启后，还是会Pending，建议多重复重启几次。其他实例调度失败问题首先通过打印Pod日志信息。根据错误信息，可通过访问官网链接：工作负载异常：实例调度失败，进行查找。如何删除config.yaml创建出的所有工作负载Pod 若要删除config.yaml创建出

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911） > 常见错误原因和解决方法
推理精度测试 - AI开发平台ModelArts

#启动vllm api服务器 ├──vllm.py #构造vllm评测配置脚本名字确保Notebook内通网，已通网可以跳过这一步，未通网需要配置$config_proxy_str，$config_pip_str设置对应的代理和pip源，来确保当前代理和pip源可用。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
工作负载Pod异常 - AI开发平台ModelArts

${pod_scheduler_name} 若重启后，还是会Pending，建议多重复重启几次。其他实例调度失败问题首先通过打印Pod日志信息。根据错误信息，可通过访问官网链接：工作负载异常：实例调度失败，进行查找。如何删除config.yaml创建出的所有工作负载Pod 若要删除config.yaml创建出

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909） > 常见错误原因和解决方法
用户使用torch报错Unexpected error from cudaGetDeviceCount - AI开发平台ModelArts

的python） python -c "import torch;print(torch.__version__)" 通过pytorch官网可查兼容版本：https://pytorch.org/get-started/previous-versions/ 如果环境中装了多版本的c

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
哪里可以了解Atlas800训练服务器硬件相关内容 - AI开发平台ModelArts

机头网卡配置是什么？有以下两类网卡：四个2*100GE网卡，为RoCE网卡，插在NPU板。一个4*25GE/10GE，为Hi1822网卡，插在主板上的。 ifconfig能看到的网卡信息吗能看到主板上的网卡信息，即VPC分配的私有IP。如果要看RoCE网卡的命令需要执行“

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

建议与总结环境变量NCCL_SOCKET_IFNAME用于指定通信的网卡名称。“NCCL_SOCKET_IFNAME=eth0”表示仅使用eth0网卡通信。该环境变量由系统自动注入，由于通信网卡名称不固定，因此训练代码不应默认设置该环境变量。环境变量NCCL_IB_TIMEOUT用于控制InfiniBand

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
获取项目ID和名称 - AI开发平台ModelArts

注册并登录管理ModelArts控制台。在页面右上角单击用户名，然后在下拉列表中单击“我的凭证”，进入“我的凭证”页面。如果您登录的是华为云官网，而非管理控制台。在单击用户名后，选择下拉列表中的“帐号中心”，然后单击“管理我的凭证”进入“我的凭证”页面。在“API凭证”页面的项目列表中查看项目ID和名称（即“项目”）。

帮助中心 > AI开发平台ModelArts > API参考 > 公共参数
精度校验 - AI开发平台ModelArts
精度校验 - AI开发平台ModelArts

osineDistanceThreshold =0.99表示余弦相似度至少为99%，--inputShapes可将模型放入到netron官网中查看。图1 benchmark对接结果输出示例图为了简化用户使用，ModelArts提供了Tailor工具便于用户进行Benchmar

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
基于MindSpore Lite的模型转换 - AI开发平台ModelArts

MSLite涉及到编译优化的过程，不支持完全动态的权重模式，需要在转换时确定对应的inputShape，用于模型的格式的编译与转换，可以在netron官网进行查看，或者对于模型结构中的输入进行shape的打印，并明确输入的batch。一般来说，推理时指定的inputShape和用户的业务及推

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导 > 模型适配
使用AWQ量化工具转换权重 - AI开发平台ModelArts

ackup/resolve/main/val.jsonl.zst，注意需指定到val.jsonl的上一级目录。详细说明可以参考vLLM官网：https://docs.vllm.ai/en/latest/quantization/auto_awq.html。 Step2 权重格式转换

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
推理精度测试 - AI开发平台ModelArts

#启动vllm api服务器 ├──vllm.py #构造vllm评测配置脚本名字确保容器内通网，未通网需要配置$config_proxy_str，$config_pip_str设置对应的代理和pip源，来确保当前代理和pip源可用。精度

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.906）
使用AWQ量化 - AI开发平台ModelArts

co/datasets/mit-han-lab/pile-val-backup，注意需指定到val.jsonl的上一级目录。详细说明可以参考vLLM官网：https://docs.vllm.ai/en/latest/quantization/auto_awq.html。 Step2 权重格式转换

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
使用AWQ量化工具转换权重 - AI开发平台ModelArts

ASCEND_RT_VISIBLE_DEVICES=0 #设置使用NPU单卡执行模型量化 python examples/quantize.py 详细说明可以参考vLLM官网：https://docs.vllm.ai/en/latest/quantization/auto_awq.html。 Step2 权重格式转换

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
Notebook的自定义镜像制作方法 - AI开发平台ModelArts

像保存功能制作自定义镜像。 Notebook自定义镜像规范制作自定义镜像时，Base镜像需满足如下规范：基于昇腾、Dockerhub官网等官方开源的镜像制作，开源镜像需要满足如下操作系统约束： x86：Ubuntu18.04、Ubuntu20.04 ARM：Euler2.8.3、Euler2

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于创建Notebook
使用AWQ量化 - AI开发平台ModelArts

ASCEND_RT_VISIBLE_DEVICES=0 #设置使用NPU单卡执行模型量化 python examples/quantize.py 详细说明可以参考vLLM官网：https://docs.vllm.ai/en/latest/quantization/auto_awq.html。 Step2 权重格式转换

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
advisor调优总体步骤 - AI开发平台ModelArts

录下才能进行性能分析，这个操作相对较为繁琐且耗时。使用ModelArts时推荐挂载共享网盘如sfs turbo，既能加快训练数据的读取速度又能用于存放性能profiling数据。如果没有共享网盘，profiling数据默认保存到ModelArts训练容器中，则请参考创建Model

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

多机之间使用gloo通信时需要指定网口名称， export TP_SOCKET_IFNAME=enp67s0f5 # 多机之间使用TP通信时需要指定网口名称 export HCCL_SOCKET_IFNAME=enp67s0f5 # 多机之间使用HCCL通信时需要指定网口名称图1

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作

总条数： 399

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

工作负载Pod异常 - AI开发平台ModelArts

工作负载Pod异常 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

工作负载Pod异常 - AI开发平台ModelArts

用户使用torch报错Unexpected error from cudaGetDeviceCount - AI开发平台ModelArts

哪里可以了解Atlas800训练服务器硬件相关内容 - AI开发平台ModelArts

训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

获取项目ID和名称 - AI开发平台ModelArts

精度校验 - AI开发平台ModelArts

基于MindSpore Lite的模型转换 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

Notebook的自定义镜像制作方法 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

advisor调优总体步骤 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线