搜索_华为云

在Linux上安装配置Grafana - AI开发平台ModelArts

grafana-server 在本地PC访问Grafana配置。确保ECS绑定了弹性公网IP，且对应配置正确（入方向放开TCP协议的3000端口，出方向全部放通）。设置如下：单击ECS服务器名称进入详情页，单击“安全组”页签，单击“配置规则”。单击“入方向规则”，入方向放开TCP协议的3000端口，出方向默认全部放通。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标 > 安装配置Grafana
网卡名称错误 - AI开发平台ModelArts

可以使用ifconfig命令检查网卡名称配置是否正确。比如，ifconfig看到当前机器IP对应的网卡名称为enp67s0f5，则可以设置环境变量指定该值。 export GLOO_SOCKET_IFNAME=enp67s0f5 # 多机之间使用gloo通信时需要指定网口名称，

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.908） > 常见错误原因和解决方法
网卡名称错误 - AI开发平台ModelArts

可以使用ifconfig命令检查网卡名称配置是否正确。比如，ifconfig看到当前机器IP对应的网卡名称为enp67s0f5，则可以设置环境变量指定该值。 export GLOO_SOCKET_IFNAME=enp67s0f5 # 多机之间使用gloo通信时需要指定网口名称，

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909） > 常见错误原因和解决方法
网卡名称错误 - AI开发平台ModelArts

可以使用ifconfig命令检查网卡名称配置是否正确。比如，ifconfig看到当前机器IP对应的网卡名称为enp67s0f5，则可以设置环境变量指定该值。图1 网卡名称错误 export GLOO_SOCKET_IFNAME=enp67s0f5 # 多机之间使用gloo通信时需要指定网口名称，

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.909） > 常见错误原因和解决方法
网卡名称错误 - AI开发平台ModelArts

可以使用ifconfig命令检查网卡名称配置是否正确。比如，ifconfig看到当前机器IP对应的网卡名称为enp67s0f5，则可以设置环境变量指定该值。图1 网卡名称错误 export GLOO_SOCKET_IFNAME=enp67s0f5 # 多机之间使用gloo通信时需要指定网口名称，

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.911） > 常见错误原因和解决方法
网卡名称错误 - AI开发平台ModelArts

可以使用ifconfig命令检查网卡名称配置是否正确。比如，ifconfig看到当前机器IP对应的网卡名称为enp67s0f5，则可以设置环境变量指定该值。 export GLOO_SOCKET_IFNAME=enp67s0f5 # 多机之间使用gloo通信时需要指定网口名称，

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911） > 常见错误原因和解决方法
网卡名称错误 - AI开发平台ModelArts

可以使用ifconfig命令检查网卡名称配置是否正确。比如，ifconfig看到当前机器IP对应的网卡名称为enp67s0f5，则可以设置环境变量指定该值。 export GLOO_SOCKET_IFNAME=enp67s0f5 # 多机之间使用gloo通信时需要指定网口名称，

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.911） > 常见错误原因和解决方法
网卡名称错误 - AI开发平台ModelArts

可以使用ifconfig命令检查网卡名称配置是否正确。比如，ifconfig看到当前机器IP对应的网卡名称为enp67s0f5，则可以设置环境变量指定该值。图1 网卡名称错误 export GLOO_SOCKET_IFNAME=enp67s0f5 # 多机之间使用gloo通信时需要指定网口名称，

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
通过API接口查询模型详情，model_name返回值出现乱码 - AI开发平台ModelArts

ow"...... 原因分析当模型名称包含下划线时，下划线涉及转义处理。处理方法需要在请求中增加exact_match参数，且参数值设置为true，确保model_name返回值正确。父主题：模型管理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
如何保证训练和调试时文件路径保持一致 - AI开发平台ModelArts

如何保证训练和调试时文件路径保持一致云上挂载路径 Notebook中挂载SFS后，SFS默认在“/home/ma-user/work”路径下。在创建训练作业时，设置SFS Turbo的“云上挂载路径”为“/home/ma-user/work”，使得训练环境下SFS也在“/home/ma-user/work”路径下。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > FAQ
工具介绍及准备工作 - AI开发平台ModelArts

、性能对比、下游任务评测、loss和下游任务对比能力。对比结果以excel文件呈现。方便用户验证发布模型的质量。所有配置都通过yaml文件设置，用户查看默认yaml文件即可知道最优性能的配置。目前仅支持SFT指令监督微调训练阶段。代码目录 benchmark工具脚本存放在代码

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练benchmark工具
工具介绍及准备工作 - AI开发平台ModelArts

、性能对比、下游任务评测、loss和下游任务对比能力。对比结果以excel文件呈现。方便用户验证发布模型的质量。所有配置都通过yaml文件设置，用户查看默认yaml文件即可知道最优性能的配置。目前仅支持SFT指令监督微调训练阶段。准备工作参考benchmark-准备工作，开

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 训练benchmark工具
GPU裸金属服务器使用EulerOS内核误升级如何解决 - AI开发平台ModelArts

如上发现reboot后内核为4.18.0-147.5.1.6.h998.eulerosv2r9.x86_64，和当前内核版本h934不一致，则需要重新设置内核版本与当前版本一致。查看当前内核版本，并且锁定reboot后默认启动的内核版本，执行如下命令： grub2-set-default 'EulerOS

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
工具介绍及准备工作 - AI开发平台ModelArts

、性能对比、下游任务评测、loss和下游任务对比能力。对比结果以excel文件呈现。方便用户验证发布模型的质量。所有配置都通过yaml文件设置，用户查看默认yaml文件即可知道最优性能的配置。目前仅支持SFT指令监督微调训练阶段。代码目录 benchmark工具脚本存放在代码

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练benchmark工具
导出ModelArts数据集中的数据到AI Gallery - AI开发平台ModelArts

过条件筛选出需要的数据，导出到AI Gallery。用户可以通过任务历史查看数据导出的历史记录。发布到AI Gallery中的数据集，可以设置是否公开，将数据集公开给其他人使用。目前只有“图像分类”、“物体检测”、“图像分割”类型的数据集支持导出功能。 “图像分类”只支持导出txt格式的标注文件。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 导出ModelArts数据集中的数据
MindSpore Lite问题定位指南 - AI开发平台ModelArts

Studio报错、使用Xcode构建APP报错等，您可以先查看日志信息进行定位分析。多数场景下的问题可以通过日志报错信息直接定位。如果日志的信息不能定位问题，您可以通过设置环境变量调整日志等级，打印更多调试日志。关于如何对MindSpore Lite遇到的问题进行定位与解决，请参见MindSpore Lite官网提供的问题定位指南。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导 > 常见问题
修改训练作业优先级 - AI开发平台ModelArts

仅使用新版专属资源池训练时才支持设置训练作业优先级。公共资源池和旧版专属资源池均不支持设置训练作业优先级。作业优先级取值为1~3，默认优先级为1，最高优先级为3。默认用户权限可选择优先级1和2，配置了“设置作业为高优先级权限”的用户可选择优先级1~3。如何设置训练作业优先级在创建训

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
日志提示“cuda runtime error (10) : invalid device ordinal at xxx” - AI开发平台ModelArts

请检查CUDA_VISIBLE_DEVICES设置的值是否与作业规格匹配。例如您选择4卡规格的作业，实际可用的卡ID为0、1、2、3，但是您在进行cuda相关的运算时，例如"tensor.to(device="cuda:7")"，将张量搬到了7号GPU卡上，超过了实际可用的ID号。如果cuda相关运算设置的卡ID号

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
权限管理 - AI开发平台ModelArts
权限管理 - AI开发平台ModelArts

型企业用户的使用场景下很常见，但对个人用户则显得复杂而意义不足，所以建议个人用户在使用ModelArts时，参照配置访问授权来进行初始权限设置。您是否需要阅读本文档？如果下述问题您的任何一个回答为“是”，则需要阅读此文档您是企业用户，且存在多个部门，且需要限定不同部门的用户只能访问其专属资源、功能

 帮助中心 > AI开发平台ModelArts > 产品介绍
GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决问题现象在A系列裸金属服务器上使用PyTorch一段时间后，出现获取显卡失败的现象，报错如下： > torch.cuda.is_available() /usr/local/lib/python3.8/dist-packages/torch/cuda/__init__

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server

总条数： 1070

上一页
1
...
5
6
7
...
54
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

在Linux上安装配置Grafana - AI开发平台ModelArts

网卡名称错误 - AI开发平台ModelArts

网卡名称错误 - AI开发平台ModelArts

网卡名称错误 - AI开发平台ModelArts

网卡名称错误 - AI开发平台ModelArts

网卡名称错误 - AI开发平台ModelArts

网卡名称错误 - AI开发平台ModelArts

网卡名称错误 - AI开发平台ModelArts

通过API接口查询模型详情，model_name返回值出现乱码 - AI开发平台ModelArts

如何保证训练和调试时文件路径保持一致 - AI开发平台ModelArts

工具介绍及准备工作 - AI开发平台ModelArts

工具介绍及准备工作 - AI开发平台ModelArts

GPU裸金属服务器使用EulerOS内核误升级如何解决 - AI开发平台ModelArts

工具介绍及准备工作 - AI开发平台ModelArts

导出ModelArts数据集中的数据到AI Gallery - AI开发平台ModelArts

MindSpore Lite问题定位指南 - AI开发平台ModelArts

修改训练作业优先级 - AI开发平台ModelArts

日志提示“cuda runtime error (10) : invalid device ordinal at xxx” - AI开发平台ModelArts

权限管理 - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线