搜索_华为云

GPU A系列裸金属服务器如何进行RoCE性能带宽测试？ - AI开发平台ModelArts

确定带宽服务器A：服务端从mlx4_0网卡接收数据 ib_write_bw -a -d mlx5_0 服务器B：客户端向服务端mlx4_0网卡发送数据。 ib_write_bw -a -F 服务器A的IP -d mlx5_0 --report_gbits 图1 服务器A执行结果

 帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
状态码 - AI开发平台ModelArts
状态码 - AI开发平台ModelArts

Acceptable 服务器无法根据客户端请求的内容特性完成请求。 407 Proxy Authentication Required 请求要求代理的身份认证，与401类似，但请求者应当使用代理进行授权。 408 Request Time-out 服务器等候请求时发生超时。客户端可以随时再次提交该请求而无需进行任何更改。

帮助中心 > AI开发平台ModelArts > API参考 > 公共参数
在Linux上安装配置Grafana - AI开发平台ModelArts

一台可访问外网的Ubuntu服务器。如果没有请具备以下条件：准备一台ECS服务器（建议规格选8U或者以上，镜像选择Ubuntu，建议选择22.04版本，本地存储100G），具体操作请参考《购买弹性云服务器》。购买弹性公网IP，并绑定到购买的弹性云服务器ECS上，具体操作请参见《弹性公网IP快速入门》。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标 > 安装配置Grafana
切换Lite Server服务器操作系统 - AI开发平台ModelArts

切换Lite Server服务器操作系统场景描述 Lite Server为一台弹性裸金属服务器，您可以使用BMS服务提供的切换操作系统功能，对Lite Server资源操作系统进行切换。本文介绍以下三种切换操作系统的方式：在BMS控制台切换操作系统使用BMS Go SDK的方式切换操作系统

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
查看Lite Server服务器详情 - AI开发平台ModelArts

Server服务器创建时绑定的虚拟私有云，单击链接可跳转到虚拟私有云详情页。裸金属服务器 Lite Server服务器为一台裸金属服务器，单击链接可跳转至对应弹性裸金属服务器的详情页。镜像 Lite Server服务器的镜像。创建时间 Lite Server服务器的创建时间。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

其中firmware代表固件版本，software代表驱动版本。如果机器上的版本不是所需的版本（例如需要换成社区最新调测版本），可以参考后续步骤进行操作。查看机器操作系统版本，以及架构是aarch64还是x86_64，并从昇腾官网获取相关的固件驱动包。固件包名称为“Ascend-hdk

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 - AI开发平台ModelArts

service会优先读取网卡配置文件中的IP设置为主机IP，此时无论DH Cient是否关闭，服务器都可以获取分配IP。当服务器没有网卡配置文件时，DH Client开启，此时服务器会分配私有IP。如果关闭DH Client，则服务器无法获取私有IP。图2 查看NetworkManager配置图3 查看网络配置

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
约束与限制 - AI开发平台ModelArts

Lite Server使用裸金属服务器时，如果升级/修改操作系统内核或者驱动，很可能导致驱动和内核版本不兼容，从而导致OS无法启动，或者基本功能不可用。如果需要升级或修改，请联系华为云技术支持。 ModelArts Lite Server使用ECS服务器时不支持重装操作系统，部分区

 帮助中心 > AI开发平台ModelArts > 产品介绍
GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error 问题现象在Vnt1 GPU裸金属服务器（Ubuntu18.04系统），安装NVIDIA 470+CUDA 11.4后使用“nvidia-smi”和“nvcc

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
不同机型的对应的软件配套版本 - AI开发平台ModelArts

不同机型的对应的软件配套版本由于弹性集群资源池可选择弹性裸金属或弹性云服务器作为节点资源，不同机型的节点对应的操作系统、适用的CCE集群版本等不相同，为了便于您制作镜像、升级软件等操作，本文对不同机型对应的软件配套版本做了详细介绍。裸金属服务器的对应的软件配套版本表1 裸金属服务器类型卡类型

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
配置Lite Server网络 - AI开发平台ModelArts

Server创建后，需要进行网络配置，才可使其与Internet通信，本章节介绍网络配置步骤。网络配置主要分为以下两个场景：单个弹性公网IP用于单个Server服务器：为单台Server服务器绑定一个弹性公网IP，该Server服务器独享网络资源。单个弹性公网IP用于多个Server服务器：一个VPC配置

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置
GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决问题现象在A系列裸金属服务器上使用PyTorch一段时间后，出现获取显卡失败的现象，报错如下： > torch.cuda.is_available() /usr/local/lib/python3.8/dist-packages/torch/cuda/__init__

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
重装的包与镜像装CUDA版本不匹配 - AI开发平台ModelArts

出现该问题的可能原因如下：新安装的包与镜像中带的CUDA版本不匹配。处理方法必现的问题，使用本地Pycharm远程连接Notebook调试安装。先远程登录到所选的镜像，使用“nvcc -V”查看目前镜像自带的CUDA版本。重装torch等，需要注意选择与上一步版本相匹配的版本。建议与总结

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
在ModelArts Standard上运行GPU多机多卡训练作业 - AI开发平台ModelArts

上传镜像客户端上传镜像，是指在安装了容器引擎客户端的机器上使用docker命令将镜像上传到容器镜像服务的镜像仓库。如果容器引擎客户端机器为云上的ECS或CCE节点，根据机器所在区域有两种网络链路可以选择：如果机器与容器镜像仓库在同一区域，则上传镜像走内网链路。如果机器与容器镜

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
Cann软件与Ascend驱动版本不匹配 - AI开发平台ModelArts

情（Ascend-Powered-Engine）。 Ascend驱动版本与Cann软件版本的兼容关系如下表所示：表1 Ascend驱动版本与Cann软件版本的兼容关系 Ascend驱动版本支持Cann软件版本基础镜像 c81-22.0.0.3 5.1.0 mindspore_1

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > Ascend相关问题
哪里可以了解Atlas800训练服务器硬件相关内容 - AI开发平台ModelArts

哪里可以了解Atlas800训练服务器硬件相关内容场景描述本文提供Atlas800训练服务器硬件相关指南，包括三维视图、备件信息、HCCL常用方法以及网卡配置信息。 Atlas 800训练服务器三维视图 Atlas 800 训练服务器（型号9000）是基于华为鲲鹏920+Sn

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
在ModelArts Standard上运行GPU单机多卡训练作业 - AI开发平台ModelArts

上传镜像客户端上传镜像，是指在安装了容器引擎客户端的机器上使用docker命令将镜像上传到容器镜像服务的镜像仓库。如果容器引擎客户端机器为云上的ECS或CCE节点，根据机器所在区域有两种网络链路可以选择：如果机器与容器镜像仓库在同一区域，则上传镜像走内网链路。如果机器与容器镜

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed - AI开发平台ModelArts

suppressed"。原因分析根据SFS客户端日志分析出现问题的时间点发现，SFS盘连接的客户端个数较多，在问题的时间点并发读取数据，I/O超高；当前SFS服务端的机制是：当SFS盘的性能到上限时，就会IO排队。IO排队造成处理时间超过 1 分钟时，客户端内核会打印"rpc_check_timeout:939

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
上传数据和算法至SFS（首次使用时需要） - AI开发平台ModelArts

上传数据和算法至SFS（首次使用时需要）前提条件 ECS服务器已挂载SFS，请参考ECS服务器挂载SFS Turbo存储。在ECS中已经创建ma-user和ma-group用户，请参考在ECS中创建ma-user和ma-group。已经安装obsutil，请参考下载和安装obsutil。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机多卡
使用自定义镜像创建的训练作业一直处于运行中 - AI开发平台ModelArts

使用自定义镜像创建训练作业，训练作业的“状态”一直处于“运行中”。原因分析及处理办法日志打印如下内容，表示自定义镜像的CPU架构与资源池节点的CPU架构不一致。 standard_init_linux.go:215: exec user process caused "exec format

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败

总条数： 1154

上一页
1
2
3
4
5
...
58
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

GPU A系列裸金属服务器如何进行RoCE性能带宽测试？ - AI开发平台ModelArts

状态码 - AI开发平台ModelArts

在Linux上安装配置Grafana - AI开发平台ModelArts

切换Lite Server服务器操作系统 - AI开发平台ModelArts

查看Lite Server服务器详情 - AI开发平台ModelArts

NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 - AI开发平台ModelArts

约束与限制 - AI开发平台ModelArts

GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

不同机型的对应的软件配套版本 - AI开发平台ModelArts

配置Lite Server网络 - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

重装的包与镜像装CUDA版本不匹配 - AI开发平台ModelArts

在ModelArts Standard上运行GPU多机多卡训练作业 - AI开发平台ModelArts

Cann软件与Ascend驱动版本不匹配 - AI开发平台ModelArts

哪里可以了解Atlas800训练服务器硬件相关内容 - AI开发平台ModelArts

在ModelArts Standard上运行GPU单机多卡训练作业 - AI开发平台ModelArts

使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed - AI开发平台ModelArts

上传数据和算法至SFS（首次使用时需要） - AI开发平台ModelArts

使用自定义镜像创建的训练作业一直处于运行中 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线