搜索_华为云

（可选）本地服务器安装ModelArts SDK - AI开发平台ModelArts

如上所示，即需要在C:\Users\xxx\AppData\Roaming路径下创建pip文件夹。在pip文件夹中创建一个名为pip的文本文件，并将后缀名由“.txt”改为“.ini”。文件内容示例如下：其中，index-url为pip源ip地址，使用时需自行替换。本示例以华为源为例，具体如下： [global]

帮助中心 > AI开发平台ModelArts > SDK参考
ECS服务器挂载SFS Turbo存储 - AI开发平台ModelArts

数据及算法已经上传至OBS，如果未上传，请参考上传数据和算法至OBS（首次使用时需要）。 ECS服务器和SFS的共享硬盘在相同的VPC或者对应VPC能够互联。 ECS服务器基础镜像需要用Ubuntu 18.04的。 ECS服务器和SFS Turbo需要在同一子网中。操作步骤在ECS服务器中设置华为云镜像源。 sudo

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置
查看Lite Server服务器详情 - AI开发平台ModelArts

有云详情页。裸金属服务器 Lite Server服务器为一台裸金属服务器，单击链接可跳转至对应弹性裸金属服务器的详情页。镜像 Lite Server服务器的镜像。创建时间 Lite Server服务器的创建时间。更新时间 Lite Server服务器的更新时间。所属订单

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
GPU裸金属服务器无法Ping通如何解决 - AI开发平台ModelArts

GPU裸金属服务器无法Ping通如何解决问题现象在华为云使用GPU裸金属服务器时，服务器绑定EIP（华为云弹性IP服务）后，出现无法ping通弹性公网IP现象。原因分析查看当前GPU裸金属服务器的安全组的入方向规则的配置，发现仅开通了TCP协议的22端口。 ping命令

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 - AI开发平台ModelArts

Client，无法使用DHCP获取IP。正常情况下裸金属服务器这个参数是被注释的状态。当服务器有网卡配置文件， NetworkManager.service实现将VPC子网分配的私有IP写入网卡配置文件中。NetworkManager.service会优先读取网卡配置文件中的IP设置为主机IP，此时无论DH

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
使用GPU A系列裸金属服务器有哪些注意事项？ - AI开发平台ModelArts

NCCL必须和CUDA版本相匹配，可单击此处可查看配套关系和安装方法。使用该裸金属服务器制作自定义镜像时，必须清除残留文件，请参考清理文件。父主题： Lite Server

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 - AI开发平台ModelArts

华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案问题现象创建出3台GPU裸金属服务器，使用A节点制作镜像，用于在CCE纳管裸金属服务器时，使用该镜像，但是纳管后发现服务器A纳管失败，剩下两台服务器纳管成功。原因分析在CCE纳管过程中，需要通过cloudinit

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

Terminal，执行如下命令在本地计算机生成密钥对，如果您已经有一个密钥对，则可以跳过此步骤： ssh-keygen -t rsa 将公钥添加到远程服务器的授权文件中，注意替换服务器IP以及容器的端口号： cat ~/.ssh/id_rsa.pub | ssh root@服务器IP -p 容器端口号 "mkdir

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
GPU A系列裸金属服务器如何更换NVIDIA和CUDA？ - AI开发平台ModelArts

GPU A系列裸金属服务器如何更换NVIDIA和CUDA？场景描述当裸金属服务器预置的NVIDIA版本和业务需求不匹配时，需要更换NVIDIA驱动和CUDA版本。本文介绍华为云A系列GPU裸金属服务器（Ubuntu20.04系统）如何从“NVIDIA 525+CUDA 12.0”更换为“NVIDIA

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

中的节点间有免密登录，设置SSH免密登录方法如下：客户端生成公私钥。执行如下命令，在本地客户端生成公私钥（一路回车默认即可）。 ssh-keygen 上面这个命令会在用户目录.ssh文件夹下创建“id_rsa.pub”（公钥）和“id_rsa”（私钥），可通过如下命令查看： cd

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
切换Lite Server服务器操作系统 - AI开发平台ModelArts

切换Lite Server服务器操作系统场景描述 Lite Server为一台弹性裸金属服务器，您可以使用BMS服务提供的切换操作系统功能，对Lite Server资源操作系统进行切换。本文介绍以下几种切换操作系统的方式：在BMS控制台切换操作系统使用BMS Go SDK的方式切换操作系统

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
同步Lite Server服务器状态 - AI开发平台ModelArts

同步Lite Server服务器状态 Lite Server为一台弹性裸金属服务器，当用户在云服务器页面修改了裸金属服务器状态后，您可通过“同步”功能，同步其状态至ModelArts。登录ModelArts管理控制台。在左侧导航栏中，选择“AI专属资源池 > 弹性节点 Server”，进入“节点”列表页面。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决问题现象在A系列裸金属服务器上使用PyTorch一段时间后，出现获取显卡失败的现象，报错如下： > torch.cuda.is_available() /usr/local/lib/python3.8/dist-packages/torch/cuda/__init__

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
制作Lite Server服务器操作系统 - AI开发平台ModelArts

ig/network-scripts/”文件夹下有哪些以“ifcfg”开头的文件，删除除了“ifcfg-lo”以外的以“ifcfg”开头的文件。查看文件命令： ll /etc/sysconfig/network-scripts/ 删除文件命令： rm -rf /etc/sysc

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

_mem.conf至/etc/infiniband/中或nv_peer_mem不在/etc/init.d/中。如果找不到相关文件的问题，可以搜索相关文件在哪里，然后复制到指定目录，例如可执行如下命令： cp /tmp/nvidia-peer-memory-1.3/nv_peer_mem

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
启动或停止Lite Server服务器 - AI开发平台ModelArts

认信息无误，然后单击“确定”。只有处于“运行中/停止失败”状态的弹性节点Server可以执行停止操作。停止服务器为“强制关机”方式，会中断您的业务，请确保服务器上的文件已保存。父主题： Lite Server资源管理

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
GPU裸金属服务器使用EulerOS内核误升级如何解决 - AI开发平台ModelArts

GPU裸金属服务器使用EulerOS内核误升级如何解决问题现象 GP Vnt1裸金属服务器，操作系统为EulerOS 2.9(基于CentOS制作的Linux发行版)，经常遇到服务器重启后，操作系统内核无故升级，导致系统上原安装的nvidia-driver等软件无法使用，只能卸载重新安装。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
哪里可以了解Atlas800训练服务器硬件相关内容 - AI开发平台ModelArts

哪里可以了解Atlas800训练服务器硬件相关内容场景描述本文提供Atlas800训练服务器硬件相关指南，包括三维视图、备件信息、HCCL常用方法以及网卡配置信息。 Atlas 800训练服务器三维视图 Atlas 800 训练服务器（型号9000）是基于华为鲲鹏920+Sn

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
GPU A系列裸金属服务器如何进行RoCE性能带宽测试？ - AI开发平台ModelArts

确定带宽服务器A：服务端从mlx4_0网卡接收数据 ib_write_bw -a -d mlx5_0 服务器B：客户端向服务端mlx4_0网卡发送数据。 ib_write_bw -a -F 服务器A的IP -d mlx5_0 --report_gbits 图1 服务器A执行结果

 帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？场景描述本文指导如何进行节点内NVLINK带宽性能测试，适用的环境为：Ant8或者Ant1 GPU裸金属服务器，且服务器中已经安装相关GPU驱动软件，以及Pytorch2.0。 GPU A系列裸金属服务器，单台服务

 帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server

总条数： 2594

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

（可选）本地服务器安装ModelArts SDK - AI开发平台ModelArts

ECS服务器挂载SFS Turbo存储 - AI开发平台ModelArts

查看Lite Server服务器详情 - AI开发平台ModelArts

GPU裸金属服务器无法Ping通如何解决 - AI开发平台ModelArts

裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 - AI开发平台ModelArts

使用GPU A系列裸金属服务器有哪些注意事项？ - AI开发平台ModelArts

华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 - AI开发平台ModelArts

NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

GPU A系列裸金属服务器如何更换NVIDIA和CUDA？ - AI开发平台ModelArts

GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

切换Lite Server服务器操作系统 - AI开发平台ModelArts

同步Lite Server服务器状态 - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

制作Lite Server服务器操作系统 - AI开发平台ModelArts

GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

启动或停止Lite Server服务器 - AI开发平台ModelArts

GPU裸金属服务器使用EulerOS内核误升级如何解决 - AI开发平台ModelArts

哪里可以了解Atlas800训练服务器硬件相关内容 - AI开发平台ModelArts

GPU A系列裸金属服务器如何进行RoCE性能带宽测试？ - AI开发平台ModelArts

GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线