搜索_华为云

GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？场景描述本文指导如何进行节点内NVLINK带宽性能测试，适用的环境为：Ant8或者Ant1 GPU裸金属服务器，且服务器中已经安装相关GPU驱动软件，以及Pytorch2.0。 GPU A系列裸金属服务器，单台服务

 帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
GPU A系列裸金属服务器如何进行RoCE性能带宽测试？ - AI开发平台ModelArts

A系列裸金属服务器如何进行RoCE性能带宽测试？场景描述本文主要指导如何在GPU A系列裸金属服务器上测试RoCE性能带宽。前提条件 GPU A系列裸金属服务器已经安装了IB驱动。（网卡设备名称可以使用ibstatus或者ibstat获取。华为云Ant8裸金属服务器使用Ubuntu20

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

GPU A系列裸金属服务器RoCE带宽不足如何解决？问题现象 GP Ant8支持RoCE网卡， Ubuntu20.04场景，在进行nccl-tests时，总线带宽理论峰值可达90GB/s，但实际测试下来的结果只有35GB/s。原因分析 “nv_peer_mem”是一个Linu

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
哪里可以了解Atlas800训练服务器硬件相关内容 - AI开发平台ModelArts

哪里可以了解Atlas800训练服务器硬件相关内容场景描述本文提供Atlas800训练服务器硬件相关指南，包括三维视图、备件信息、HCCL常用方法以及网卡配置信息。 Atlas 800训练服务器三维视图 Atlas 800 训练服务器（型号9000）是基于华为鲲鹏920+Sn

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
（可选）本地服务器安装ModelArts SDK - AI开发平台ModelArts

（可选）本地服务器安装ModelArts SDK 如果需要在个人PC或虚拟机上使用ModelArts SDK，则需要在本地环境中安装ModelArts SDK，安装后可直接调用ModelArts SDK轻松管理数据集、创建ModelArts训练作业及创建AI应用，并将其部署为在线服务。

帮助中心 > AI开发平台ModelArts > SDK参考
NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

但是在生产环境或多人使用的公共服务器上，不建议设置TMOUT=0，关闭自动注销功能会带来一定的安全风险。磁盘合并挂载。成功购买裸金属服务器后，服务器上可能会有多个未挂载的nvme磁盘。因此在首次配置环境前，需要完成磁盘合并挂载。此操作需要放在最开始完成，避免使用一段时间后再挂载会冲掉用户已存储的内容。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

计算出来的。计算公式是有假设的：总线带宽 = 算法带宽 * 2 ( N-1 ) / N ，算法带宽 = 数据量 / 时间但是这个计算公式的前提是用Ring算法，Tree算法的总线带宽不可以这么计算。如果Tree算法算出来的总线带宽相当于是相对Ring算法的性能加速。算法计

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
使用GPU A系列裸金属服务器有哪些注意事项？ - AI开发平台ModelArts

使用GPU A系列裸金属服务器有哪些注意事项？使用华为云A系列裸金属服务器时有如下注意事项： nvidia-fabricmanager版本号必须和nvidia-driver版本号保持一致，可参考安装nvidia-fabricmanager方法。 NCCL必须和CUDA版本相匹配，可单击此处可查看配套关系和安装方法。

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
使用预置AI算法部署在线服务报错gunicorn：error：unrecorgized arguments - AI开发平台ModelArts

根据报错日志分析，模型目录下存在多余文件“/home/mind/model/v0432/cdn_short.pt”。处理方法在模型目录中删除“/home/mind/model/v0432/cdn_short.pt”文件，重新导入模型后进行部署在线服务即可正常预测。父主题：服务部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
查看Lite Server服务器详情 - AI开发平台ModelArts

Server服务器创建时绑定的虚拟私有云，单击链接可跳转到虚拟私有云详情页。裸金属服务器 Lite Server服务器为一台裸金属服务器，单击链接可跳转至对应弹性裸金属服务器的详情页。镜像 Lite Server服务器的镜像。创建时间 Lite Server服务器的创建时间。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
ECS服务器挂载SFS Turbo存储 - AI开发平台ModelArts

上传数据和算法至OBS（首次使用时需要）。 ECS服务器和SFS的共享硬盘在相同的VPC或者对应VPC能够互联。 ECS服务器基础镜像需要用Ubuntu 18.04的。 ECS服务器和SFS Turbo需要在同一子网中。操作步骤在ECS服务器中设置华为云镜像源。 sudo sed

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置
GPU A系列裸金属服务器如何更换NVIDIA和CUDA？ - AI开发平台ModelArts

GPU A系列裸金属服务器如何更换NVIDIA和CUDA？场景描述当裸金属服务器预置的NVIDIA版本和业务需求不匹配时，需要更换NVIDIA驱动和CUDA版本。本文介绍华为云A系列GPU裸金属服务器（Ubuntu20.04系统）如何从“NVIDIA 525+CUDA 12.0”更换为“NVIDIA

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
上传数据和算法至SFS（首次使用时需要） - AI开发平台ModelArts

上传数据和算法至SFS（首次使用时需要）前提条件 ECS服务器已挂载SFS，请参考ECS服务器挂载SFS Turbo存储。在ECS中已经创建ma-user和ma-group用户，请参考在ECS中创建ma-user和ma-group。已经安装obsutil，请参考下载和安装obsutil。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机多卡
切换Lite Server服务器操作系统 - AI开发平台ModelArts

切换Lite Server服务器操作系统场景描述 Lite Server为一台弹性裸金属服务器，您可以使用BMS服务提供的切换操作系统功能，对Lite Server资源操作系统进行切换。本文介绍以下三种切换操作系统的方式：在BMS控制台切换操作系统使用BMS Go SDK的方式切换操作系统

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
GPU裸金属服务器无法Ping通如何解决 - AI开发平台ModelArts

GPU裸金属服务器无法Ping通如何解决问题现象在华为云使用GPU裸金属服务器时，服务器绑定EIP（华为云弹性IP服务）后，出现无法ping通弹性公网IP现象。原因分析查看当前GPU裸金属服务器的安全组的入方向规则的配置，发现仅开通了TCP协议的22端口。 ping命令

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
同步Lite Server服务器状态 - AI开发平台ModelArts

同步Lite Server服务器状态 Lite Server为一台弹性裸金属服务器，当用户在云服务器页面修改了裸金属服务器状态后，您可通过“同步”功能，同步其状态至ModelArts。登录ModelArts管理控制台。在左侧导航栏中，选择“AI专属资源池 > 弹性节点 Server”，进入“节点”列表页面。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
查看诊断报告 - AI开发平台ModelArts

下图展示了低优先级的通信带宽抢占问题，大部分场景中通信计算互相掩盖是有较大训练性能收益的，可以通过修改overlap或其他相关参数来测试是否存在性能提升。图21 通信带宽抢占分析 Packet Analysis 下图展示了低优先级的通信小包问题，html中提示SDMA（机内通信）带宽相对较小，

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
Lite Server - AI开发平台ModelArts
Lite Server - AI开发平台ModelArts

Lite Server GPU A系列裸金属服务器如何进行RoCE性能带宽测试？ GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？如何将Ubuntu20.04内核版本从低版本升级至5.4.0-144-generic？如何禁止Ubuntu 20.04内核自动升级？

帮助中心 > AI开发平台ModelArts > 常见问题
启动或停止Lite Server服务器 - AI开发平台ModelArts

启动或停止Lite Server服务器当您暂时不需要使用弹性节点Server的时候，可以通过对运行中的裸金属实例进行停止操作，停止对资源的消耗。当需要使用的时候，对于停止状态的弹性节点Server，可以通过启动操作重新使用弹性节点Server。登录ModelArts管理控制台。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 - AI开发平台ModelArts

华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案问题现象创建出3台GPU裸金属服务器，使用A节点制作镜像，用于在CCE纳管裸金属服务器时，使用该镜像，但是纳管后发现服务器A纳管失败，剩下两台服务器纳管成功。原因分析在CCE纳管过程中，需要通过cloudinit

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server

总条数： 1505

上一页
1
2
3
4
5
...
76
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

GPU A系列裸金属服务器如何进行RoCE性能带宽测试？ - AI开发平台ModelArts

GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

哪里可以了解Atlas800训练服务器硬件相关内容 - AI开发平台ModelArts

（可选）本地服务器安装ModelArts SDK - AI开发平台ModelArts

NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

使用GPU A系列裸金属服务器有哪些注意事项？ - AI开发平台ModelArts

使用预置AI算法部署在线服务报错gunicorn：error：unrecorgized arguments - AI开发平台ModelArts

查看Lite Server服务器详情 - AI开发平台ModelArts

ECS服务器挂载SFS Turbo存储 - AI开发平台ModelArts

GPU A系列裸金属服务器如何更换NVIDIA和CUDA？ - AI开发平台ModelArts

上传数据和算法至SFS（首次使用时需要） - AI开发平台ModelArts

切换Lite Server服务器操作系统 - AI开发平台ModelArts

GPU裸金属服务器无法Ping通如何解决 - AI开发平台ModelArts

同步Lite Server服务器状态 - AI开发平台ModelArts

查看诊断报告 - AI开发平台ModelArts

Lite Server - AI开发平台ModelArts

启动或停止Lite Server服务器 - AI开发平台ModelArts

华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线