搜索_华为云

（可选）本地服务器安装ModelArts SDK - AI开发平台ModelArts

n**\Scripts”。配置pip源。以Windows环境为例，配置pip源方法如下：新建pip文件夹。启动cmd，输入set命令，查看APPDATA路径。并在APPDATA对应路径下创建pip文件夹。文件内容示例如下： C:\Users\xxx>set ALLUSERSP

帮助中心 > AI开发平台ModelArts > SDK参考
查看Lite Server服务器详情 - AI开发平台ModelArts

查看Lite Server服务器详情在您创建了Lite Server服务器后，可以通过管理控制台查看和管理您的Lite Server服务器。本节介绍如何查看Lite Server服务器的详细信息，包括名称/ID、规格、镜像等信息。在弹性节点Server的节点列表页中，可以查看

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

Server算力资源和镜像版本配套关系章节查看已安装的软件。下面为常见的软件安装步骤，您可针对需要安装的软件查看对应的内容：安装NVIDIA驱动安装CUDA驱动安装Docker 安装nvidia-fabricmanager 以下提供常见的配置场景，您可查看相关文档方便您快速配置： GP

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

件驱动安装。图4 检查npu-smi工具查看环境信息。执行如下命令查看当前拿到的机器的固件和驱动版本。 npu-smi info -t board -i 1 | egrep -i "software|firmware" 图5 查看固件和驱动版本其中firmware代表固件版本，software代表驱动版本。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
同步Lite Server服务器状态 - AI开发平台ModelArts

同步Lite Server服务器状态 Lite Server为一台弹性裸金属服务器，当用户在云服务器页面修改了裸金属服务器状态后，您可通过“同步”功能，同步其状态至ModelArts。登录ModelArts管理控制台。在左侧导航栏中，选择“AI专属资源池 > 弹性节点 Server”，进入“节点”列表页面。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
哪里可以了解Atlas800训练服务器硬件相关内容 - AI开发平台ModelArts

Atlas 800训练服务器备件查询助手备件查询助手可以帮助您查询服务器的所有部件、规格描述，数量等详细信息。打开网站后请输入SN编码“2102313LNR10P5100077”，若失效可以提工单至华为云ModelArts查询。 Atlas 800训练服务器的网卡配置问题

 帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
启动或停止Lite Server服务器 - AI开发平台ModelArts

启动或停止Lite Server服务器当您暂时不需要使用弹性节点Server的时候，可以通过对运行中的裸金属实例进行停止操作，停止对资源的消耗。当需要使用的时候，对于停止状态的弹性节点Server，可以通过启动操作重新使用弹性节点Server。登录ModelArts管理控制台。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
GPU裸金属服务器无法Ping通如何解决 - AI开发平台ModelArts

GPU裸金属服务器无法Ping通如何解决问题现象在华为云使用GPU裸金属服务器时，服务器绑定EIP（华为云弹性IP服务）后，出现无法ping通弹性公网IP现象。原因分析查看当前GPU裸金属服务器的安全组的入方向规则的配置，发现仅开通了TCP协议的22端口。 ping命令是一种基于ICMP协议（Internet

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
切换Lite Server服务器操作系统 - AI开发平台ModelArts

切换Lite Server服务器操作系统场景描述 Lite Server为一台弹性裸金属服务器，您可以使用BMS服务提供的切换操作系统功能，对Lite Server资源操作系统进行切换。本文介绍以下三种切换操作系统的方式：在BMS控制台切换操作系统使用BMS Go SDK的方式切换操作系统

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
创建模型成功后，部署服务报错，如何排查代码问题 - AI开发平台ModelArts

很多自定义的业务逻辑，这些逻辑有问题将会导致服务部署或者预测失败，需要能够排查出哪里有问题。处理方法服务部署失败后，进入服务详情界面，查看服务部署日志，明确服务部署失败原因（用户代码输出需要使用标准输入输出函数，否则输出的内容不会呈现到前端页面日志）。根据日志中提示的报错信息找到对应的代码进行定位。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
使用GPU A系列裸金属服务器有哪些注意事项？ - AI开发平台ModelArts

ia-driver版本号保持一致，可参考安装nvidia-fabricmanager方法。 NCCL必须和CUDA版本相匹配，可单击此处可查看配套关系和安装方法。使用该裸金属服务器制作自定义镜像时，必须清除残留文件，请参考清理文件。父主题： Lite Server

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 - AI开发平台ModelArts

当服务器没有网卡配置文件时，DH Client开启，此时服务器会分配私有IP。如果关闭DH Client，则服务器无法获取私有IP。图2 查看NetworkManager配置图3 查看网络配置命令“yum update -y”或“yum update NetworkManagre-config-s

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
在Linux上安装配置Grafana - AI开发平台ModelArts

在Linux上安装配置Grafana 适用场景本章节适用于在Linux操作系统的PC中安装配置Grafana。前提条件一台可访问外网的Ubuntu服务器。如果没有请具备以下条件：准备一台ECS服务器（建议规格选8U或者以上，镜像选择Ubuntu，建议选择22.04版本，本

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标 > 安装配置Grafana
GPU A系列裸金属服务器如何更换NVIDIA和CUDA？ - AI开发平台ModelArts

0”更换为“NVIDIA 515+CUDA 11.7”。操作步骤卸载原有版本的NVIDIA和CUDA。查看使用apt包管理方式安装的nvidia软件包，执行如下命令实现查看和卸载。 dpkg -l | grep nvidia dpkg -l | grep cuda sudo apt-get

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
服务管理权限 - AI开发平台ModelArts

ces modelarts:service:create - √ √ 查询模型服务列表 GET /v1/{project_id}/services modelarts:service:list - √ √ 查询模型服务详情 GET /v1/{project_id}/services/{service_id}

帮助中心 > AI开发平台ModelArts > API参考 > 权限策略和授权项
GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

initialize NVML: Driver/library version mismatch 处理方法执行命令：lsmod | grep nvidia，查看内核中是否残留旧版nvidia，显示如下： nvidia_uvm 634880 8 nvidia_drm

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

Pytorch2.0。 GPU A系列裸金属服务器，单台服务器GPU间是走NVLINK，可以通过相关命令查询GPU拓扑模式： nvidia-smi topo -m 图1 查询GPU拓扑模式操作步骤使用以下脚本测得GPU服务器内NVLINK带宽性能。 import torch import

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

但是达不到预期，可能是nv_peer_mem异常。处理方法查看nv_peer_mem是否已安装。 dpkg -i | grep peer 如果未安装则需要安装，安装方法参考装机指导。如果已安装则进入下一检测项。查看该软件是否已经加载至内核。 lsmod | grep peer

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
ECS服务器挂载SFS Turbo存储 - AI开发平台ModelArts

ECS服务器挂载SFS Turbo存储本小节介绍如何在ECS服务器挂载SFS Turbo存储，挂载完成后可在后续步骤中，将训练所需的数据通过ECS上传至SFS Turbo。前提条件已创建SFS Turbo，如果未创建，请参考创建文件系统。数据及算法已经上传至OBS，如果未

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置
华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 - AI开发平台ModelArts

userdata机制拉取cce-agent，但是在服务器上查看没有拉cce-agent的动作，理论上该动作是cloudinit中的脚本在创建时自动执行的，可能是由于安装脚本没有注入userdata或者注入了但未执行。经查看是由于userdata未执行，可能原因为服务器A制作镜像时没有清理残留目录导致，即：

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server

总条数： 1345

上一页
1
2
3
4
5
...
68
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

（可选）本地服务器安装ModelArts SDK - AI开发平台ModelArts

查看Lite Server服务器详情 - AI开发平台ModelArts

GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

同步Lite Server服务器状态 - AI开发平台ModelArts

哪里可以了解Atlas800训练服务器硬件相关内容 - AI开发平台ModelArts

启动或停止Lite Server服务器 - AI开发平台ModelArts

GPU裸金属服务器无法Ping通如何解决 - AI开发平台ModelArts

切换Lite Server服务器操作系统 - AI开发平台ModelArts

创建模型成功后，部署服务报错，如何排查代码问题 - AI开发平台ModelArts

使用GPU A系列裸金属服务器有哪些注意事项？ - AI开发平台ModelArts

裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 - AI开发平台ModelArts

在Linux上安装配置Grafana - AI开发平台ModelArts

GPU A系列裸金属服务器如何更换NVIDIA和CUDA？ - AI开发平台ModelArts

服务管理权限 - AI开发平台ModelArts

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

ECS服务器挂载SFS Turbo存储 - AI开发平台ModelArts

华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线