搜索_华为云

NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

myhuaweicloud.com/atelier/<image-name>:<image-tag> 启动容器镜像，注意多人多容器共用机器时，需要将卡号做好预先分配，不能使用其他容器已使用的卡号。 # 启动容器，请注意指定容器名称、镜像信息。ASCEND_VISIBLE_DEVICES指定容器要用的卡，0-1

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
切换Lite Server服务器操作系统 - AI开发平台ModelArts

切换Lite Server服务器操作系统场景描述 Lite Server为一台弹性裸金属服务器，您可以使用BMS服务提供的切换操作系统功能，对Lite Server资源操作系统进行切换。本文介绍以下三种切换操作系统的方式：在BMS控制台切换操作系统使用BMS Go SDK的方式切换操作系统

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
服务部署 - AI开发平台ModelArts
服务部署 - AI开发平台ModelArts

自定义镜像模型部署为在线服务时出现异常部署的在线服务状态为告警服务启动失败服务部署、启动、升级和修改时，拉取镜像失败如何处理？服务部署、启动、升级和修改时，镜像不断重启如何处理？服务部署、启动、升级和修改时，容器健康检查失败如何处理？服务部署、启动、升级和修改时，资源不足如何处理？模型使用CV2包部署在线服务报错

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署
GPU A系列裸金属服务器如何更换NVIDIA和CUDA？ - AI开发平台ModelArts

GPU A系列裸金属服务器如何更换NVIDIA和CUDA？场景描述当裸金属服务器预置的NVIDIA版本和业务需求不匹配时，需要更换NVIDIA驱动和CUDA版本。本文介绍华为云A系列GPU裸金属服务器（Ubuntu20.04系统）如何从“NVIDIA 525+CUDA 12.0”更换为“NVIDIA

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
预置框架启动文件的启动流程说明 - AI开发平台ModelArts

Standard平台会自动运行训练任务的启动文件；启动文件的运行次数取决于训练卡数。单机作业时，每个任务内运行N次启动文件；N为任务的卡数；例如单机1卡，则worker-0任务的启动文件会被运行1次；单机8卡，worker-0任务的启动文件会被运行8次。因此需要避免在启动文件中进行端口监听。启动文件会被设置如下环境变量：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
哪里可以了解Atlas800训练服务器硬件相关内容 - AI开发平台ModelArts

哪里可以了解Atlas800训练服务器硬件相关内容场景描述本文提供Atlas800训练服务器硬件相关指南，包括三维视图、备件信息、HCCL常用方法以及网卡配置信息。 Atlas 800训练服务器三维视图 Atlas 800 训练服务器（型号9000）是基于华为鲲鹏920+Sn

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
GPU裸金属服务器使用EulerOS内核误升级如何解决 - AI开发平台ModelArts

GPU裸金属服务器使用EulerOS内核误升级如何解决问题现象 GP Vnt1裸金属服务器，操作系统为EulerOS 2.9(基于CentOS制作的Linux发行版)，经常遇到服务器重启后，操作系统内核无故升级，导致系统上原安装的nvidia-driver等软件无法使用，只能卸载重新安装。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
启动Notebook实例 - AI开发平台ModelArts

CREATING：创建中 STARTING：启动中 STOPPING：停止中 DELETING：删除中 RUNNING：运行中 STOPPED：已停止 SNAPSHOTTING：快照中(保存镜像时的状态) CREATE_FAILED：创建失败 START_FAILED：启动失败 DELETE_FAILED：删除失败

 帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

GPU A系列裸金属服务器RoCE带宽不足如何解决？问题现象 GP Ant8支持RoCE网卡， Ubuntu20.04场景，在进行nccl-tests时，总线带宽理论峰值可达90GB/s，但实际测试下来的结果只有35GB/s。原因分析 “nv_peer_mem”是一个Linu

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML 问题现象华为云裸金属服务器，NVIDIA驱动卸载后重新安装。（1）已卸载原有版本NVIDIA驱动和CUDA版本，且已安装新版本的NVIDIA驱动和CUDA版本

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
为什么无法启动训练？ - AI开发平台ModelArts

为什么无法启动训练？如果启动脚本选择了不属于本工程的代码，则无法启动训练，错误信息如下图所示。建议将启动脚本添加至本工程，或者是打开启动脚本所在工程后，再启动训练作业。图1 错误信息父主题： PyCharm Toolkit使用

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > PyCharm Toolkit使用
使用SSH工具连接Notebook，服务器的进程被清理了，GPU使用率显示还是100% - AI开发平台ModelArts

使用SSH工具连接Notebook，服务器的进程被清理了，GPU使用率显示还是100% 原因是代码运行卡死导致被进程清理，GPU显存没有释放；或者代码运行过程中内存溢出导致程序被清理，需要释放下显存，清理GPU，然后重新启动。为了避免进程结束引起的代码未保存，建议您每隔一段时间保存下代码输出至OBS桶或者容器

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > Notebook实例常见错误
使用GPU A系列裸金属服务器有哪些注意事项？ - AI开发平台ModelArts

使用GPU A系列裸金属服务器有哪些注意事项？使用华为云A系列裸金属服务器时有如下注意事项： nvidia-fabricmanager版本号必须和nvidia-driver版本号保持一致，可参考安装nvidia-fabricmanag方法。 NCCL必须和CUDA版本相匹配，可单击此处可查看配套关系和安装方法。

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
tensorboard显示502 bad gateway - AI开发平台ModelArts

问题现象启动tensorboard后，打开tensorboard提示502 bad gateway，或者偶现502 bad gateway。原因分析出现该问题的可能原因如下: 启动tensorboard对应的summary目录错误，导致tensorboard启动失败。启动t

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
启动停止边缘节点服务实例 - AI开发平台ModelArts

启动停止边缘节点服务实例功能介绍启动停止边缘节点服务实例。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI PUT /v1/{project_id}/servic

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
GPU A系列裸金属服务器没有任务但GPU被占用如何解决 - AI开发平台ModelArts

GPU A系列裸金属服务器没有任务但GPU被占用如何解决问题现象服务器没有任务，但GPU显示被占用。图1 显卡运行状态处理方法 nvidia-smi -pm 1 父主题： Lite Server

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

ssh 上传公钥到服务器。例如用户名为root，服务器地址为192.168.222.213，则将公钥上传至服务器的命令如下： ssh-copy-id -i ~/.ssh/id_rsa.pub root@192.168.222.213 通过如下命令可以看到客户端写入到服务器的id_rsa

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
GPU A系列裸金属服务器如何进行RoCE性能带宽测试？ - AI开发平台ModelArts

A系列裸金属服务器如何进行RoCE性能带宽测试？场景描述本文主要指导如何在GPU A系列裸金属服务器上测试RoCE性能带宽。前提条件 GPU A系列裸金属服务器已经安装了IB驱动。（网卡设备名称可以使用ibstatus或者ibstat获取。华为云Ant8裸金属服务器使用Ubuntu20

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
服务部署失败，报错No Module named XXX - AI开发平台ModelArts

服务部署失败，报错No Module named XXX 问题现象服务部署失败，报错：No Module named XXX 原因分析 No Module named XXX，表示模型中没有导入对应依赖模块。处理方法依赖模块没有导入，需要您在模型推理代码中导入缺失依赖模块。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 - AI开发平台ModelArts

service会优先读取网卡配置文件中的IP设置为主机IP，此时无论DH Cient是否关闭，服务器都可以获取分配IP。当服务器没有网卡配置文件时，DH Client开启，此时服务器会分配私有IP。如果关闭DH Client，则服务器无法获取私有IP。图2 查看NetworkManager配置图3 查看网络配置

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server

总条数： 1335

上一页
1
2
3
4
5
...
67
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

切换Lite Server服务器操作系统 - AI开发平台ModelArts

服务部署 - AI开发平台ModelArts

GPU A系列裸金属服务器如何更换NVIDIA和CUDA？ - AI开发平台ModelArts

预置框架启动文件的启动流程说明 - AI开发平台ModelArts

哪里可以了解Atlas800训练服务器硬件相关内容 - AI开发平台ModelArts

GPU裸金属服务器使用EulerOS内核误升级如何解决 - AI开发平台ModelArts

启动Notebook实例 - AI开发平台ModelArts

GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

为什么无法启动训练？ - AI开发平台ModelArts

使用SSH工具连接Notebook，服务器的进程被清理了，GPU使用率显示还是100% - AI开发平台ModelArts

使用GPU A系列裸金属服务器有哪些注意事项？ - AI开发平台ModelArts

tensorboard显示502 bad gateway - AI开发平台ModelArts

启动停止边缘节点服务实例 - AI开发平台ModelArts

GPU A系列裸金属服务器没有任务但GPU被占用如何解决 - AI开发平台ModelArts

GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

GPU A系列裸金属服务器如何进行RoCE性能带宽测试？ - AI开发平台ModelArts

服务部署失败，报错No Module named XXX - AI开发平台ModelArts

裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线