搜索_华为云

ECS获取和上传基础镜像 - AI开发平台ModelArts

ECS获取和上传基础镜像 Step1 创建镜像组织在SWR服务页面创建镜像组织。图1 创建镜像组织 Step2 登录ECS服务器根据创建ECS服务器创建完成ECS服务器后，单击“远程登录”，可使用华为CloudShell远程登录如图所示。后续安装Docker、获取镜像、构建镜像等操作均在该ECS上进行。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作 > 准备镜像
启动或停止Lite Server服务器 - AI开发平台ModelArts

启动或停止Lite Server服务器当您暂时不需要使用弹性节点Server的时候，可以通过对运行中的裸金属实例进行停止操作，停止对资源的消耗。当需要使用的时候，对于停止状态的弹性节点Server，可以通过启动操作重新使用弹性节点Server。登录ModelArts管理控制台。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
（可选）本地服务器安装ModelArts SDK - AI开发平台ModelArts

（可选）本地服务器安装ModelArts SDK 如果需要在个人PC或虚拟机上使用ModelArts SDK，则需要在本地环境中安装ModelArts SDK，安装后可直接调用ModelArts SDK轻松管理数据集、创建ModelArts训练作业及创建AI应用，并将其部署为在线服务。

帮助中心 > AI开发平台ModelArts > SDK参考
ECS服务器挂载SFS Turbo存储 - AI开发平台ModelArts

据和算法至OBS（首次使用时需要）。 ECS服务器和SFS的共享硬盘在相同的VPC或者对应VPC能够互联。 ECS服务器基础镜像需要用Ubuntu 18.04的。 ECS服务器和SFS Turbo需要在同一子网中。操作步骤在ECS服务器中设置华为云镜像源。 sudo sed -i

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置
GPU裸金属服务器无法Ping通如何解决 - AI开发平台ModelArts

FTP服务上传和下载文件。 SSH 22 远程连接Linux弹性云服务器。 Telnet 23 使用Telnet协议访问网站。 SMTP 25 SMTP服务器所开放的端口，用于发送邮件。基于安全考虑，TCP 25端口出方向默认被封禁，申请解封请参考TCP 25端口出方向无法访问时怎么办？。 HTTP

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

TMOUT=0这个命令在SSH连接Linux服务器时的作用是设置会话的空闲超时时间为0，意味着不会因为空闲而自动断开连接。默认情况下，SSH连接可能会在一段时间没有操作后自动断开，这是为了安全考虑。但是，如果您正在进行需要长时间保持连接的任务，可以使用这个命令来防止连接因为空闲而断开。您可

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
重启可视化作业 - AI开发平台ModelArts

重启可视化作业功能介绍重启可视化作业。此接口为异步接口，作业状态请通过查询可视化作业列表与查询可视化作业详情接口获取。 URI POST /v1/{project_id}/visualization-jobs/{job_id}/restart 参数说明如表1所示。表1 参数说明

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 可视化作业
切换Lite Server服务器操作系统 - AI开发平台ModelArts

切换Lite Server服务器操作系统场景描述 Lite Server为一台弹性裸金属服务器，您可以使用BMS服务提供的切换操作系统功能，对Lite Server资源操作系统进行切换。本文介绍以下三种切换操作系统的方式：在BMS控制台切换操作系统使用BMS Go SDK的方式切换操作系统

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
GPU裸金属服务器使用EulerOS内核误升级如何解决 - AI开发平台ModelArts

会生效。此时如果重启那么内核版本就被升级了。处理方法下文中假设当前服务器的内核版本是为4.18.0-147.5.1.6.h934.eulerosv2r9.x86_64，介绍如何避免操作系统内核自动升级。操作系统内核升级生效，必然需要服务器重启，因此重启reboot前需要查看当前默认选择的内核版本：

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 - AI开发平台ModelArts

service会优先读取网卡配置文件中的IP设置为主机IP，此时无论DH Cient是否关闭，服务器都可以获取分配IP。当服务器没有网卡配置文件时，DH Client开启，此时服务器会分配私有IP。如果关闭DH Client，则服务器无法获取私有IP。图2 查看NetworkManager配置图3 查看网络配置

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决问题现象在A系列裸金属服务器上使用PyTorch一段时间后，出现获取显卡失败的现象，报错如下： > torch.cuda.is_available() /usr/local/lib/python3.8/dist-packages/torch/cuda/__init__

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
VS Code连接远端Notebook时报错“XHR failed” - AI开发平台ModelArts

VS Code连接远端Notebook时报错“XHR failed” 问题现象 VS Code连接远端Notebook时报错“XHR failed”。原因分析可能是所在环境的网络有问题，无法自动下载VS Code Server，请手动安装。解决方法打开VS Code，选择

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
GPU A系列裸金属服务器如何更换NVIDIA和CUDA？ - AI开发平台ModelArts

GPU A系列裸金属服务器如何更换NVIDIA和CUDA？场景描述当裸金属服务器预置的NVIDIA版本和业务需求不匹配时，需要更换NVIDIA驱动和CUDA版本。本文介绍华为云A系列GPU裸金属服务器（Ubuntu20.04系统）如何从“NVIDIA 525+CUDA 12.0”更换为“NVIDIA

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
服务部署、启动、升级和修改时，镜像不断重启如何处理？ - AI开发平台ModelArts

服务部署、启动、升级和修改时，镜像不断重启如何处理？问题现象服务部署、启动、升级和修改时，镜像不断重启。原因分析容器镜像代码错误解决方法根据容器日志进行排查，修复代码，重新创建模型，部署服务。父主题：服务部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

ssh 上传公钥到服务器。例如用户名为root，服务器地址为192.168.222.213，则将公钥上传至服务器的命令如下： ssh-copy-id -i ~/.ssh/id_rsa.pub root@192.168.222.213 通过如下命令可以看到客户端写入到服务器的id_rsa

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
哪里可以了解Atlas800训练服务器硬件相关内容 - AI开发平台ModelArts

哪里可以了解Atlas800训练服务器硬件相关内容场景描述本文提供Atlas800训练服务器硬件相关指南，包括三维视图、备件信息、HCCL常用方法以及网卡配置信息。 Atlas 800训练服务器三维视图 Atlas 800 训练服务器（型号9000）是基于华为鲲鹏920+Sn

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
使用SSH连接，报错“Connection reset”如何解决？ - AI开发平台ModelArts

使用SSH连接，报错“Connection reset”如何解决？问题现象原因分析可能是用户网络限制原因。比如部分企业网络的SSH是默认屏蔽的。解决方法用户重新进行申请SSH权限。父主题： VS Code连接开发环境失败故障处理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？场景描述本文指导如何进行节点内NVLINK带宽性能测试，适用的环境为：Ant8或者Ant1 GPU裸金属服务器，且服务器中已经安装相关GPU驱动软件，以及Pytorch2.0。 GPU A系列裸金属服务器，单台服务

 帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
设置无条件自动重启 - AI开发平台ModelArts

在创建训练作业页面，开启“自动重启”开关，并勾选“无条件自动重启”，开启无条件自动重启。开启无条件自动重启后，只要系统检测到训练异常，就无条件重启训练作业。如果未勾选“无条件自动重启”只是打开了“自动重启”开关，则表示仅环境问题导致训练作业异常时才会自动重启，其他问题导致训练作业异常时会直接返回“运行失败”。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
批量重启节点 - AI开发平台ModelArts

批量重启节点功能介绍批量重启指定资源池中的节点调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI POST /v2/{project_id}/pools/{pool

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理

总条数： 2122

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

ECS获取和上传基础镜像 - AI开发平台ModelArts

启动或停止Lite Server服务器 - AI开发平台ModelArts

（可选）本地服务器安装ModelArts SDK - AI开发平台ModelArts

ECS服务器挂载SFS Turbo存储 - AI开发平台ModelArts

GPU裸金属服务器无法Ping通如何解决 - AI开发平台ModelArts

NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

重启可视化作业 - AI开发平台ModelArts

切换Lite Server服务器操作系统 - AI开发平台ModelArts

GPU裸金属服务器使用EulerOS内核误升级如何解决 - AI开发平台ModelArts

裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

VS Code连接远端Notebook时报错“XHR failed” - AI开发平台ModelArts

GPU A系列裸金属服务器如何更换NVIDIA和CUDA？ - AI开发平台ModelArts

服务部署、启动、升级和修改时，镜像不断重启如何处理？ - AI开发平台ModelArts

GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

哪里可以了解Atlas800训练服务器硬件相关内容 - AI开发平台ModelArts

使用SSH连接，报错“Connection reset”如何解决？ - AI开发平台ModelArts

GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

设置无条件自动重启 - AI开发平台ModelArts

批量重启节点 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线