检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ECS获取和上传基础镜像 Step1 创建镜像组织 在SWR服务页面创建镜像组织。 图1 创建镜像组织 Step2 登录ECS服务器 根据创建ECS服务器创建完成ECS服务器后,单击“远程登录”,可使用华为CloudShell远程登录如图所示。后续安装Docker、获取镜像、构建镜像等操作均在该ECS上进行。
启动或停止Lite Server服务器 当您暂时不需要使用弹性节点Server的时候,可以通过对运行中的裸金属实例进行停止操作,停止对资源的消耗。当需要使用的时候,对于停止状态的弹性节点Server,可以通过启动操作重新使用弹性节点Server。 登录ModelArts管理控制台。
(可选)本地服务器安装ModelArts SDK 如果需要在个人PC或虚拟机上使用ModelArts SDK,则需要在本地环境中安装ModelArts SDK,安装后可直接调用ModelArts SDK轻松管理数据集、创建ModelArts训练作业及创建AI应用,并将其部署为在线服务。
据和算法至OBS(首次使用时需要)。 ECS服务器和SFS的共享硬盘在相同的VPC或者对应VPC能够互联。 ECS服务器基础镜像需要用Ubuntu 18.04的。 ECS服务器和SFS Turbo需要在同一子网中。 操作步骤 在ECS服务器中设置华为云镜像源。 sudo sed -i
FTP服务上传和下载文件。 SSH 22 远程连接Linux弹性云服务器。 Telnet 23 使用Telnet协议访问网站。 SMTP 25 SMTP服务器所开放的端口,用于发送邮件。 基于安全考虑,TCP 25端口出方向默认被封禁,申请解封请参考TCP 25端口出方向无法访问时怎么办?。 HTTP
TMOUT=0这个命令在SSH连接Linux服务器时的作用是设置会话的空闲超时时间为0,意味着不会因为空闲而自动断开连接。默认情况下,SSH连接可能会在一段时间没有操作后自动断开,这是为了安全考虑。但是,如果您正在进行需要长时间保持连接的任务,可以使用这个命令来防止连接因为空闲而断开。您可
重启可视化作业 功能介绍 重启可视化作业。此接口为异步接口,作业状态请通过查询可视化作业列表与查询可视化作业详情接口获取。 URI POST /v1/{project_id}/visualization-jobs/{job_id}/restart 参数说明如表1所示。 表1 参数说明
切换Lite Server服务器操作系统 场景描述 Lite Server为一台弹性裸金属服务器,您可以使用BMS服务提供的切换操作系统功能,对Lite Server资源操作系统进行切换。本文介绍以下三种切换操作系统的方式: 在BMS控制台切换操作系统 使用BMS Go SDK的方式切换操作系统
会生效。 此时如果重启那么内核版本就被升级了。 处理方法 下文中假设当前服务器的内核版本是为4.18.0-147.5.1.6.h934.eulerosv2r9.x86_64,介绍如何避免操作系统内核自动升级。 操作系统内核升级生效,必然需要服务器重启, 因此重启reboot前需要查看当前默认选择的内核版本:
service会优先读取网卡配置文件中的IP设置为主机IP, 此时无论DH Cient是否关闭,服务器都可以获取分配IP。 当服务器没有网卡配置文件时,DH Client开启,此时服务器会分配私有IP。如果关闭DH Client,则服务器无法获取私有IP。 图2 查看NetworkManager配置 图3 查看网络配置
GPU A系列裸金属服务器无法获取显卡如何解决 问题现象 在A系列裸金属服务器上使用PyTorch一段时间后,出现获取显卡失败的现象,报错如下: > torch.cuda.is_available() /usr/local/lib/python3.8/dist-packages/torch/cuda/__init__
VS Code连接远端Notebook时报错“XHR failed” 问题现象 VS Code连接远端Notebook时报错“XHR failed”。 原因分析 可能是所在环境的网络有问题,无法自动下载VS Code Server,请手动安装。 解决方法 打开VS Code,选择
GPU A系列裸金属服务器如何更换NVIDIA和CUDA? 场景描述 当裸金属服务器预置的NVIDIA版本和业务需求不匹配时,需要更换NVIDIA驱动和CUDA版本。本文介绍华为云A系列GPU裸金属服务器(Ubuntu20.04系统)如何从“NVIDIA 525+CUDA 12.0”更换为“NVIDIA
服务部署、启动、升级和修改时,镜像不断重启如何处理? 问题现象 服务部署、启动、升级和修改时,镜像不断重启。 原因分析 容器镜像代码错误 解决方法 根据容器日志进行排查,修复代码,重新创建模型,部署服务。 父主题: 服务部署
ssh 上传公钥到服务器。 例如用户名为root,服务器地址为192.168.222.213,则将公钥上传至服务器的命令如下: ssh-copy-id -i ~/.ssh/id_rsa.pub root@192.168.222.213 通过如下命令可以看到客户端写入到服务器的id_rsa
哪里可以了解Atlas800训练服务器硬件相关内容 场景描述 本文提供Atlas800训练服务器硬件相关指南,包括三维视图、备件信息、HCCL常用方法以及网卡配置信息。 Atlas 800训练服务器三维视图 Atlas 800 训练服务器(型号9000)是基于华为鲲鹏920+Sn
使用SSH连接,报错“Connection reset”如何解决? 问题现象 原因分析 可能是用户网络限制原因。比如部分企业网络的SSH是默认屏蔽的。 解决方法 用户重新进行申请SSH权限。 父主题: VS Code连接开发环境失败故障处理
A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法? 场景描述 本文指导如何进行节点内NVLINK带宽性能测试,适用的环境为:Ant8或者Ant1 GPU裸金属服务器, 且服务器中已经安装相关GPU驱动软件,以及Pytorch2.0。 GPU A系列裸金属服务器,单台服务
在创建训练作业页面,开启“自动重启”开关,并勾选“无条件自动重启”,开启无条件自动重启。开启无条件自动重启后,只要系统检测到训练异常,就无条件重启训练作业。如果未勾选“无条件自动重启”只是打开了“自动重启”开关,则表示仅环境问题导致训练作业异常时才会自动重启,其他问题导致训练作业异常时会直接返回“运行失败”。
批量重启节点 功能介绍 批量重启指定资源池中的节点 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI POST /v2/{project_id}/pools/{pool