检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在ModelArts的Notebook中如何获取本机外网IP? 本机的外网IP地址可以在主流搜索引擎中搜索“IP地址查询”获取。 图1 查询外网IP地址 父主题: Standard Notebook
查看Lite Server服务器详情 在您创建了Lite Server服务器后,可以通过管理控制台查看和管理您的Lite Server服务器。本节介绍如何查看Lite Server服务器的详细信息,包括名称/ID、规格、镜像等信息。 在弹性节点Server的节点列表页中,可以查看
新建服务、存量服务停止后再启动、存量服务失败后再启动,会立即切换使用新域名。为保障持续提供推理服务,请您及时更新业务中的预测API的域名。 如果您使用的是VPC内部节点访问ModelArts推理的在线服务,预测API切换域名后,由于内网VPC无法识别公网域名,请提交工单联系华为云技术支持打通网络。 父主题:
处理方法 服务部署失败后,进入服务详情界面,查看服务部署日志,明确服务部署失败原因(用户代码输出需要使用标准输入输出函数,否则输出的内容不会呈现到前端页面日志)。根据日志中提示的报错信息找到对应的代码进行定位。 如果模型启动失败根本没有日志,则考虑使用推理模型调试功能,具体参见:在开发环境中构建并调试推理镜像。
thon和pip的安装路径,具体步骤如下。pip的安装路径一般为Python所在目录的Scripts文件夹。 快捷键“win+R”,在“运行”窗口中输入“sysdm.cpl”,单击“确定”。 在“系统属性”中切换到“高级”页签,单击“环境变量”。 在“环境变量”的“用户变量”中鼠
GPU裸金属服务器无法Ping通如何解决 问题现象 在华为云使用GPU裸金属服务器时, 服务器绑定EIP(华为云弹性IP服务)后,出现无法ping通弹性公网IP现象。 原因分析 查看当前GPU裸金属服务器的安全组的入方向规则的配置,发现仅开通了TCP协议的22端口。 ping命令
A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法? 场景描述 本文指导如何进行节点内NVLINK带宽性能测试,适用的环境为:Ant8或者Ant1 GPU裸金属服务器, 且服务器中已经安装相关GPU驱动软件,以及Pytorch2.0。 GPU A系列裸金属服务器,单台服务
GPU A系列裸金属服务器无法获取显卡如何解决 问题现象 在A系列裸金属服务器上使用PyTorch一段时间后,出现获取显卡失败的现象,报错如下: > torch.cuda.is_available() /usr/local/lib/python3.8/dist-packages/torch/cuda/__init__
GPU A系列裸金属服务器如何更换NVIDIA和CUDA? 场景描述 当裸金属服务器预置的NVIDIA版本和业务需求不匹配时,需要更换NVIDIA驱动和CUDA版本。本文介绍华为云A系列GPU裸金属服务器(Ubuntu20.04系统)如何从“NVIDIA 525+CUDA 12.0”更换为“NVIDIA
A系列裸金属服务器如何进行RoCE性能带宽测试? 场景描述 本文主要指导如何在GPU A系列裸金属服务器上测试RoCE性能带宽。 前提条件 GPU A系列裸金属服务器已经安装了IB驱动。(网卡设备名称可以使用ibstatus或者ibstat获取。华为云Ant8裸金属服务器使用Ubuntu20
GPU A系列裸金属服务器RoCE带宽不足如何解决? 问题现象 GP Ant8支持RoCE网卡, Ubuntu20.04场景,在进行nccl-tests时,总线带宽理论峰值可达90GB/s,但实际测试下来的结果只有35GB/s。 原因分析 “nv_peer_mem”是一个Linu
GPU服务器上配置Lite Server资源软件环境 场景描述 本文旨在指导如何在GPU裸金属服务器上,安装NVIDIA、CUDA驱动等环境配置。由于不同GPU预置镜像中预安装的软件不同,您通过Lite Server算力资源和镜像版本配套关系章节查看已安装的软件。下面为常见的软件安
同步Lite Server服务器状态 Lite Server为一台弹性裸金属服务器,当用户在云服务器页面修改了裸金属服务器状态后,您可通过“同步”功能,同步其状态至ModelArts。 登录ModelArts管理控制台。 在左侧导航栏中,选择“AI专属资源池 > 弹性节点 Server”,进入“节点”列表页面。
使用自己的业务镜像或昇腾AscendHub提供的镜像。如果镜像中预置的软件版本不是您期望的版本,可以自行安装替换。 开发形式推荐通过容器中暴露的SSH端口以远程开发的模式(VSCode SSH Remote、 Xshell)连接到容器中进行开发,可以在容器中挂载宿主机的个人存储目录,用于存放代码和数据。
GPU裸金属服务器使用EulerOS内核误升级如何解决 问题现象 GP Vnt1裸金属服务器,操作系统为EulerOS 2.9(基于CentOS制作的Linux发行版),经常遇到服务器重启后,操作系统内核无故升级,导致系统上原安装的nvidia-driver等软件无法使用,只能卸载重新安装。
对Lite Server资源对应的裸金属服务器,对其进行关机操作,完成关机后,才可以执行切换操作系统动作。 在裸金属服务的更多选项中,单击切换操作系统,如下图所示。 图2 切换操作系统 在切换操作系统界面,选择上一步接收到的共享镜像即可。 使用BMS Go SDK的方式切换操作系统 以下
启动或停止Lite Server服务器 当您暂时不需要使用弹性节点Server的时候,可以通过对运行中的裸金属实例进行停止操作,停止对资源的消耗。当需要使用的时候,对于停止状态的弹性节点Server,可以通过启动操作重新使用弹性节点Server。 登录ModelArts管理控制台。
据和算法至OBS(首次使用时需要)。 ECS服务器和SFS的共享硬盘在相同的VPC或者对应VPC能够互联。 ECS服务器基础镜像需要用Ubuntu 18.04的。 ECS服务器和SFS Turbo需要在同一子网中。 操作步骤 在ECS服务器中设置华为云镜像源。 sudo sed -i
userdata机制拉取cce-agent,但是在服务器上查看没有拉cce-agent的动作,理论上该动作是cloudinit中的脚本在创建时自动执行的,可能是由于安装脚本没有注入userdata或者注入了但未执行。 经查看是由于userdata未执行,可能原因为服务器A制作镜像时没有清理残留目录导致,即:
不同机型的对应的软件配套版本 由于弹性集群资源池可选择弹性裸金属或弹性云服务器作为节点资源,不同机型的节点对应的操作系统、适用的CCE集群版本等不相同,为了便于您制作镜像、升级软件等操作,本文对不同机型对应的软件配套版本做了详细介绍。 裸金属服务器的对应的软件配套版本 表1 裸金属服务器