-
GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts
GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML 问题现象 华为云裸金属服务器,NVIDIA驱动卸载后重新安装。 (1)已卸载原有版本NVIDIA驱动和CUDA版本,且已安装新版本的NVIDIA驱动和CUDA版本
-
NPU Snt9B裸金属服务器docker网络配置方案 - AI开发平台ModelArts
重启sshd服务,执行如下命令。 /usr/sbin/sshd 此时,有两种方式实现免密登录。 (推荐)方式一:重新制作docker镜像(推荐) 在一个容器内,参考NPU Snt9B裸金属服务器多机免密互通解决方案完成配置后,将该容器打包为镜像,上传到华为云容器管理服务SWR,其他各个机器从SWR中使用docker
-
NPU Snt9B裸金属服务器多机免密互通解决方案 - AI开发平台ModelArts
该问题是由于docker容器sshd服务密钥缺失、sshd守护进程无法加载SSH主机密钥导致。在容器的/etc/ssh目录缺少ssh_host_rsa_key、ssh_host_ecdsa_key、ssh_host_ed25519_key等文件。 按照以下步骤执行,即可成功配置并启动sshd服务。 生成相关ssh
-
FAQ - AI开发平台ModelArts
GPU裸金属服务器无法Ping通的解决方案 华为云BMS GO SDK和Python脚本实现裸金属服务器的操作系统切换 使用GPU A系列裸金属服务器有哪些注意事项? 华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 GPU A系列裸金属服务器使用CUDA
-
GPU A系列裸金属服务器没有任务,GPU被占用问题 - AI开发平台ModelArts
GPU A系列裸金属服务器没有任务,GPU被占用问题 问题现象 服务器没有任务,但GPU显示被占用。 图1 显卡运行状态 处理方法 nvidia-smi -pm 1 父主题: FAQ
-
如何给镜像设置环境变量 - AI开发平台ModelArts
如何给镜像设置环境变量 在Dockerfile中,可使用ENV 指令来设置环境变量,具体信息请参考Dockerfile指导。 父主题: FAQ
-
常见问题 - AI开发平台ModelArts
常见问题 ML Studio错误码 父主题: ML Studio
-
NPU Snt9B裸金属服务器算力查询 - AI开发平台ModelArts
NPU Snt9B裸金属服务器算力查询 场景描述 本文介绍如何在Snt9B裸金属服务器查询对应算力。 操作步骤 Snt9B裸金属服务器执行如下命令进行查看,然后查看表1对应型号算力即可。 npu-smi info 结果如下图所示,name列为B1型号,根据表格可得B1的理论算力为400T。
-
GPU A系列裸金属服务器节点内NVLINK带宽性能测试方法(Pytorch模式) - AI开发平台ModelArts
重启系统,可能触发了某种硬件自检或修复机制,从而恢复了正常的带宽。 系统负载问题:最初测试GPU卡间带宽时,可能存在其他系统负载,如进程、服务等,这些负载会占用一部分网络带宽,从而影响NVLINK带宽的表现。重新安装软件后,这些负载可能被清除,从而使NVLINK带宽恢复正常。 父主题:
-
服务管理权限 - AI开发平台ModelArts
服务管理权限 表1 服务管理细化权限说明 权限 对应API接口 授权项 依赖的授权项 IAM项目 企业项目 部署模型服务 POST /v1/{project_id}/services modelarts:service:create - √ √ 查询模型服务列表 GET /v1/
-
GP Vnt1裸金属本地磁盘合并挂载至指定目录并设置开机启动自动挂载 - AI开发平台ModelArts
GP Vnt1裸金属本地磁盘合并挂载至指定目录并设置开机启动自动挂载 场景描述 本文介绍如何将Vnt1裸金属服务器本地磁盘合并挂载至指定目录并设置开机启动自动挂载。 操作步骤 磁盘合并挂载。首次配置环境时,需要先处理磁盘分配。这一步操作建议放在最开始,避免使用一段时间再挂载容易冲掉用户已存储的内容。
-
公共参数 - AI开发平台ModelArts
公共参数 状态码 错误码 获取项目ID和名称 获取帐号名和帐号ID 获取用户名和用户ID
-
GP Ant8裸金属本地磁盘合并挂载至指定目录并设置开机启动自动挂载 - AI开发平台ModelArts
GP Ant8裸金属本地磁盘合并挂载至指定目录并设置开机启动自动挂载 场景描述 本文介绍如何将GP Ant8裸金属服务器本地磁盘合并挂载至指定目录并设置开机启动自动挂载。 操作步骤 首次配置环境时,需要先处理磁盘分配,这样可以把机器上几个T的空间用起来。这一步操作放在最开始,避免
-
在Linux上安装配置Grafana - AI开发平台ModelArts
在本地PC访问Grafana配置。 确保ECS绑定了弹性公网IP,且对应配置正确(入方向放开TCP协议的3000端口,出方向全部放通)。设置如下: 单击ECS服务器名称进入详情页,单击“安全组”页签,单击“配置规则”。 单击“入方向规则”,入方向放开TCP协议的3000端口,出方向默认全部放通。 在浏览器中输入“
-
部署AI应用(在线服务) - AI开发平台ModelArts
部署AI应用(在线服务) 部署为在线服务 查看服务详情 测试服务 访问在线服务 集成在线服务 CloudShell 父主题: 部署AI应用(部署上线)
-
AI Gallery下载数据到OBS中使用的带宽是用户自己的还是华为云的? - AI开发平台ModelArts
AI Gallery下载数据到OBS中使用的带宽是用户自己的还是华为云的? AI Gallery下载数据到OBS中使用的带宽是华为云的。 父主题: AI Gallery
-
NPU Snt9B裸金属服务器多机批量执行命令 - AI开发平台ModelArts
NPU Snt9B裸金属服务器多机批量执行命令 场景描述 在使用NPU Snt9B裸金属服务器进行多机训练/推理作业时,往往需要将多机的环境配置的完全一致。如果逐台登录主机,逐台使用环境配置脚本来配置,虽然可以完成任务,但是效率低下。为了提高效率,本文介绍如何在单节点通过脚本方式实现多台主机批量执行命令。
-
ModelArts SDK下载文件目标路径设置为文件名,部署服务时报错 - AI开发平台ModelArts
ModelArts SDK下载文件目标路径设置为文件名,部署服务时报错 问题现象 ModelArts SDK在OBS下载文件时,目标路径设置为文件名,在本地IDE运行不报错,部署为在线服务时报错。 代码如下: session.obs.download_file(obs_path, local_path)
-
GP Ant1裸金属服务器支持的镜像详情 - AI开发平台ModelArts
GP Ant1裸金属服务器支持的镜像详情 镜像:EulerOS纯净版 镜像名称:EulerOS2.10 x86 64bit sdi3 for Ant1 BareMetal 表1 镜像详情 软件类型 版本详情 操作系统 EulerOS 2.10 64bit 架构类型 x86 RoCE路由配置
-
GPU裸金属服务器使用EulerOS内核误升级解决方案 - AI开发平台ModelArts
GPU裸金属服务器使用EulerOS内核误升级解决方案 问题现象 GP Vnt1裸金属服务器,操作系统为EulerOS 2.9(基于CentOS制作的Linux发行版),经常遇到服务器重启后,操作系统内核无故升级,导致系统上原安装的nvidia-driver等软件无法使用,只能卸载重新安装。