内容选择
全部
内容选择
内容分类
  • 学堂
  • 博客
  • 论坛
  • 开发服务
  • 开发工具
  • 直播
  • 视频
  • 用户
时间
  • 一周
  • 一个月
  • 三个月
  • ShowBaremetalServerVolumeInfo 查询裸金属服务器挂载的云硬盘信息 - API

    该API属于BMS服务,描述: 查询裸金属服务器挂载的磁盘信息接口URL: "/v1/{project_id}/baremetalservers/{server_id}/os-volume_attachments"

  • 傲徕服务器操作系统

    中科院软件所正式推出基于openEuler的傲徕操作系统发行版,还将启动“开源软件供应链点亮计划”,支持和激励科研人员、开源爱好者和学生积极参与社区贡献。

    播放量  3727
  • GPU A系列裸金属服务器使用PyTorch无法获取显卡问题解决方法

     为什么nvidia-fabricmanager会挂掉? (1) 可能系统资源不足、如内存不足、内存泄露; (2) 硬件故障、如IB网络或者GPU互联设备故障等;      当然,也有可能笔者服务器上没安装nvidia-fabricmanager组件或被误卸载

    作者: modelarts-dev-server
    发表时间: 2023-05-09 19:52:13
    93
    0
  • 【昇腾】裸金属服务器中容器执行命令npu-smi失败错误码 8020

    1. 问题背景 在昇腾裸金属服务器中,启动容器挂载XPU卡,容器创建成功,但是执行Npu-smi报错显示,卡被name为gmj-sd的docker任务占用了。 发现挂载了两个卡 在容器中执行这个命令失败,没有挂载到卡: 2. 解决方案: 具体的错误码 8020解决方案可以看下面的文档:

    作者: modelarts-dev-server
    发表时间: 2024-06-06 16:40:10
    7
    0
  • GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML

    0. 前置条件  华为云裸金属服务器,NVIDIA驱动卸载后重新安装。 (1)已卸载原有版本NVIDIA驱动和CUDA版本,且已安装新版本的NVIDIA驱动和CUDA版本 (2)执行nvidia-smi失败,提示Failed to initialize NVML: Driver/library

    作者: modelarts-dev-server
    发表时间: 2023-06-08 21:21:09
    37
    0
  • GPU裸金属服务器使用Node Exporter实现RDMA网卡指标监控可视化方案

    0. 前置条件 裸金属服务器需要安装nvidia-driver、nvidia-cuda、nvidia-fabric-manager、promtheus、docker软件包; 上述软件安装方法可参考:GPU Ant8裸金属服务器装机和验证-云社区-华为云 (huaweicloud.com)

    作者: modelarts-dev-server
    发表时间: 2023-08-26 10:36:13
    855
    0
  • Ironic 裸金属管理服务的底层技术支撑

    & iPXE Cloud Init Linux 操作系统启动引导过程 底层技术支撑 PXE:预启动执行环境,支持客户端通过网络从 TFTP Server 下载操作系统镜像,并由此支持通过网络启动操作系统引导程序。 IPMI:智能平台管理接口,一种开放标准的硬件管理接口规范,通过

    作者: 云物互联
    发表时间: 2021-08-05 16:03:03
    866
    0
  • 华为云CCE集群纳管和验证GPU VNT1裸金属服务器的解决方案

    0v1,需要联系客户经理或提ModelArts工单申请。 2. CCE集群纳管节点-纳管VNT1裸金属服务器 在CCE Console界面选择纳管节点,选择对应的VNT1裸金属服务器, 需要注意的配置如下 (1)  容器引擎选择Docker; (2) 操作系统选择私有镜像euler2

    作者: modelarts-dev-server
    发表时间: 2023-06-05 23:01:34
    3508
    0
  • 【昇腾】NPU Snt9B裸金属服务器训练中途报错PytorchStreamWriter failed解决方案

    failed 具体报错信息为: 2. 问题定位 在训练时往往需要将训练中间结果记录为checkpoint保存在磁盘中,华为云昇腾Snt9B裸金属服务器默认自带200G的系统盘,使用df -h命令查看磁盘使用率,可以看到系统盘已被写满,该报错是由于磁盘容量不够保存checkpoint文件导致的。

    作者: modelarts-dev-server
    发表时间: 2023-11-21 15:28:48
    102
    0
  • 【昇腾】NPU Snt9B裸金属服务器npu-smi info出现丢卡现象解决方案

    1. 环境描述 服务器信息: 华为云NPU Snt9B裸金属服务器 操作系统:Euler2.10 Arm 64bit 系统环境相关版本: NPU驱动版本为23.0.rc2、固件版本为6.4.12.1.241 2. 问题现象 执行命令:npu-smi info ,发现丢失一张卡(如图所示卡0不存在),导致业务出现异常

    作者: modelarts-dev-server
    发表时间: 2023-10-27 11:38:10
    302
    0
  • UpdateBaremetalServerInterfaceAttachments 修改裸金属服务器弹性网卡的属性 - API

    该API属于BMS服务,描述: 修改裸金属服务器弹性网卡的属性接口URL: "/v1/{project_id}/baremetalservers/{server_id}/os-interface/{port_id}"

  • GPU A系列裸金属服务器无任务但利用率高的解决方案

    1. 问题现象 2. 解决方法 nvidia-smi -pm 1 3. 参考资料 https://forums.developer.nvidia.com/t/k20-with-high-utilization-but-no-compute-processes/29018

    作者: modelarts-dev-server
    发表时间: 2023-05-06 11:06:48
    64
    0
  • GPU A系列裸金属服务器更换NVIDIA和CUDA版本指导方案 - CUDA12.0降至CUDA11.7

    0. 前置条件 本文解决当裸金属服务器预置的NVIDIA版本和业务需求不匹配时,需要更换NVIDIA驱动和CUDA版本. 服务器: 华为云A系列GPU裸金属服务, 操作系统为Ubuntu20.04 (1) 更换前主体软件环境: nvidia525+cuda12.0, 笔者验证环境:

    作者: modelarts-dev-server
    发表时间: 2023-06-08 14:44:14
    107
    0
  • 【昇腾】NPU Snt9B裸金属服务器npu-smi info出现dcmi module initialize failed

    1. 环境描述 服务器信息: 华为云NPU Snt9B裸金属服务器 操作系统:Euler2.10 Arm 64bit 系统环境相关版本: NPU驱动版本为23.0.1 2. 问题现象 执行npu-smi info命令提示dcmi module initialize failed.

    作者: modelarts-dev-server
    发表时间: 2024-03-30 16:48:56
    37
    0
  • GPU VNT1裸金属服务器Pytorch多机多卡分布式训练指导书

    MASTER_ADDR = os.environ["MASTER_ADDR"] MASTER_PORT = os.environ["MASTER_PORT"] local_rank = int(os.environ["LOCAL_RANK"]) rank = int(os.environ["RANK"])

    作者: modelarts-dev-server
    发表时间: 2023-11-13 15:10:39
    897
    0
  • 【昇腾】Ascend Snt9B裸金属服务器DMA及P2P性能测试指导

    1. 环境描述 笔者使用华为云ModelArts弹性裸金属服务器-Ascend Snt9B服务器进行DMA及P2P性能测试. 选择的服务器镜像是:  EulerOS-2.10-Arm-rc3-64bit-for-Snt9B-BareMetal-with-CANN7.0.RC1

    作者: modelarts-dev-server
    发表时间: 2023-12-02 09:55:06
    852
    0
  • 裸金属服务器EulerOS升级NetworkManager-config-server导致SSH链接故障解决方案

    service会优先读取网卡配置文件中的IP设置为主机IP, 此时无论DH Cient是否关闭,服务器都可以获取分配IP; (b) 当服务器没有网卡配置文件时, DH Client开启, 此时服务器会分配私有IP; 如果关闭DH Client, 则服务器无法获取私有IP; 3. 影响分析 命令 yum update

    作者: modelarts-dev-server
    发表时间: 2023-06-08 14:38:43
    113
    0
  • 华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案

    1. 问题描述 笔者创建出3台GPU 裸金属服务器,  使用A节点制作镜像,用于在CCE纳管裸金属服务器时,使用该镜像; 但是纳管后发现服务器A纳管失败、剩下两台服务器纳管成功。 2. 问题定位 在CCE纳管过程中,需要通过cloudinit userdata机制拉取cce-agent

    作者: modelarts-dev-server
    发表时间: 2023-06-09 11:17:09
    19
    0
  • 裸金属的环境配置

    需要一台物理机或者虚拟机用H3C-CloudOS-PLAT镜像安装CloudOS计算节点在配置裸金属节点数据库权限的时候将新创建的裸金属虚机或物理机的cloudos计算节点的管理IP添加到数据库白名单里

    作者: 是个小仙女
    438
    0
  • 华为云首发裸金属容器服务 引领容器云新风潮

    align> <align=left><b>首发裸金属容器服务,为“高性能计算场景”量身打造</b></align><align=left> </align><align=left>华为云 • 云容器引擎CCE在国内首家推出裸金属容器集群服务,助力游戏、AI等行业轻松应对高性能计

    作者: 应用服务小助手
    20107
    4