检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
/deviceQueryDrv 回显信息中包含“Result = PASS”,表示CUDA工具包和NVIDIA GPU驱动安装成功。 执行以下命令,验证驱动是否正常使用。 nvidia-smi topo -m 回显信息中如果正常显示GPU的信息,则表示驱动可正常使用。 父主题: 安装驱动和工具包
进入裸金属服务器页面。 选择待检查的裸金属服务器,单击“操作”列下的“更多 > 重置密码”。 如果界面弹窗类似图1,表示已安装一键式重置密码插件,任务结束。 图1 已安装重置密码插件 如果界面弹窗类似图2,表示未安装一键式重置密码插件,请继续执行后续操作进行安装。 图2 未安装重置密码插件 方法二:登录操作系统查询
裸金属服务器(操作系统监控)支持的监控指标有:CPU相关监控指标(表1)、CPU负载类相关监控指标(表2)、内存相关监控指标(表3)、磁盘相关监控指标(表4)、磁盘I/O类(表5)、文件系统类(表6)、网卡类(表7)、软RAID相关监控指标(表8)和进程相关监控指标(表9)。 如果要监控软RAID相关指标,Agent版本必须为1
标签是华为云为了标识云资源,按各种维度(例如用途、所有者或环境)对云资源进行分类的标记。推荐企业使用预定义标签进行成本归集,具体流程如下: 图2 为云服务器添加标签 详细介绍请参见通过成本标签维度查看成本分配。 使用成本单元进行成本分配 企业可以使用成本中心的“成本单元”来拆分公共成本。公共成本是
装NVIDIA GPU驱动和CUDA工具包,从而实现计算加速功能。 前提条件 已绑定弹性公网IP。 已下载对应操作系统所需驱动的安装包。 表1 NVIDIA GPU驱动和CUDA工具包下载 操作系统 需要下载的驱动 下载地址 Ubuntu 16.04、CentOS 7.4 NVIDIA
装NVIDIA GPU驱动和CUDA工具包,从而实现计算加速功能。 前提条件 已绑定弹性公网IP。 已下载对应操作系统所需驱动的安装包。 表1 NVIDIA GPU驱动和CUDA工具包下载 操作系统 需要下载的驱动 下载地址 Ubuntu 16.04、CentOS 7.4 NVIDIA
安装IB驱动(可选) 操作背景 此项为可选项,如需安装IB驱动,以CentOS 7.4为例进行说明。 支持的OS列表:CentOS 7.3,CentOS 7.4,CentOS 7.6 ARM,RedHat 7.3,RedHat 7.4,SUSE 12 SP3,Oracle Linux
vers/limits 响应参数 参数 参数类型 描述 absolute Object 租户配额信息,详情请参见表2。 以下参数值为“-1”时,表示无数量限制。 表2 absolute数据结构说明 参数 参数类型 描述 maxTotalInstances Integer 裸金属服务器最大申请数量。
/action 参数说明请参见表1。 表1 参数说明 参数 是否必选 描述 project_id 是 项目ID。 获取方式请参见获取项目ID。 server_id 是 裸金属服务器ID。 可以从裸金属服务器控制台查询,或者通过调用查询裸金属服务器列表(废弃)获取。 请求参数 参数
d/80-persistent-net.rules 设置udev规则。 将2中查询到的除“lo”、“eth0”、“eth1”、“bond0”以外的网卡和MAC对应关系添加到“/etc/udev/rules.d/80-persistent-net.rules”文件中,使得裸金属服务器重启复位后,网卡名称和顺序不会发生改变。
d/80-persistent-net.rules 设置udev规则。 将2中查询到的除“lo”、“eth0”、“eth1”和“bond0”以外的网卡和MAC对应关系添加到“/etc/udev/rules.d/80-persistent-net.rules”文件中,使得裸金属服务器重启复位后,网卡名称和顺序不会发生改变。
若该服务不存在,则执行apt-get install network-manager命令安装 2. 需要修改/etc/netplan/01*yaml文件,添加网络管理服务及网卡信息,如下 然后执行 :wq! 保存退出,再执行netplan try刷新网络配置 操作步骤 对于Red Hat 7系列/Oracle
错误码 背景信息 接口返回的错误码与Error Message不具有一一对应关系,表中只是列出比较常见的一种Error Message。 本服务接口以异步接口居多,有的错误码是在查询任务的返回体中体现的,HTTP状态码有可能不是很准确。 本服务对网络、存储等服务具有强依赖性,Error
间,提升大模型训练性能。 智能调度通过RESTful API接口可提供的能力包括: 拓扑搜索:根据用户提供的大模型超参、并行度及可用资源列表,提供给用户基于拓扑感知的任务资源最优选择建议。 拓扑感知调度:用户资源选择后,根据大模型超参、并行度、集合通信算法及AI编程框架等信息,优
d/80-persistent-net.rules 设置udev规则。 将2中查询到的除“lo”、“eth0”、“eth1”和“bond0”以外的网卡和MAC对应关系添加到“/etc/udev/rules.d/80-persistent-net.rules”文件中,使得裸金属服务器重启复位后,网卡名称和顺序不会发生改变。
持续使用,降低因资源欠费而导致的数据安全风险。 适用计费项 计费项包括裸金属服务器、云硬盘(可选)、弹性公网IP(可选),详细说明如表1所示。 表1 计费项说明 计费项 计费说明 裸金属服务器 对您选择的裸金属服务器规格计费(包括CPU规格、内存容量、本地磁盘和扩展配置等)。 具体请参考裸金属服务器产品价格详情。
”键,使用上下键选择“System Manager”。 可以看到上图中Cloud-Init的四个服务均为“enable”,表示已经自启动服务。active表示处于开启状态。对于Cloud-Init四个阶段的服务,如果某个服务没有自启动,首先用上下键选中,然后按“Tab”,选中“E
任务ID的响应 正常响应要素 表1 正常响应要素说明 名称 参数类型 说明 job_id String 提交任务成功后返回的任务ID,用户可以使用该ID对任务执行情况进行查询。 如何根据job_id来查询Job的执行状态,请参考查询Job状态。 异常响应要素 表2 异常响应要素说明 名称
hvolume 参数说明请参见表1。 表1 参数说明 参数 是否必选 描述 project_id 是 项目ID。 获取方式请参见获取项目ID。 server_id 是 裸金属服务器ID。 可以从裸金属服务器控制台查询,或者通过调用查询裸金属服务器列表(废弃)获取。 请求参数 参数
如何根据job_id来查询Job的执行状态,请参考查询Job状态。 异常响应要素 表2 异常响应要素说明 名称 参数类型 说明 error 字典数据结构[1] 提交任务异常时返回的异常信息,详情请参见表3。 表3 error数据结构 名称 参数类型 说明 message String 任务异常错误信息描述。