检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在x86架构安装mlnx驱动 下载CX6网卡驱动安装包MLNX_OFED_LINUX-23.10-1.1.9.0-openeuler22.03-x86_64.tgz。 解压驱动安装包并进入工作目录。
前提条件 本功能固定使用ifb0,使用前请确定虚拟网卡ifb0未被使用,并加载ifb驱动。 约束与限制 仅HCE 2.0 x86架构支持使用tbwmcli命令。 仅允许root用户执行tbwmcli命令。
GPU实例已安装535.54.03版本的NVIDIA驱动。 GPU实例已安装18.09.0-300或更高版本的docker。 受GPU虚拟化技术的限制,容器内应用程序初始化时,通过nvidia-smi监测工具监测到的实时算力可能超过容器可用的算力上限。
I/O error Linux I/O error报错通常表示输入/输出操作失败,在网卡、磁盘等IO设备驱动异常,或文件系统异常都可能打印这个错误。 原理 错误原因取决于代码执行失败的条件。常见的触发异常的原因是硬件故障、磁盘损坏、文件系统错误、驱动程序问题、权限问题等。
HCE获取openEuler扩展软件包 HCE默认不加载开源社区openEuler的repo源,避免openEuler的软件包和HCE的软件包冲突。 当前HCE 2.0版本仅兼容openEuler 22.03 LTS版本。本节介绍HCE 2.0如何获取openEuler 22.03
安装安全更新 执行yum upgrade --security命令,安装全部安全更新。 [root@localhost ~]# yum upgrade --security Last metadata expiration check: 5:21:24 ago on Tue 13
安装x2hce-ca 确认repo源配置正常。 请检查默认的/etc/yum.repos.d/hce.repo配置文件中参数是否正确,正确的配置如下。 [base] name=HCE $releasever base baseurl=https://repo.huaweicloud.com
osmt update命令更新 手动更新RPM包有两种方式。 根据配置文件中的filters字段更新RPM包。 osmt update --auto --reboot_config [重启配置] 表1 重启配置参数说明 参数 说明 never 若未指定重启配置参数,或指定为never
XGPU共享技术架构 XGPU通过自研的内核驱动为容器提供虚拟的GPU设备,在保证性能的前提下隔离显存和算力,为充分利用GPU硬件资源进行训练和推理提供有效保障。您可以通过命令方便地配置容器内的虚拟GPU设备。
/etc/osmt/osmt.conf配置文件说明 本节对OSMT工具的配置文件osmt.conf不建议修改的配置项进行说明。 [auto] # if auto_upgrade is True, the osmt-agent will auto upgrade rpms use osmt.conf
检查安全更新 执行yum check-update --security命令,检查系统当前可用的安全更新。 [root@localhost ~]# yum check-update --security Last metadata expiration check: 0:11:39
使用dnf或yum命令升级 本节介绍HCE1.1及以上版本的RPM包升级和回退操作。dnf和yum命令的使用方法相同,本节以dnf命令为例,HCE 1.1用yum的相同命令执行。 Huawei Cloud EulerOS 2.0及之后版本支持yum和dnf命令。 Huawei Cloud
查询安全更新 命令格式:yum updateinfo <command> [option] 执行yum updateinfo命令,查询全部可用的安全更新信息。 [root@localhost ~]# yum updateinfo Last metadata expiration check
XGPU算力调度示例 当使用XGPU服务创建XGPU时,XGPU服务会按照最大容器数量(max_inst)为每张显卡设置时间片(X ms)用于为容器分配GPU算力,以单元1、单元2…单元N表示。本节max_inst以20为例,介绍使用不同调度策略时对算力的调度示例。 原生调度(policy
评估软件兼容性 扫描方式 x2hce-ca工具支持两种软件包扫描方式,请明确将要使用的扫描方式和评估的软件包。 扫描源操作系统上单个或多个应用软件包。 扫描源操作系统上单个或多个目录下的所有应用软件包。 操作步骤 默认登录或切换到root用户下进行工具使用。 使用如下命令对软件包进行兼容性扫描
冲突包列表 冲突包列表表示在原系统中存在与HCE系统冲突的软件包,会影响升级过程。 冲突包会在升级过程中自动卸载并且不会再安装上,升级前请评估原系统依赖的软件包是否在此冲突列表内,以免造成升级完成后软件缺失。 如果发现升级后软件包丢失,可以通过yum命令安装新版本软件包。 如果升级过程中遇到其他冲突问题
迁移操作 本节介绍从CentOS7.9迁移到HCE 1.1的操作过程。 准备迁移工具依赖的软件包 远程连接待迁移的操作系统。 根据弹性云服务器控制台操作指导,远程登录到待迁移虚拟机内部,远程登录的具体操作,请参见连接方式概述,并确保虚拟机内部与Internet相通。 先关闭CentOS
迁移操作 准备迁移工具依赖的软件包 在系统迁移过程中,迁移工具对特定的基础软件和系统参数存在依赖,本节介绍软件包和系统参数的准备工作。 远程连接待迁移的操作系统。 根据弹性云服务器控制台操作指导,远程登录到待迁移虚拟机内部,远程登录的具体操作,请参见连接方式概述,并确保虚拟机内部与
内核memory的OOM进程控制策略 背景信息 现有操作系统中,支持配置离线业务和在线业务。当内存发生OOM时,会优先选择离线业务控制组中的消耗内存最多的进程,结束进程回收内存,但是对于某些离线业务也有核心业务,因此会造成很大的影响。 针对这个问题,HCE调整了OOM时回收内存的策略
内核cpu cgroup的多级混部调度 需求背景 在业务混部场景中,Linux内核调度器需要为高优先级任务赋予更多的调度机会,并需要把低优先级任务对内核调度带来的影响降到最低。原有的在线、离线两级混部调度无法满足业务需求。 为解决此问题,HCE 2.0内核cpu cgroup支持多级混部调度