检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
全隔离,提高GPU硬件资源的利用率并降低使用成本。 XGPU共享技术架构 XGPU通过自研的内核驱动为容器提供虚拟的GPU设备,在保证性能的前提下隔离显存和算力,为充分利用GPU硬件资源进行训练和推理提供有效保障。您可以通过命令方便地配置容器内的虚拟GPU设备。 图1 XGPU共享技术架构图
一代版本,例如HCE V2版本包含HCE 2.0以及之后的HCE 2.x版本。 2年的全面支持:提供免费的软件维护和技术支持,包括对新硬件(CPU、磁盘、网卡等)、新特性的兼容性支持,问题修复,CVE安全漏洞修复。 4年的扩展支持:提供免费的软件维护和技术支持,仅包括问题修复和CVE安全漏洞修复。
踩踏、内存越界等。 触发方法 无人为触发方法,当硬件错误,或者Linux系统内核代码错误时会触发Bad mm_struct。 I/O error Linux I/O error报错通常表示输入/输出操作失败,在网卡、磁盘等IO设备驱动异常,或文件系统异常都可能打印这个错误。 原理
用。异常中断的任务请重新执行。 安装和运行x2hce-ca工具的系统参数要求如下所述。 表1 运行x2hce-ca工具的操作系统参数要求 硬件类型 说明 架构 x86_64 CPU 双核及以上 内存 系统空闲内存要求8GB及以上 硬盘 20GB及以上 父主题: x2hce-ca应用兼容性评估
EAL4+安全能力。 基于openEuler生态:国内最活跃OS开源社区,Linux社区贡献持续5年TOP5,5.10内核贡献TOP1;南北向主流软硬件支持,可完全替代CentOS。 OS开箱即用:支持安装KooCLI,提供通过CLI调用云服务API的方法;支持安装管理鸿蒙SDK的工具sd
抢占调度表示每个容器固定获得1个时间片,XGPU服务会从算力单元1开始调度。但如果某个算力单元没有分配给某个容器,或者容器内没有进程打开GPU设备,则跳过调度切换到下一个时间片。图中灰色部分的算力单元表示被跳过不参与调度。 本例中容器1、2、3占用的实际算力百分比均为33.33%。 权重抢占调度(policy=4)
应当对系统关键目录进行分区挂载 - - - 否 确保禁用不需要的文件系统 - - - 否 确保无需修改的分区以只读方式挂载 - - - 否 确保无需挂载设备的分区以nodev方式挂载 - - - 否 确保无可执行文件的分区以noexec方式挂载 - - - 否 确保无需SUID和SGID的分区以nosuid方式挂载
络QoS功能。 不支持cgroup v2。 升级oncn-tbwm软件包不会影响升级前的使能状态。卸载oncn-tbwm软件包会关闭对所有设备的使能。 仅支持识别数字、英文字母、中划线“-” 和下划线“_”四类字符类型的网卡名,其他字符类型的网卡不被识别。 实际使用过程中,带宽限
lvm2-cluster fcoe-utils libblockdev udisks2 python-blivet device-mapper-multipath device-mapper-multipath-libs libblockdev-crypto libblockdev-fs