检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
XGPU共享技术架构 XGPU通过自研的内核驱动为容器提供虚拟的GPU设备,在保证性能的前提下隔离显存和算力,为充分利用GPU硬件资源进行训练和推理提供有效保障。您可以通过命令方便地配置容器内的虚拟GPU设备。 图1 XGPU共享技术架构图 产品优势 节约成本 随着显卡技术的不断
抢占调度表示每个容器固定获得1个时间片,XGPU服务会从算力单元1开始调度。但如果某个算力单元没有分配给某个容器,或者容器内没有进程打开GPU设备,则跳过调度切换到下一个时间片。图中灰色部分的算力单元表示被跳过不参与调度。 本例中容器1、2、3占用的实际算力百分比均为33.33%。 权重抢占调度(policy=4)
序:可以根据自定义参数范围,生成不同的参数组合分别来优化应用。 动态加速: 动态加速工具直接对目标应用进程进行加速,无需中断业务,在业务无感知的情况下完成优化工作。 表1 静态加速和动态加速优缺点 应用加速方式 优点 缺点 静态加速 以二进制可执行文件为粒度进行优化,无需修改程序代码。
能状态。卸载oncn-tbwm软件包会关闭对所有设备的使能。 仅支持识别数字、英文字母、中划线“-” 和下划线“_”四类字符类型的网卡名,其他字符类型的网卡不被识别。 实际使用过程中,带宽限速有可能造成协议栈内存积压,此时依赖传输层协议自行反压,对于udp等无反压机制的协议场景,
应当对系统关键目录进行分区挂载 - - - 否 确保禁用不需要的文件系统 - - - 否 确保无需修改的分区以只读方式挂载 - - - 否 确保无需挂载设备的分区以nodev方式挂载 - - - 否 确保无可执行文件的分区以noexec方式挂载 - - - 否 确保无需SUID和SGID的分区以nosuid方式挂载
时会触发Bad mm_struct。 I/O error Linux I/O error报错通常表示输入/输出操作失败,在网卡、磁盘等IO设备驱动异常,或文件系统异常都可能打印这个错误。 原理 错误原因取决于代码执行失败的条件。常见的触发异常的原因是硬件故障、磁盘损坏、文件系统错
qos_level仅支持cgroup-v1, 不支持cgroup-v2。 多级混部调度接口说明 cpu.qos_level的生效规则: CFS调度器自上而下逐层选择task_group,同一个父节点内的子节点之间cpu.qos_level生效。 子cgroup创建时默认继承父cgroup的cpu.qos_level,支持重新配置cpu
lvm2-cluster fcoe-utils libblockdev udisks2 python-blivet device-mapper-multipath device-mapper-multipath-libs libblockdev-crypto libblockdev-fs