正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
持久化存储 Volume PV、PVC和StorageClass
安全运行时与普通运行时 相比于普通运行时,安全运行时可以让您的每个容器(准确地说是Pod)都运行在一个单独的微型虚拟机中,拥有独立的操作系统内核,以及虚拟化层的安全隔离。通过使用安全运行时,不同容器之间的内核、计算资源、网络都是隔离开的,保护了Pod的资源和数据不被其他Pod抢占和窃取。 CCE
容器异常退出状态码 当容器启动失败或终止时,K8s事件中将会打印容器异常退出状态码(Exit Code)来报告容器异常的原因。本文将介绍如何通过事件中打印的Exit Code进一步定位容器异常的根本原因。 查看容器异常退出状态码 您可使用kubectl连接集群,并通过以下命令查询Pod详细状态:
表2 GPU虚拟化监控指标 指标 监控级别 说明 xgpu_memory_total GPU进程 GPU虚拟化显存总量。 xgpu_memory_used GPU进程 GPU虚拟化显存使用量。 xgpu_core_percentage_total GPU进程 GPU虚拟化算力总量。
GPU调度 GPU节点驱动版本 使用Kubernetes默认GPU调度 GPU虚拟化 监控GPU资源指标 基于GPU监控指标的工作负载弹性伸缩配置 GPU虚拟化节点弹性伸缩配置 GPU故障处理 父主题: 调度
配置完成后,关闭部门管理界面,即可在云原生成本治理查看相应部门的成本分析报告。 图10 查看成本分析报告 使用成本洞察 开通后,进入成本洞察界面,查看已接入集群的成本状况。您可以切换页签,进行年度、季度、月度成本分析报表查看。 图11 查看成本状况 表1 界面功能说明 名称 所属报告 说明 本年至今成本(去年同期、环比去年)
制作并上传镜像 本章指导用户将整体应用制作成Docker镜像。制作完镜像后,每次应用的部署和升级即可通过镜像操作,减少了人工配置,提升效率。 制作镜像时,要求制作镜像的文件在同个目录下。 使用云服务 容器镜像服务SWR:是一种支持容器镜像全生命周期管理的服务, 提供简单易用、安全
企业管理应用容器化改造(ERP) 应用容器化改造方案概述 资源与成本规划 实施步骤 父主题: 容器化改造
单部门视角的成本洞察 单部门视角成本洞察,提供单一部门的成本分析报告。在部门成本分析模块,进行整体部门成本状况查看,并可单击部门列表中的某一部门,进行单部门的详细成本分析。 前提条件 已开通成本洞察功能 已完成部门配置 约束与限制 由于实际账单的获取存在两天时间延迟,开通成本洞察后,成本洞察成本数据会延迟2天显示。
云硬盘基础带宽/突发带宽 (Gbps) 虚拟化类型 c6.large.2 2 4 4/1.2 40 50 2 2 1/5 KVM/QingTian虚拟化 c6.xlarge.2 4 8 8/2.4 80 50 2 3 1.5/5 KVM/QingTian虚拟化 c6.2xlarge.2 8
使用Kubernetes默认GPU调度 GPU虚拟化 GPU虚拟化能够动态对GPU设备显存与算力进行划分,单个GPU卡最多虚拟化成20个GPU虚拟设备。相对于静态分配来说,虚拟化的方案更加灵活,最大程度保证业务稳定的前提下,可以完全由用户自己定义使用的GPU量,提高GPU利用率。 GPU虚拟化 NPU调度 C
70系列占用更多。 若发现GPU虚拟化的可用显存远小于GPU卡的物理显存,一般是因为存在一些非GPU虚拟化发放的容器,占用了显存。 通过CCE控制台或kubectl命令,将目标节点的GPU负载排空。 执行rmmod xgpu_km,进行GPU虚拟化模块的删除。 通过CCE控制台或
硬件资源(如内存、CPU、网络、磁盘等)进行了虚拟化分配,然后通过这些虚拟化的硬件资源组成了虚拟机,并在上面运行一个完整的操作系统,每个虚拟机需要运行自己的系统进程。而容器内的应用进程直接运行于宿主机操作系统内核,没有硬件资源虚拟化分配的过程,避免了额外的系统进程开销,因此使得D
Region视角成本洞察:以企业管理人员的角度,呈现整体Region级别容器成本分析报告。该视角支持用户按照集群、命名空间粒度进行部门划分,并形成部门的成本分析报告。通过部门的成本分析报告,企业管理人员可以识别成本增长趋势、部门成本对比,能制定更好的成本管理方案。 集群资源视
池、持久卷存储池检查项。 0.8.10 1.15.0 v1.17 v1.19 v1.21 v1.23 检测项全面加固,避免误报。 支持内核巡检。支持OOMKilling事件,TaskHung事件上报。 0.8.10 1.14.11 v1.17 v1.19 v1.21 适配CCE v1
Jenkins安装部署及对接SWR和CCE集群 使用Kubeflow和Volcano实现典型AI训练任务 kubeflow华为云CCE虚机搭建运行分布式tf报告 通过CCE搭建IPv4/IPv6双栈集群 CCE集群的网络地址段规划实践 使用subpath类型动态创建SFS Turbo存储卷 1.1
表1 GPU驱动支持列表 GPU型号 支持集群类型 机型规格 操作系统 Huawei Cloud EulerOS 2.0(支持GPU虚拟化) Ubuntu 22.04 CentOS Linux release 7.6 EulerOS release 2.9 EulerOS release
的告警系统,提供更高自由度的监控告警配置。 监控 未配置监控告警,将无法建立容器集群性能的正常标准,在出现异常时无法及时收到告警,需要人工巡检环境。 监控概述 使用Prometheus插件监控 使用Prometheus监控多个集群 使用dcgm-exporter监控GPU指标
Cloud EulerOS 2.0建议使用470及以上版本驱动;Ubuntu 22.04建议使用515及以上版本驱动。 插件安装完成后,GPU 虚拟化和节点池驱动配置请前往“配置中心 > 异构资源配置”页进行设置。 单击“安装”,安装插件的任务即可提交成功。 卸载插件将会导致重新调度的GPU
Volcano调度器 共享使用GPU资源 使用GPU虚拟化能力实现算力和显存隔离,高效利用GPU设备资源。CCE GPU虚拟化采用自研xGPU虚拟化技术,能够动态对GPU设备显存与算力进行划分,相对于静态分配来说,虚拟化的方案更加灵活,最大程度保证业务稳定的前提下,可以完全由