检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如何查看虚拟私有云VPC的网段? 在“虚拟私有云”页面,可查看虚拟私有云的“名称/ID”和“VPC网段”。用户可以调整已创建的VPC或通过重新创建VPC调整网段。 图1 查看VPC网段 父主题: 网络规划
安全运行时与普通运行时 相比于普通运行时,安全运行时可以让您的每个容器(准确地说是Pod)都运行在一个单独的微型虚拟机中,拥有独立的操作系统内核,以及虚拟化层的安全隔离。通过使用安全运行时,不同容器之间的内核、计算资源、网络都是隔离开的,保护了Pod的资源和数据不被其他Pod抢占和窃取。 CCE
款监控集群节点异常事件的插件,以及对接第三方监控平台功能的组件。它是一个在每个节点上运行的守护程序,可从不同的守护进程中搜集节点问题并将其报告给apiserver。node-problem-detector可以作为DaemonSet运行, 也可以独立运行。 字段说明 表1 参数描述
GPU调度 GPU节点驱动版本 使用Kubernetes默认GPU调度 GPU虚拟化 监控GPU资源指标 基于GPU监控指标的工作负载弹性伸缩配置 GPU虚拟化节点弹性伸缩配置 GPU故障处理 GPU监控指标说明 父主题: 调度
容器异常退出状态码 当容器启动失败或终止时,K8s事件中将会打印容器异常退出状态码(Exit Code)来报告容器异常的原因。本文将介绍如何通过事件中打印的Exit Code进一步定位容器异常的根本原因。 查看容器异常退出状态码 您可使用kubectl连接集群,并通过以下命令查询Pod详细状态:
配置完成后,关闭部门管理界面,即可在云原生成本治理查看相应部门的成本分析报告。 图10 查看成本分析报告 使用成本洞察 开通后,进入成本洞察界面,查看已接入集群的成本状况。您可以切换页签,进行年度、季度、月度成本分析报表查看。 图11 查看成本状况 表1 界面功能说明 名称 所属报告 说明 本年至今成本(去年同期、环比去年)
单部门视角的成本洞察 单部门视角成本洞察,提供单一部门的成本分析报告。在部门成本分析模块,进行整体部门成本状况查看,并可单击部门列表中的某一部门,进行单部门的详细成本分析。 前提条件 已开通成本洞察功能 已完成部门配置 约束与限制 由于实际账单的获取存在两天时间延迟,开通成本洞察后,成本洞察成本数据会延迟2天显示。
云硬盘基础带宽/突发带宽 (Gbps) 虚拟化类型 c6.large.2 2 4 4/1.2 40 50 2 2 1/5 KVM/QingTian虚拟化 c6.xlarge.2 4 8 8/2.4 80 50 2 3 1.5/5 KVM/QingTian虚拟化 c6.2xlarge.2 8
制作并上传镜像 本章指导用户将整体应用制作成Docker镜像。制作完镜像后,每次应用的部署和升级即可通过镜像操作,减少了人工配置,提升效率。 制作镜像时,要求制作镜像的文件在同个目录下。 使用云服务 容器镜像服务SWR:是一种支持容器镜像全生命周期管理的服务, 提供简单易用、安全
70系列占用更多。 若发现GPU虚拟化的可用显存远小于GPU卡的物理显存,一般是因为存在一些非GPU虚拟化发放的容器,占用了显存。 通过CCE控制台或kubectl命令,将目标节点的GPU负载排空。 执行rmmod xgpu_km,进行GPU虚拟化模块的删除。 通过CCE控制台或
使用Kubernetes默认GPU调度 GPU虚拟化 GPU虚拟化能够动态对GPU设备显存与算力进行划分,单个GPU卡最多虚拟化成20个GPU虚拟设备。相对于静态分配来说,虚拟化的方案更加灵活,最大程度保证业务稳定的前提下,可以完全由用户自己定义使用的GPU量,提高GPU利用率。 GPU虚拟化 NPU调度 C
企业管理应用容器化改造(ERP) 应用容器化改造方案概述 资源与成本规划 实施步骤 父主题: 容器化改造
硬件资源(如内存、CPU、网络、磁盘等)进行了虚拟化分配,然后通过这些虚拟化的硬件资源组成了虚拟机,并在上面运行一个完整的操作系统,每个虚拟机需要运行自己的系统进程。而容器内的应用进程直接运行于宿主机操作系统内核,没有硬件资源虚拟化分配的过程,避免了额外的系统进程开销,因此使得D
Region视角成本洞察:以企业管理人员的角度,呈现整体Region级别容器成本分析报告。该视角支持用户按照集群、命名空间粒度进行部门划分,并形成部门的成本分析报告。通过部门的成本分析报告,企业管理人员可以识别成本增长趋势、部门成本对比,能制定更好的成本管理方案。 集群资源视
1:显存算力隔离模式 2:默认模式,表示当前卡还没被用于GPU虚拟化设备分配。 xgpu_device_health Gauge - GPU卡 GPU虚拟化设备的健康情况。 0:表示GPU虚拟化设备为健康状态。 1:表示GPU虚拟化设备为非健康状态。 DCGM提供的GPU监控指标 表3 利用率(Utilization)
池、持久卷存储池检查项。 0.8.10 1.15.0 v1.17 v1.19 v1.21 v1.23 检测项全面加固,避免误报。 支持内核巡检。支持OOMKilling事件,TaskHung事件上报。 0.8.10 1.14.11 v1.17 v1.19 v1.21 适配CCE v1
集群中已安装云原生监控插件插件。 集群中已安装CCE AI套件(NVIDIA GPU)插件,且插件版本不低于2.0.10。 如果需要监控GPU虚拟化监控指标,集群中需要已安装Volcano调度器插件,且插件版本不低于1.10.5。 访问Prometheus Prometheus插件安装
compatible_with_legacy_api 否 Bool API兼容开关 默认值:false true:插件支持GPU卡原生模式和XGPU虚拟化模式。 component_schedulername 是 String 插件使用的调度器的名字 默认值:default-scheduler
Jenkins安装部署及对接SWR和CCE集群 使用Kubeflow和Volcano实现典型AI训练任务 kubeflow华为云CCE虚机搭建运行分布式tf报告 通过CCE搭建IPv4/IPv6双栈集群 CCE集群的网络地址段规划实践 使用subpath类型动态创建SFS Turbo存储卷 1.1
表1 GPU驱动支持列表 GPU型号 支持集群类型 机型规格 操作系统 Huawei Cloud EulerOS 2.0(支持GPU虚拟化) Ubuntu 22.04.4 Ubuntu 22.04.3 CentOS Linux release 7.6 EulerOS release