检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
节点特殊资源:部分Pod可能请求特殊的资源类型,例如GPU等资源,调度器只能将其调度到GPU类型的节点上。 节点健康状态:节点的健康状况和状态可能影响调度决策,不健康的节点可能不会调度新的Pod。 为什么Pod实际负载在节点上分布不均匀 kube-scheduler调度器在分配Pod时不会考虑应用的实际负载
目标子网之间的连通性。 创建集群VPC和目标VPC的对等连接后,只需要建立节点子网和目标子网之间的路由。 VPC网络 在VPC网络中,使用VPC路由功能来转发容器的流量。集群VPC的网段与容器网段不能重叠,二者是独立存在的。 从Pod访问不同VPC下的其他服务时,不仅需确保节点子
4-kube-proxy的ipvs和iptables转发原理 5-CCE集群VPC模型容器网络走线介绍 6-CCE Turbo集群容器网络走线介绍 CCE集群中容器出网总结 GPU&AI相关 基于Nvidia xid进行GPU故障定位 CCE中GPU虚拟化的使用 Kubernetes场景下基于Nvidia
CCE集群支持虚拟机与裸金属服务器混合、GPU、NPU等异构节点的混合部署,基于高性能网络模型提供全方位、多场景、安全稳定的容器运行环境。 Turbo: CCE Turbo集群。 全面基于云原生基础设施构建的云原生2.0的容器引擎服务,具备软硬协同、网络无损、安全可靠、调度智能的优势,为
仪表盘 使用仪表盘 集群视图 APIServer视图 Pod视图 主机视图 Node视图 节点池视图 GPU视图 XGPU视图 CoreDNS视图 PVC视图 Kubelet视图 Prometheus Server视图 Prometheus Agent视图 父主题: 监控中心
节点池异常状态排查 节点池一直在扩容中但“操作记录”里为何没有创建节点的记录? 节点池扩容失败 节点池批量扩缩容节点时,Kubernetes Event事件存在部分缺失 云服务器无法纳管至节点池时如何修改云服务器配置
g状态 工作负载异常:已停止 工作负载异常:GPU节点部署服务报错 工作负载异常:添加存储失败 工作负载异常:实例无法写入数据 工作负载异常:Init容器启动失败 工作负载异常:OOM问题 工作负载状态正常但未正常工作 挂载文件存储的节点,Pod创建删除卡死 容器异常退出状态码 父主题:
和管理服务器、不用担心服务器的运行状态(服务器是否在工作等),只需动态申请应用需要的资源,把服务器留给专门的维护人员管理和维护,进而专注于应用开发,提升应用开发效率、节约企业IT成本。传统上使用Kubernetes运行容器,首先需要创建运行容器的Kubernetes服务器集群,然后再创建容器负载。
云硬盘 随按需计费云服务器创建的云硬盘,其计费模式也为按需计费。包括系统盘和数据盘。 弹性公网IP 通过CCE控制台创建的按需计费云服务器支持同时绑定“按带宽计费”或“按流量计费”的弹性公网IP。CCE控制台不支持加入共享带宽,请前往弹性公网IP控制台购买后绑定至云服务器。 搭配“按带
云监控服务AOM:CCE默认的基础资源监控,覆盖详细的容器相关指标,并提供告警配置能力。 开源Prometheus:面向云原生应用程序的开源监控工具,并集成独立的告警系统,提供更高自由度的监控告警配置。 监控 未配置监控告警,将无法建立容器集群性能的正常标准,在出现异常时无法及时收到告警,需要人工巡检环境。
Server插件版本发布记录 CCE容器弹性引擎插件版本发布记录 CCE突发弹性引擎(对接CCI)插件版本发布记录 CCE AI套件(NVIDIA GPU)版本发布记录 CCE AI套件(Ascend NPU)版本发布记录 Volcano调度器版本发布记录 CCE密钥管理(对接 DEW)插件版本发布记录
bug修复,自动移除已删除的节点池 设置优先调度 注册EmptyDir调度策略 修复停用节点伸缩策略时,低于缩容阈值的节点未触发缩容的问题 修改自定义规格的内存申请与限制 当没有开启弹性伸缩的节点池时上报无法伸缩的事件 修复NPU节点在扩容过程中会再次触发扩容的问题 1.23.0 1
通过CCE控制台创建的包年/包月云服务器仅支持绑定“按带宽计费”的弹性公网IP。如需使用“按流量计费”或“加入共享带宽”,请前往弹性公网IP控制台购买后绑定至云服务器。 包年/包月云服务器搭配“按带宽计费”的弹性公网IP时,带宽的计费模式同为包年/包月。 计费周期 包年/包月CCE资源的计费周
这就需要在CCE集群上既能使用华为云域名解析服务器,也能够使用IDC内部域名服务器。如果将CCE节点上域名解析服务器指向IDC的域名解析服务器,那会导致无法解析华为云的域名;如果修改hosts文件配置增加IDC内部域名IP,在IDC内部服务IP变化时需要实时刷新CCE节点的配置,这很难做到且会导致不可用。
y)。 集群级别:集群下所有节点的IP+节点端口均可以访问到此服务关联的负载,服务访问会因路由跳转导致一定性能损失,且无法获取到客户端源IP。 节点级别:只有通过负载所在节点的IP+节点端口才可以访问此服务关联的负载,服务访问没有因路由跳转导致的性能损失,且可以获取到客户端源IP。
操作过程中可能存在非预期风险,请提前做好相关的数据备份。 操作方法 登录CCE控制台,单击集群名称进入集群。 在集群控制台左侧导航栏中选择“节点管理”,切换至“节点”页签。 找到目标节点,单击待关机节点的名称。 页面跳转至弹性云服务器详情页中,单击右上角的“关机”,在弹出的关机窗口中单击“确定”,即可完成关机操作。
metadata AddonMetadata object 基本信息,为集合类的元素类型,包含一组由不同名称定义的属性 spec InstanceSpec object spec是集合类的元素类型,内容为插件实例具体信息,实例的详细描述主体部分都在spec中给出 status AddonInstanceStatus
选择合适的镜像 Alpine容器镜像内置的musl libc库与标准的glibc存在以下差异: 3.3版本及更早版本的Alpine不支持search参数,不支持搜索域,无法完成服务发现。 并发请求/etc/resolve.conf中配置的多个DNS服务器,导致NodeLocal DNSCache的优化失效。
集群创建的Service绑定已有的ELB监听器,将集群的容器实例和ECS虚拟机添加到同一个ELB监听器的后端服务器组,可实现将流量转发到集群容器实例或ECS虚拟机。参见为ELB监听器配置同VPC内的ECS后端。 图2 配置ECS和集群后端示意图 同一个集群中可能存在多个后端服务
binpack策略中的CPU权重为5,Memory权重保持为1。 优先减少集群中的Memory资源碎片:建议提高binpack策略中的Memory权重为5,CPU权重保持为1。 优先减少集群中的GPU资源碎片:建议自定义资源类型(GPU),并设置GPU资源权重为10,CPU权重保持为1,Memory权重保持为1。