检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
检查当前集群版本和要升级的目标版本是否支持增强型CPU管理策略。 解决方案 问题场景:当前集群版本使用增强型CPU管理策略功能,要升级的目标集群版本不支持增强型CPU管理策略功能。 升级到支持增强型CPU管理策略的集群版本,支持增强型CPU管理策略的集群版本如下表所示: 表1 支持增强型CPU管理策略的集群版本列表
CCE事件列表 在集群运行过程中,CCE会上报一系列事件至AOM,您可以根据自身需求添加事件类告警,监控集群数据面和控制面组件的健康状态,及时发现和解决问题,保证集群的稳定性和可靠性。 集群数据面事件:集群运行过程中与用户操作相关的事件,包括工作负载、网络、节点、存储、弹性伸缩等事件。
集群升级流程的执行状态: Init: 表示该升级流程中还未有任何任务开始运行 Running: 表示该升级流程中已有任务开始执行 Pending: 表示该升级流程中有任务执行失败 Success: 表示该升级流程中所有任务都已执行成功 Cancel: 表示该升级流程已被取消 pointStatuses
S服务器的IP地址列表。如果设置为10.247.x.x说明DNS对接到Kube-DNS/CoreDNS,如果是其他IP地址,则表示采用云上DNS或者用户自建的DNS。 search:定义域名的搜索域列表,当访问的域名不能被DNS解析时,会把该域名与搜索域列表中的域依次进行组合,并
模板实例状态 DEPLOYED:已部署,表示模板实例处于正常状态。 DELETED:已删除,表示模板实例已经被删除。 FAILED:失败,表示模板实例部署失败。 DELETING:删除中,表示模板实例正处于删除过程中。 PENDING_INSTALL:待安装,表示模板正在等待安装。 PEND
存储管理 如何扩容容器的存储空间? CCE支持的存储在持久化和多节点挂载方面的有什么区别? 创建CCE节点时可以不添加数据盘吗? CCE集群中的EVS存储卷被删除或者过期后是否可以恢复? 公网访问CCE部署的服务并上传OBS,为何报错找不到host? Pod接口ExtendPathMode:
Language的缩写,是一种用于查询和聚合时间序列数据的查询语言。Prometheus是一个开源的监控系统,用于收集和存储时间序列数据,每个时间序列都由一个唯一的标识符和一组时间戳-值对组成。而PromQL是Prometheus的核心组件之一,使用标识符和标签组成的简单表达式对时间序列进行筛选和聚合,使用户能够根据需要快速定位和解决问题。
sh/gpu-mem.128Mi资源)的工作负载共用一张GPU卡,但不支持和算显隔离模式负载(即同时设置volcano.sh/gpu-mem.128Mi和volcano.sh/gpu-core.percentage资源)共用一张GPU卡。同时,还需遵循GPU虚拟化的其他约束与限制。 约束与限制
集群网络配置相关实践 集群网络地址段规划实践 集群网络模型选择及各模型区别 CCE Turbo配置容器网卡动态预热 在VPC网络集群中访问集群外地址时使用Pod IP作为客户端源IP 网络环境打通相关实践 使用VPC和云专线实现容器与IDC之间的网络通信 集群通过企业路由器连接对端VPC
使用更加简单和灵活的架构,移除了 tiller,直接通过kubeconfig连接apiserver,简化安全模块,降低了用户的使用壁垒。 改进了升级策略,采用三路策略合并补丁 Helm v2 使用双路策略合并补丁。在升级过程中,会对比最近一次发布的chart manifest和本次发布的chart
添加1条CPU使用率指标规则、1条内存使用率指标规则,且规则总数小于等于10条。 规则类型可选择“指标触发”或“周期触发”,两种类型区别如下: 表1 自定义规则类型 规则类型 参数设置 指标触发 触发条件:请选择“CPU分配率”或“内存分配率”,输入百分比的值。该百分比应大于配置
排查项一:节点能否连接互联网 登录ECS控制台。 查看节点对应的弹性云服务器是否已绑定弹性IP或者配置NAT网关。 如图1,若弹性IP一栏有IP地址,表示已绑定弹性IP;若没有,请为弹性云服务器绑定弹性IP。 图1 节点是否已绑定弹性IP 排查项二:节点是否配置网络ACL 登录VPC控制台。
suppressed字样,则也有可能是ARP表超限导致。 解决办法 节点最大可允许的非永久表项数量由内核参数net.ipv4.neigh.default.gc_thresh3确定,此内核参数非namespace隔离,节点和节点上运行容器会共用ARP表项大小。容器场景下,该参数推荐设置为163790。
监控级别 备注 cce_npu_memory_total NPU卡 NPU卡显存总量 cce_npu_memory_used NPU卡 NPU卡显存使用量 cce_npu_utilization NPU卡 NPU卡算力使用率 如何确认节点NPU驱动已安装完成 NPU驱动安装成功后
在Kubernetes默认提供的CPU管理策略中有none和static两种: none: 默认不开启CPU管理策略,表示现有的调度行为。 static:开启静态绑核的CPU管理策略,允许为节点上具有某些资源特征的 Pod(Guaranteed pod)赋予增强的 CPU 亲和性和独占性。 增强型CPU管理策
资源标签选择器,仅节点检查涉及该参数,集群检查和插件检查不涉及 表8 resourceSelectorResponse 参数 参数类型 描述 key String 标签键值 values Array of strings 标签值列表 operator String 标签值 表9 PrecheckStatus
0及以上版本支持。 NPD的检查项主要分为事件类检查项和状态类检查项。 事件类检查项 对于事件类检查项,当问题发生时,NPD会向APIServer上报一条事件,事件类型分为Normal(正常事件)和Warning(异常事件) 表2 事件类检查项 故障检查项 功能 说明 OOMKilling
单击按钮,可以自定义事件列表的展示信息。启用表格内容折行开关,可让表格内容自动折行,禁用此功能将会截断文本,默认停用此开关。 关于事件结构的关键字段详解,请参见事件结构和事件样例。 (可选)在新版事件列表页面,单击右上方的“返回旧版”按钮,可切换至旧版事件列表页面。 在旧版事件列表查看审计事件
密钥创建完成后,您还可以执行表2中的操作。 密钥列表中包含系统密钥资源,系统密钥资源不可更新,也不能删除,只能查看。 表2 其他操作 操作 说明 编辑YAML 单击密钥名称后的“编辑YAML”,可编辑当前密钥的YAML文件。 更新密钥 选择需要更新的密钥名称,单击“更新”。 根据表1更改信息。 单击“确定”。
登录CCE控制台。 在创建工作负载时,在“容器配置”中找到“数据存储”,选择“主机路径(HostPath)”。 设置添加本地磁盘参数,如表1。 表1 卷类型选择主机路径挂载 参数 参数说明 存储类型 主机路径(HostPath)。 主机路径 输入主机路径,如/etc/hosts。 说明: