检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
修复了为业务容器自动挂载npu-smi失败的问题 2.1.5 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 适配CCE v1.29集群 新增静默故障码 2.0.9 v1.21 v1.23 v1.25 v1.27 v1.28 修复进程级故障恢复和给工作负载添加注解偶现失败问题
30版本中,Pod拓扑分布中的最小域特性进阶至GA。此特性允许通过Pod的minDomains字段配置符合条件的域的最小数量。负载拓扑约束匹配到的域的数量如果大于minDomains,则该字段没有影响;如果小于minDomains,则会将全局最小值(符合条件的域中匹配 Pod 的最小数量)设为
CCE节点故障检测插件(node-problem-detector,简称NPD)是一款监控集群节点异常事件的插件,以及对接第三方监控平台功能的组件。它是一个在每个节点上运行的守护程序,可从不同的守护进程中搜集节点问题并将其报告给apiserver。node-problem-detector可以作为DaemonSet运行,
Bool 默认值:false XGPU虚拟化模式的开关 gpu_driver_config 否 Map 针对单个节点池的GPU驱动的相关配置 默认值:{} health_check_xids_v2 否 String 插件健康检查的GPU错误的范围 默认值:"74,79" inject_ld_Library_path
timeout 否 String 健康检查的超时时间(秒) 默认值:10,取值范围1-50 max_retries 否 String 健康检查的最大重试次数 默认值:3,取值范围1-10 protocol 否 String 健康检查的协议 默认值:取关联服务的协议 取值范围:“TCP”、“UDP”或者“HTTP”
30版本中,Pod拓扑分布中的最小域特性进阶至GA。此特性允许通过Pod的minDomains字段配置符合条件的域的最小数量。负载拓扑约束匹配到的域的数量如果大于minDomains,则该字段没有影响;如果小于minDomains,则会将全局最小值(符合条件的域中匹配 Pod 的最小数量)设为
设置自定义采集规则 重新部署monitoring命名空间下的custom-metrics-apiserver工作负载。 图3 重新部署custom-metrics-apiserver 重启后,可以通过以下指令查看对应的Pod的指标是否正常(注意替换命名空间和业务Pod名)。 # 查询指标 $ kubectl
点弹性,以保证集群资源的按需供给,进而保证应用SLA。 基于优先级抢占调度的亲和/反亲和示例 在Pod间亲和场景中,不推荐Pod与比其优先级低的Pod亲和。如果pending状态的Pod与节点上的一个或多个较低优先级Pod具有Pod间亲和性,对较低优先级的Pod发起抢占时,会无法
CCE集群纳管节点时的常见问题及排查方法? 概述 本文主要介绍纳管/添加已有的ECS实例到CCE集群的常见问题。 纳管时,会将所选弹性云服务器的操作系统重置为CCE提供的标准镜像,以确保节点的稳定性,请选择操作系统及重置后的登录方式。 所选弹性云服务器挂载的系统盘、数据盘都会在纳管时被格式化,请确保信息已备份。
Pod所在节点与需挂载的SFS Turbo文件系统间的网络不通。 检查PV中共享地址是否正确。 获取PV的YAML,查看spec.csi.volumeAttributes下的everest.io/share-export-location字段值即为共享地址,正确的共享地址是指定的SFS Turbo文件系统的共享路径。
CCE集群中新增节点时无法添加新的节点,提示子网剩余可用IP不足。 原因分析: 集群默认的节点子网网段较小,子网中的私有IP已用完,无法为节点分配新的私有IP。 解决方法: 场景一:VPC网段的IP未分配完 您可以在创建节点时,在网络配置中选择一个新的节点子网。如果没有可用的节点子网,您可以前
源特征与地址的列表用于用户终端(例如:浏览器)选择。 301 Moved Permanently 永久移动,请求的资源已被永久的移动到新的URI,返回信息会包括新的URI。 302 Found 资源被临时移动。 303 See Other 查看其它地址。 使用GET和POST请求查看。
”。 单击工作负载操作列的“日志”。 您可以在日志上方切换实例和容器。 Pod监控检查方法 登录CCE控制台。 单击集群名称进入集群,在左侧选择“工作负载”。 单击工作负载操作列的“监控”,即可查看Pod的CPU、内存、网络I/O等监控大盘。 登录容器的方法 登录CCE控制台。
节点被判定不可缩容后能再次启动检查的时间间隔,单位分钟,默认值:5。 scaleDownUtilizationThreshold 否 double 判断节点可缩容的cpu和内存资源使用率门限,默认0.5。 maxNodesTotal 否 int 集群扩容的节点数量上限,默认1000。 coresTotal
2(20%),可能有如下情况: 在整个时间间隔内,有20%的SM的Tensor Core以100%的利用率运行。 在整个时间间隔内,有100%的SM的Tensor Core以20%的利用率运行。 在整个时间间隔的1/5时间内,有100%的SM上的Tensor Core以100%利用率运行。 其他组合模式。
您可以使用镜像快速创建一个可公网访问的单实例工作负载。本章节将指导您基于云容器引擎CCE快速部署Nginx容器应用,并管理该容器应用的全生命周期,以期让您具备将云容器引擎应用到实际项目中的能力。 前提条件 您需要创建一个至少包含一个4核8G节点的集群,且该节点已绑定弹性IP。 集群是运行工作负载的逻辑分组,
镜像中用户定义的命令在本机权限不足。 容器引擎与宿主机操作系统或硬件不兼容。 126 命令调用错误 镜像中调用的命令无法执行,例如文件权限不足或文件不可执行。 127 找不到文件或目录 无法找到镜像中指定的文件或目录。 128 无效的退出参数 容器退出但未提供有效的退出代码,可能的原因有
为ELB Ingress配置自定义EIP 通过CCE自动创建的带有EIP的ELB,可以通过添加Ingress的annotation(kubernetes.io/elb.custom-eip-id)完成ELB的EIP的自定义配置。 前提条件 已创建一个CCE Standard或CCE
19 修复监控指标无法被获取的问题 0.7.1 1.14.4 v1.17 v1.19 适配ARM64节点部署 适配containerd运行时节点 0.7.1 1.14.2 v1.17 v1.19 适配CCE v1.19集群 新增支持Ubuntu操作系统和安全容器场景 0.7.1 1
CCEGroup 上述示例为kube-system空间下的CoreDNS设置一条名为“CoreDNS内存使用率超过百分之八十”的告警规则,告警等级为紧急。当内存使用率的最大值大于80%,且持续了1分钟时,给联系组CCEGroup内的所有告警联系人发送通知 (通知方式为短信或邮件)。