检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
deployment.yaml 根据需要在spec.template.metadata.annotations中设置工作负载实例的网络带宽,限制容器的网络流量,网络带宽限制字段详解请参见表1。 未设置默认不限制。 示例如下: apiVersion: apps/v1 kind: Deployment
询监控指标,配置基于PromQL的告警规则。 当前云原生监控插件仅支持开启本地数据存储时,提供PrometheusRules配置的能力。 如何配置PrometheusRules Prometheus提供了PrometheusRules的用于创建用户自己的record来查询指标。 apiVersion:
际转发策略可根据域名、service来区分);所以出现客户侧在其它命名空间无法创建相同端口的ingress的情况(会提示端口冲突)。 解决方法 可以使用yaml创建,端口冲突只有前台限制,后台未限制。 父主题: 网络指导
10版本集群,请尽快升级到较新版本集群,CCE预计将在2021年4月30日后关闭对应升级通道,请您务必在此之前升级您的Kubernetes集群。 升级方法请参见集群版本升级说明。 父主题: 集群版本公告
范围:正整数;例如0,表示关闭预热容器网卡上限值检查。当超过节点的容器网卡配额时,后台取值为节点的容器网卡配额。 配置建议: 建议设置为0,如期望配置检查上限,建议将此值设置为大部分节点平时最多运行的Pod数 动态预热容器网卡数 节点动态预热容器网卡数 参数名 取值范围 默认值 是否允许修改
ntainerd.service LimitNOFILE或LimitNPROC参数设置为infinity时,表示容器单进程最大文件句柄数为1048576。 容器单进程最大文件句柄数通过以下参数设置: ... LimitNOFILE=1048576 LimitNPROC=1048576
自定义扩容规则:单击“添加规则”,在弹出的添加规则窗口中设置参数。您可以设置多条节点弹性策略,最多可以添加1条CPU使用率指标规则、1条内存使用率指标规则,且规则总数小于等于10条。 规则类型可选择“指标触发”或“周期触发”,两种类型区别如下: 表1 自定义规则类型 规则类型 参数设置 指标触发 触发条件:请选
it提交Spark应用程序的工作原理如下: 创建一个Pod,用于运行Spark的驱动程序。 驱动程序在集群中创建执行程序的Pod并与其建立连接,用于执行应用程序代码。 应用程序完成后,执行程序的Pod将终止并清理,但驱动程序Pod仍然存在并保持在“已停止”状态,直到最终进行垃圾回
imagePullPolicy: Never 说明如下: 如果设置为Always ,则每次容器启动或者重启时,都会从远程仓库拉取镜像。 如果省略imagePullPolicy,策略默认为Always。 如果设置为IfNotPreset,有下面两种情况: 当本地不存在所需的镜像时,会从远程仓库中拉取。
Event事件并非100%打印,在遇到大批量打印相同事件时,可能会出现上述问题。 以上逻辑通过Kubernetes源码中的EventCorrelate方法实现,您可以查看社区的设计方案了解详情。 该问题为Kubernetes设计机制导致,因此您可以无需关注。 父主题: 节点池
节点数量过少,无法满足组件Pod的反亲和性要求,对应事件描述中存在didn't match pod anti-affinity rules等字样。 解决方案:可以参考以下方法满足组件Pod的调度要求,处理完成之后再次尝试组件变更操作。 检查节点的污点,删除不必要的污点。具体操作,请参见管理节点污点。 合理分配容
范围可选择对应集群或者选择全部。 当指标值小于等于1时,表示集群重度过载,推荐设置紧急告警。 当指标值小于等于2时,表示集群中度过载,推荐设置重要告警。 当指标值小于等于3时,表示集群轻度过载,推荐设置次要告警。 其余参数可按需求填写。 图6 配置集群过载告警 单击“立即创建”。
DNS配置或其他选项不合理时,可以向pod的“/etc/hosts”文件中添加条目,使用hostAliases在pod级别覆盖对主机名的解析。 操作步骤 使用kubectl连接集群。 创建hostaliases-pod.yaml文件。 vi hostaliases-pod.yaml Yaml中加粗字段为镜像及镜像版本,可根据实际需求进行修改:
签,默认展示集群视图。 监控中心仪表盘提供了预置视图,您可单击视图名称边上的“切换视图”按钮,选择需要的视图查看监控数据。 设置查看视图的相关参数。 设置视图的时间窗。 在页面右上角处,选择时间段,或者自定义时间,并单击刷新界面。 父主题: 仪表盘
工作负载异常问题排查 工作负载状态异常定位方法 工作负载异常:实例调度失败 工作负载异常:实例拉取镜像失败 工作负载异常:启动容器失败 工作负载异常:实例驱逐异常(Evicted) 工作负载异常:存储卷无法挂载或挂载超时 工作负载异常:一直处于创建中 工作负载异常:Pod一直处于Terminating状态
命名空间 创建命名空间 管理命名空间 设置资源配额及限制
工作负载 工作负载异常问题排查 容器设置 监控日志 调度策略 其他
roxy分配内存128M,在压测场景下,损耗非常大,最终导致请求失败。 目前压测所有流量都经过Proxy,业务量大就要加大分配资源。 解决方法 传文件涉及大量报文复制,会占用内存,建议把Proxy内存根据实际场景调高后再进行访问和上传。 可以考虑把该服务从网格内移除出去,因为这里
cce-gpu-topology-predicate true/false true 允许 CCE Standard/CCE Turbo 一台AI服务器上共有8块NPU 1980芯片,4P * 2方式。每4块NPU 1980芯片之间通过HCCS互联,4块之间通过PCIe swith互联。 HCCS互联的4块NPU
1000节点规模设置为500m;2000节点规模设置为800m。 内存限制值:200及以下节点规模设置为300Mi;1000节点规模设置为600Mi;2000节点规模设置为900Mi。 表1 典型场景组件限制值建议 配置场景 everest-csi-controller组件 everest-csi-driver组件