检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
imagePullPolicy: Never 说明如下: 如果设置为Always ,则每次容器启动或者重启时,都会从远程仓库拉取镜像。 如果省略imagePullPolicy,策略默认为Always。 如果设置为IfNotPreset,有下面两种情况: 当本地不存在所需的镜像时,会从远程仓库中拉取。
节点数量过少,无法满足组件Pod的反亲和性要求,对应事件描述中存在didn't match pod anti-affinity rules等字样。 解决方案:可以参考以下方法满足组件Pod的调度要求,处理完成之后再次尝试组件变更操作。 检查节点的污点,删除不必要的污点。具体操作,请参见管理节点污点。 合理分配容
工作负载异常问题排查 工作负载状态异常定位方法 工作负载异常:实例调度失败 工作负载异常:实例拉取镜像失败 工作负载异常:启动容器失败 工作负载异常:实例驱逐异常(Evicted) 工作负载异常:存储卷无法挂载或挂载超时 工作负载异常:一直处于创建中 工作负载异常:Pod一直处于Terminating状态
DNS配置或其他选项不合理时,可以向pod的“/etc/hosts”文件中添加条目,使用hostAliases在pod级别覆盖对主机名的解析。 操作步骤 使用kubectl连接集群。 创建hostaliases-pod.yaml文件。 vi hostaliases-pod.yaml Yaml中加粗字段为镜像及镜像版本,可根据实际需求进行修改:
工作负载 工作负载异常问题排查 容器设置 监控日志 调度策略 其他
roxy分配内存128M,在压测场景下,损耗非常大,最终导致请求失败。 目前压测所有流量都经过Proxy,业务量大就要加大分配资源。 解决方法 传文件涉及大量报文复制,会占用内存,建议把Proxy内存根据实际场景调高后再进行访问和上传。 可以考虑把该服务从网格内移除出去,因为这里
Event事件并非100%打印,在遇到大批量打印相同事件时,可能会出现上述问题。 以上逻辑通过Kubernetes源码中的EventCorrelate方法实现,您可以查看社区的设计方案了解详情。 该问题为Kubernetes设计机制导致,因此您可以无需关注。 父主题: 节点池
否过多,是否超出了节点的处理能力。通常情况下,节点平均负载应该保持在一个合理的范围内,以确保节点的稳定性和可靠性。 Iptables 连接数:连接跟踪表的最大条目数和当前已分配的条目数。 父主题: 监控中心
久卷存储配置ReadWriteOnce,文件存储及对象存储配置ReadWriteMany 回收策略 当与此PV绑定的PVC被删除以后,PV如何被处理的策略 参数名 取值范围 默认值 是否允许修改 作用范围 persistentVolumeReclaimPolicy 两种策略:Retain
1000节点规模设置为500m;2000节点规模设置为800m。 内存限制值:200及以下节点规模设置为300Mi;1000节点规模设置为600Mi;2000节点规模设置为900Mi。 表1 典型场景组件限制值建议 配置场景 everest-csi-controller组件 everest-csi-driver组件
自定义指标 CCE支持采集应用程序中的自定义指标并上传到AOM,为您提供个性化的监控服务。您可以根据特定业务需求,扩展监控指标范围,具体使用方法请参见自定义监控。 父主题: 安全
cce-gpu-topology-predicate true/false true 允许 CCE Standard/CCE Turbo 一台AI服务器上共有8块NPU 1980芯片,4P * 2方式。每4块NPU 1980芯片之间通过HCCS互联,4块之间通过PCIe swith互联。 HCCS互联的4块NPU
lib64" enable_fault_isolation 否 Bool 默认值:true true:插件识别GPU硬件故障或驱动程序问题,设置GPU卡不可用 enable_health_monitoring 否 Bool 默认值:true true:插件能够识别GPU硬件故障或驱动程序问题
签,默认展示集群视图。 监控中心仪表盘提供了预置视图,您可单击视图名称边上的“切换视图”按钮,选择需要的视图查看监控数据。 设置查看视图的相关参数。 设置视图的时间窗。 在页面右上角处,选择时间段,或者自定义时间,并单击刷新界面。 父主题: 仪表盘
表示每个月的哪天,第三个表示每月,第四个表示每周的哪天。 如果您想要每个月的第一天里面每半个小时执行一次,那就可以设置为" 0,30 * 1 * * " 如果您想每个星期天的3am执行一次任务,那就可以设置为 "0 3 * * 0"。 更详细的CronJob格式说明请参见https://zh.wikipedia
的差异及适配方案进行排查并做相应的适配验证。 如您短期内切换到 Helm V3 存在困难,可通过后台 Helm 客户端方式继续管理并部署 Helm V2 实例,操作方法请参见通过 Helm V2 客户端部署应用。为了更好地维护您的权益以及更好地获取运维支撑,请您在2022年12月30日前彻底切换至 Helm
umount: <mount-path>: target is busy 问题根因 出现以上问题的原因是宿主机上有其他进程正在使用该设备。 解决方法 您需要登录到Pod所在宿主机上查找正在使用该设备的进程,并终止对应的进程。 登录Pod所在节点。 执行以下命令,找到对应挂载路径下的云存
范围可选择对应集群或者选择全部。 当指标值小于等于1时,表示集群重度过载,推荐设置紧急告警。 当指标值小于等于2时,表示集群中度过载,推荐设置重要告警。 当指标值小于等于3时,表示集群轻度过载,推荐设置次要告警。 其余参数可按需求填写。 图6 配置集群过载告警 单击“立即创建”。
coredns_dns_request_do_count_total counter 设置了DO标志位的请求次数累计值 coredns_dns_do_requests_total counter 设置了DO标志位的请求总数 coredns_dns_request_size_bytes_bucket
命名空间 创建命名空间 管理命名空间 设置资源配额及限制