检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
5字符。 告警消息显示名:即订阅终端接收消息的标题名称。假设订阅终端为邮件,推送邮件消息时,若已设置告警消息显示名,发件人则呈现为“显示名”,若未设置告警消息显示名,发件人呈现为“username@example.com”。支持在联系组创建完成后修改告警消息显示名。 添加订阅终端
hostaliases-pod.yaml 命令行终端显示如下信息表明pod已创建。 pod/hostaliases-pod created 查看pod状态。 kubectl get pod hostaliases-pod pod状态显示为Running,表示pod已创建成功。 NAME
Standard/CCE Turbo 集群显示名称 集群显示名称 参数名 取值范围 默认值 是否允许修改 作用范围 alias 以小写字母开头,由小写字母、数字、中划线(-)组成,长度范围4-128位,且不能以中划线(-)结尾 集群显示名不指定时,默认继承集群名称的取值 更新集群时支持修改
否 Json Map CoreDNS域名解析:安装插件所需设置的参数说明请参见 CoreDNS域名解析。 云原生监控插件:安装插件所需设置的参数说明请参见 云原生监控。 云原生日志采集插件:安装插件所需设置的参数说明请参见 云原生日志采集。 CCE突发弹性引擎(对接 CCI):安装插件所需设置的参数说明请参见
的包含大量的计算密集型任务,开发者非常愿意基于Kubernetes构建AI平台,充分利用Kubernetes提供的资源管理、应用编排、运维监控能力。 Kubernetes存在的问题 Kubeflow在调度环境使用的是Kubernetes的默认调度器。而Kubernetes默认调度
业。 规格差异 网络模型 云原生网络1.0:面向性能和规模要求不高的场景。 容器隧道网络模式 VPC网络模式 云原生网络2.0:面向大规模和高性能的场景。 组网规模最大支持2000节点 云原生网络2.0:面向大规模和高性能的场景。 网络性能 VPC网络叠加容器网络,性能有一定损耗
该修复方案可能影响通过ECS Console修改密码,修复前须进行验证。 获取集群的网络模式和容器网段信息。 在CCE的“集群管理”界面查看集群的网络模式和容器网段。 禁止容器获取宿主机元数据。 VPC网络集群 以root用户登录集群的每一个node节点,执行以下命令: iptables
离。 下列检查项中若未明确指出检查周期,则默认周期为30秒。 表3 系统组件检查 故障检查项 功能 说明 容器网络组件异常 CNIProblem 检查CNI组件(容器网络组件)运行状态 无 容器运行时组件异常 CRIProblem 检查节点CRI组件(容器运行时组件)Docker和Containerd的运行状态
是否开启指定容器网络配置:仅支持该功能的集群显示该选项,开启指定容器网络配置,工作负载使用指定的容器网络配置中的容器子网跟安全组来创建,详情请参见使用容器网络配置为命名空间/工作负载绑定子网及安全组。 指定容器网络配置名:只支持选择关联资源类型为工作负载类型的自定义容器网络配置。 IPv6共享带宽:仅支持该功能的集群
Server通信的端口。 10248 –healthz-port:健康检查服务的端口。 10255 –read-only-port:只读端口,用于对外提供监控指标。 父主题: 节点运行
配置中心 集群配置概览 集群访问配置 网络配置 调度配置 集群弹性伸缩配置 监控运维配置 Kubernetes原生配置 异构资源配置
用户节点组件健康检查异常处理 检查项内容 检查用户节点的容器运行时组件和网络组件等是否健康。 解决方案 问题场景一:CNI Agent is not active 如果您的集群版本在1.17.17以下,或者1.17.17以上且是隧道网络,请登录该节点,执行systemctl status ca
Hub、Quay、Harbor等)。 同步只通过内存和网络,不依赖磁盘存储,同步速度快。 增量同步, 经过对同步过的镜像blob信息落盘,不重复同步已同步的镜像。 并发同步,能够经过配置文件调整并发数。 自动重试失败的同步任务,能够解决大部分镜像同步中的网络抖动问题。 不依赖 docker 以及其余程序。
云原生可观测性插件 云原生监控插件 云原生日志采集插件 CCE节点故障检测 CCE容器网络扩展指标 Kubernetes Metrics Server Grafana Prometheus(停止维护) 父主题: 插件
CPU(和网络)负载也越高 参数名 取值范围 默认值 是否允许修改 作用范围 concurrent-deployment-syncs 大于等于0 5 允许 CCE Standard/CCE Turbo 允许同时同步的资源对象的数量。配置数量越大,管理响应越快,但 CPU(和网络)负载也越高
上一章节介绍的HostPath是一种持久化存储,但是HostPath的内容是存储在节点上,导致只适合读取。 如果要求Pod重新调度后仍然能使用之前读写过的数据,就只能使用网络存储了,网络存储种类非常多且有不同的使用方法,通常一个云服务提供商至少有块存储、文件存储、对象存储三种。Kubernetes解决这个问题的方式是
在CCE集群中使用工作负载Identity的安全配置建议 工作负载指标监控实践 使用Prometheus监控多个集群 使用dcgm-exporter监控GPU指标 将Prometheus监控数据上报至第三方监控平台 通过PromQL语句查询Prometheus数据 工作负载弹性伸缩实践
检查节点的安全组配置。具体操作,可参考节点的安全组检查。 若节点的网络负载过高,请参考以下步骤进行排查: 通过节点的监控查节点网络增长曲线,检查节点上的Pod是否存在占用网络带宽过多的现象。 使用网络策略控制Pod的网络流量。具体操作,请参考配置网络策略限制Pod访问的对象。 节点PLEG异常-PLEG
CCE支持采集NGINX Ingress日志,并借助LTS日志服务进行多维度分析,并为NGINX日志配置结构化和仪表盘,支持监控中心、访问中心和秒级监控仪表盘,满足不同场景的监控需求。详情请参见NGINX仪表盘模板。 登录CCE控制台,进入一个已有的集群,在左侧导航栏中选择“日志中心”。 选
份/归档、视频点播、视频监控等多种数据存储场景。 标准接口:具备标准Http Restful API接口,用户必须通过编程或第三方工具访问对象存储。 数据共享:服务器、嵌入式设备、IOT设备等所有调用相同路径,均可访问共享的对象存储数据。 公共/私有网络:对象存储数据允许在公网访问,满足互联网应用需求。