检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
end_pkt_internet[5m])”,然后单击右上角“Run query”即可获取指标图表。 图2 Grafana图表 您也可以将常用图表固定为Grafana Dashboard,详情请参见Create a dashboard。 父主题: 云原生观测最佳实践
0/25,该网段包含128个容器IP。 图4 路由 当访问容器IP时,VPC路由就会将指向目的地址的流量转发到下一跳的节点,访问示例如下。 使用kubectl命令行工具连接集群,详情请参见通过kubectl连接集群。 在集群中创建一个Deployment。 创建deployment.yaml文件,文件内容示例如下:
system:cluster-autoscaler 6d1h ... 其中,最重要最常用的是如下四个ClusterRole。 view:拥有查看命名空间资源的权限 edit:拥有修改命名空间资源的权限 admin:拥有命名空间全部权限
jmesPath Array of Object 是 jmesPath是一种从json格式的对象中提取key-value的工具,CCE密钥管理插件使用该工具支持Secret挂载功能。 path:填写DEW服务凭据中的key。 说明: key不能带有+、-、{}、()等特殊符号。
优先级调度与抢占介绍 用户在集群中运行的业务丰富多样,包括核心业务、非核心业务,在线业务、离线业务等,根据业务的重要程度和SLA要求,可以对不同业务类型设置相应的高优先级。比如对核心业务和在线业务设置高优先级,可以保证该类业务优先获取集群资源。当集群资源被非核心业务占用,整体
name: 'drf' - name: 'predicates' - name: 'nodeorder' predicates 预选节点的常用算法,包括节点亲和、Pod亲和、污点容忍、Node重复,volume limits,volume zone匹配等一系列基础算法。 - - plugins:
态负载发生变更时立刻在实例上生效。 调度策略:通过配置亲和与反亲和规则,可实现灵活的工作负载调度,支持负载亲和与节点亲和。 负载亲和:提供常用的负载亲和策略,快速实现负载亲和部署。 不配置:不设置负载亲和策略。 优先多可用区部署:通过设置Pod间反亲和(podAntiAffini
您可以修改节点进程ID上限,详情请参见修改节点进程 ID数量上限kernel.pid_max。 排查项二:是否在实例上设置了tolerations 通过kubectl工具或单击对应工作负载后的“更多 > 编辑YAML”,检查工作负载上是不是设置了容忍度,具体请参见污点和容忍度。 排查项三:是否满足停止驱逐实例的条件
JSON视图创建自定义策略:可以在选择策略模板后,根据具体需求编辑策略内容;也可以直接在编辑框内编写JSON格式的策略内容。 具体创建步骤请参见:创建自定义策略。本章为您介绍常用的CCE自定义策略样例。 CCE自定义策略样例: 示例1:创建一个名称为“test”的集群 { "Version": "1.1",
tPolicy字段,当配置为Always时表示启用边车容器。边车容器和业务容器部署在同一个Pod中,但并不会延长Pod的生命周期。边车容器常用于网络代理、日志收集等场景。更多使用细节请参考边车容器。 传统ServiceAccount令牌清理器达到Beta 在Kubernetes1
tPolicy字段,当配置为Always时表示启用边车容器。边车容器和业务容器部署在同一个Pod中,但并不会延长Pod的生命周期。边车容器常用于网络代理、日志收集等场景。更多使用细节请参考边车容器。 传统ServiceAccount令牌清理器达到Beta 在Kubernetes1
集群版本EOS后,云容器引擎(CCE)将不再支持对该版本的集群创建,同时不提供相应的技术支持,包含新特性更新、漏洞/问题修复、补丁升级以及工单指导、在线排查等客户支持,不再适用于CCE服务SLA保障。请前往CCE的集群管理页面,升级集群版本。详情请参见集群升级指导。 集群运维能力 云原生监控插件状态是否正常
”。 集群创建预计需要5-10分钟,您可以单击“返回集群管理”进行其他操作或单击“查看集群事件列表”后查看集群详情。 相关操作 通过命令行工具连接集群:请参见通过kubectl连接集群。 添加节点:集群创建完成后,若您需要为集群添加节点,请参见创建节点。 创建IPv4/IPv6双
heus会自动采集监控信息(默认为“/metrics”路径)。本文使用cloudeye-exporter作为示例。 Prometheus中常用的annotations如下: prometheus.io/scrape:true表示该资源会作为监控目标。 prometheus.io/
通过CCE配置自定义告警 当默认的告警规则无法满足您的述求时,可以创建自定义告警规则。通过在CCE中创建告警规则,您可以及时了解集群中各种资源是否存在异常。 添加指标类告警示例 基于Prometheus指标的阈值告警规则,指标告警规则依赖开通监控中心,请前往监控中心一键开通。详情请参见开通监控中心。
目的连接数。常用于短连接服务,例如HTTP等服务。 加权最少连接:最少连接是通过当前活跃的连接数来估计服务器负载情况的一种动态调度算法。加权最少连接就是在最少连接数的基础上,根据服务器的不同处理能力,给每个服务器分配不同的权重,使其能够接受相应权值数的服务请求。常用于长连接服务,例如数据库连接等服务。
DockerHub对用户拉取容器镜像请求设定了上限,详情请参见Understanding Docker Hub Rate Limiting。 解决方案: 将常用的镜像上传到SWR,然后从SWR拉取镜像。 父主题: 工作负载异常问题排查
集群视角的成本可视化最佳实践 应用现状 当前使用CCE时,默认是以CCE整个云服务的粒度体现计费信息,没有划分不同集群使用的成本。 解决方案 通过给集群使用的资源打上CCE-Cluster-ID标签,在成本中心通过标签过滤汇聚整个集群所使用资源的成本,以集群为单位进行成本分析,降本增效。
Dashboard来展示gpu的相关指标信息。 关于在Grafana导入Dashboard的方法,请参见Manage dashboards。 可观测指标 以下是一些常用的GPU观测指标,更多指标详情请参见Field Identifiers。 表1 利用率 指标名称 指标类型 单位 说明 DCGM_FI_DEV_GPU_UTIL
和替换升级,详情请参见设置工作负载升级策略。 调度策略:通过配置亲和与反亲和规则,可实现灵活的工作负载调度,支持节点亲和。 节点亲和:提供常用的负载亲和策略,快速实现负载亲和部署。 不配置:不设置节点亲和策略。 指定节点调度:通过设置节点亲和(nodeAffinity)实现,指定