检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用dcgm-exporter监控GPU指标 应用场景 集群中包含GPU节点时,需要了解GPU应用使用节点GPU资源的情况,例如GPU利用率、显存使用量、GPU运行的温度、GPU的功率等。在获取GPU监控指标后,用户可根据应用的GPU指标配置弹性伸缩策略,或者根据GPU指标设置告警规则
Kubernetes Dashboard插件版本发布记录 表1 Kubernetes Dashboard插件版本记录 插件版本 支持的集群版本 更新特性 社区版本 3.0.4 v1.27 v1.28 v1.29 修复部分问题 7.3.2 3.0.2 v1.27 v1.28 v1.29
Containerd Pod重启风险检查异常处理 检查项内容 检查当前集群内使用containerd的节点在升级containerd组件时,节点上运行的业务容器是否可能发生重启,造成业务影响。 解决方案 检测到您的节点上的containerd服务存在重启风险;请确保在业务影响可控的前提下
Secret Secret是一种加密存储的资源对象,您可以将认证信息、证书、私钥等保存在Secret中,而不需要把这些敏感数据暴露到镜像或者Pod定义中,从而更加安全和灵活。 Secret与ConfigMap非常像,都是key-value键值对形式,使用方式也相同,不同的是Secret
挂载文件存储的节点,Pod创建删除卡死 故障现象 在挂载文件存储(SFS或SFS Turbo)的节点上,删除Pod卡在“结束中”,创建Pod卡在“创建中”。 可能原因 后端文件存储被删除,导致无法访问挂载点。 节点与文件存储间网络异常,导致无法访问挂载点。 解决方案 登录挂载文件存储的节点
如何删除Terminating状态的命名空间? Kubernetes中namespace有两种常见的状态,即Active和Terminating状态。当对应的命名空间下还存在运行的资源,但该命名空间被删除时才会出现Terminating状态,这种情况下只要等待Kubernetes本身将命名空间下的资源回收后
everest插件版本限制检查异常处理 检查项内容 检查集群当前everest插件版本是否存在兼容性限制。 表1 受限的everest插件版本 插件名称 涉及版本 everest v1.0.2-v1.0.7 v1.1.1-v1.1.5 解决方案 检测到当前everest版本存在兼容性限制
ConfigMap ConfigMap是一种用于存储应用所需配置信息的资源类型,用于保存配置数据的键值对,可以用来保存单个属性,也可以用来保存配置文件。 通过ConfigMap可以方便地做到配置解耦,使得不同环境有不同的配置。 创建ConfigMap 下面示例创建了一个名为configmap-test
Volume 容器中的文件在磁盘上是临时存放的,当容器重建时,容器中的文件将会丢失,另外当在一个Pod中同时运行多个容器时,常常需要在这些容器之间共享文件,这也是容器不好解决的问题。 Kubernetes抽象出了Volume来解决这两个问题,也就是存储卷,Kubernetes的Volume
DNAT网关(DNAT) 操作场景 “DNAT网关”可以为集群节点提供网络地址转换服务,使多个节点可以共享使用弹性IP。 NAT网关与弹性IP方式相比增强了可靠性,弹性IP无需与单个节点绑定,任何节点状态的异常不影响其访问。访问方式由公网弹性IP地址以及设置的访问端口组成,例如“10.117.117.117
搭建Jenkins和Gitlab环境 前提条件 创建一个新的VPC,本示例中名为vpc-X,所使用网段为192.168.0.0/16。 创建一台位于vpc-X(192.168.0.0/16网段)的ECS服务器,推荐规格为4vCPUs 16GiB,系统为Huawei Cloud EulerOS
服务端口配置 端口名称 端口的名称 参数名 取值范围 默认值 是否允许修改 作用范围 name 0-253字符 无 创建时可修改 CCE Standard/CCE Turbo 容器业务端口 业务容器中启用的端口 参数名 取值范围 默认值 是否允许修改 作用范围 targetPort
企业管理应用容器化改造(ERP) 应用容器化改造方案概述 资源与成本规划 实施步骤 父主题: 容器化改造
EulerOS 2.9内核缺陷导致虚拟机卡住 故障现象 EulerOS 2.9节点上,由于内核存在调度相关的社区问题,有低概率会触发死锁,表现为虚拟机卡住。 影响范围 x86内核版本:4.18.0-147.5.1.6.h1152.eulerosv2r9.x86_64 arm内核版本
节点干扰ContainerdSock检查异常处理 检查项内容 检查节点上是否存在干扰的Containerd.Sock文件。该文件影响Euler操作系统下的容器运行时启动。 解决方案 问题场景:节点使用的docker为定制的Euler-docker而非社区的docker 登录相关节点
Namespace:资源分组 为什么需要Namespace Label虽然好,但只用Label的话,那Label会非常多,有时候会有重叠,而且每次查询之类的动作都带一堆Label非常不方便。Kubernetes提供了Namespace来做资源组织和划分,使用多Namespace可以将包含很多组件的系统分成不同的组
鲲鹏集群Docker容器挂载点被卸载 故障现象 鲲鹏集群Docker容器挂载点被卸载。 问题根因 鲲鹏集群节点为EulerOS 2.8系统时,如果在Docker服务文件中配置了MountFlags=shared字段,会因为systemd特性的原因导致容器挂载点被卸载。 解决方法 修改
cce-hpa-controller插件限制检查异常处理 检查项内容 检查cce-controller-hpa插件的目标版本是否存在兼容性限制。 解决方案 检测到目标cce-controller-hpa插件版本存在兼容性限制,需要集群安装能提供metrics api的插件,例如metrics-server
Label:组织Pod的利器 为什么需要Label 当资源变得非常多的时候,如何分类管理就非常重要了,Kubernetes提供了一种机制来为资源分类,那就是Label(标签)。Label非常简单,但是却很强大,Kubernetes中几乎所有资源都可以用Label来组织。 Label
有状态负载(StatefulSet) 有状态负载(StatefulSet) Deployment控制器下的Pod都有个共同特点,那就是每个Pod除了名称和IP地址不同,其余完全相同。需要的时候,Deployment可以通过Pod模板创建新的Pod;不需要的时候,Deployment