检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
升级实例过程中实现业务不中断 应用场景 在Kubernetes集群中,应用通常采用Deployment + LoadBalancer类型Service的方式对外提供访问。应用更新或升级时,Deployment会创建新的Pod并逐步替换旧的Pod,这个过程中可能会导致服务中断。 解决方案
集群网络配置参数说明 参数名称 参数说明 虚拟私有云 显示集群所在虚拟私有云。 虚拟私有云(Virtual Private Cloud,简称VPC)可以为云服务器、云容器、云数据库等资源构建隔离的、用户自主配置和管理的虚拟网络环境。您可以自由配置VPC内的IP地址段、子网、安全组等子服务,也
检查节点上所有磁盘是否存在卡IO,即IO读写无响应 卡IO定义:系统对磁盘的IO请求下发后未有响应,部分进程卡在D状态 典型场景:操作系统硬盘驱动异常或底层网络严重故障导致磁盘无法响应 检查对象:所有数据盘 数据来源: /proc/diskstat 等效查询命令: iostat -xmt
在Kubernetes1.29版本中,CSINodeExpandSecret特性达到GA版本。该特性允许在添加节点时将Secret身份验证数据传递到CSI驱动以供后者使用。 CRD验证表达式语言达到GA 在Kubernetes1.29版本中,CRD验证表达式语言特性达到GA版本。该特性允许用户在
在Kubernetes1.29版本中,CSINodeExpandSecret特性达到GA版本。该特性允许在添加节点时将Secret身份验证数据传递到CSI驱动以供后者使用。 CRD验证表达式语言达到GA 在Kubernetes1.29版本中,CRD验证表达式语言特性达到GA版本。该特性允许用户在
等。 常见的导致集群过载的原因: 集群资源数据量过大 etcd和kube-apiserver是集群控制平面的两个核心组件,etcd是后台数据库,负责存储所有集群数据,而kube-apiserver则是控制平面的入口,负责处理请求。为了减轻etcd的负担,kube-apiserve
# 对象存储容量大小 csi: driver: obs.csi.everest.io # 挂载依赖的存储驱动 fsType: obsfs # 实例类型 volumeHandle: <your_volume_id>
问题导致的敏感信息泄密。 约束与限制 数据加密服务包含密钥管理(Key Management Service, KMS)、云凭据管理(Cloud Secret Management Service,CSMS)和密钥对管理(Key Pair Service, KPS)等服务。当前,该插件仅支持对接其中的云凭据管理服务。
在存储池中导入持久卷 CCE支持使用LVM将节点上的数据卷组成存储池(VolumeGroup),然后划分LV给容器挂载使用。在创建本地持久卷前,需将节点数据盘导入存储池。 约束与限制 本地持久卷仅在集群版本 >= v1.21.2-r0 时支持,且需要everest插件版本>=2.1
19版本集群将docker的存储驱动文件系统由 xfs切换成ext4,可能会导致升级后的java应用Pod内的import包顺序异常,继而导致Pod异常。 升级前查看节点上docker配置文件/etc/docker/daemon.json。检查dm.fs配置项是否为xfs。 若为ext4或存储驱动为overlay则不涉及。
迁移工具安装 Velero是开源的 Kubernetes 集群备份、迁移工具,集成了Restic工具对PV数据的备份能力,可以通过Velero工具将原集群中的K8s资源对象(如Deployment、Job、Service、ConfigMap等)和Pod挂载的持久卷数据保存备份上传
probe就会一直失败导致陷入重启的死循环。 另外检查只能限制在应用内部,不能检查依赖外部的部分,例如当前端web server不能连接数据库时,这个就不能看成web server不健康。 Liveness Probe必须轻量 Liveness Probe不能占用过多的资源,且不
云原生监控插件升级检查异常处理 检查项内容 在集群升级过程中,云原生监控插件从3.9.0之前的版本升级至3.9.0之后的版本升级时,存在兼容性问题,需检查该插件是否开启了grafana的开关。 解决方案 由于云原生监控插件在3.9.0之后的版本,不再聚合grafana的能力,因此
GiB。 容器引擎 Containerd 请根据业务需要选择相应的容器引擎。不同的容器引擎差别请参见容器引擎。 操作系统 Huawei Cloud EulerOS 2.0 请选择节点对应的操作系统。 登录方式 选择“密码”方式登录,密码请您自行设置。 选择“密码”:用户名默认为“r
选择合适的镜像 Alpine容器镜像内置的musl libc库与标准的glibc存在以下差异: 3.3版本及更早版本的Alpine不支持search参数,不支持搜索域,无法完成服务发现。 并发请求/etc/resolve.conf中配置的多个DNS服务器,导致NodeLocal DNSCache的优化失效。
0、VPC网络、容器隧道网络模型。不同的网络模型存在性能和功能各方面的差异,请合理选择,详情请参见集群网络模型。 VPC选择:如果您的应用需要连接其他云服务如RDS数据库等,则需要考虑将相关服务创建在同一个VPC中,因为VPC间网络是相互隔离的。如果您已经创建好实例,也可以将VPC之间通过对等连接进行互通。
image: swr.cn-east-3.myhuaweicloud.com/container/nginx:v1 #SWR中提前上传的镜像,版本号为v1 ports: - name: http containerPort: 80
Prometheus插件已升级至可升级的最新版本。 可迁移的云原生监控插件目标版本为3.10.1及以上。 采集数据迁移 迁移至基于本地存储的传统模式时,数据库是自动迁移的,您只需继续执行后续采集配置迁移步骤即可。 迁移至无本地存储的轻量化模式时,由于原本的数据存储于集群内的PVC中,后续新增数据
工作负载的“事件”保存多长时间? 在1.7.3-r12、1.9.2-r3及以上版本的集群中,工作负载的“事件”信息保存时间为1个小时,1小时后自动清除数据。 在1.7.3-r12之前更老的集群版本中,保存时间为24小时。 父主题: 监控日志
delete -f tf-mnist.yaml 使用GPU训练 TFJob可在GPU场景下进行,该场景需要集群中包含GPU节点,并安装合适的驱动。 在TFJob中指定GPU资源。 创建tf-gpu.yaml文件,示例如下: 该示例的主要功能是基于Tensorflow的分布式架构,利