检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
升级集群 升级集群的流程和方法 升级前须知 升级后验证 集群跨版本业务迁移 升级前检查异常问题排查 父主题: 集群
订单中存在主从关系的资源,需分别退订。 资源退订,相关注意事项请参见退订规则说明。 操作步骤 在执行退订操作前,请确保将退订的云资源上的数据已完成备份或者迁移,退订完成后云资源将被删除,数据无法找回,请谨慎操作。 页面中间有关于5天无理由退订的已退订次数和剩余退订次数提示,请注意查看。 进入“云服务退订”页面。
工作负载异常:GPU节点部署服务报错 问题现象 在CCE集群的GPU节点上部署服务出现如下问题: 容器无法查看显存。 部署了7个GPU服务,有2个是能正常访问的,其他启动时都有报错。 2个是能正常访问的CUDA版本分别是10.1和10.0 其他服务CUDA版本也在这2个范围内 在
通过静态存储卷使用已有文件存储 通过动态存储卷使用文件存储 通过动态存储卷创建SFS子目录 设置文件存储挂载参数 将容器应用从SFS 1.0迁移到通用文件系统(SFS 3.0)或SFS Turbo 父主题: 存储
存储扩容 跨账号挂载对象存储 通过StorageClass动态创建SFS Turbo子目录 1.15集群如何从Flexvolume存储类型迁移到CSI Everest存储类型 自定义StorageClass 使用延迟绑定的云硬盘(csi-disk-topology)实现跨AZ调度
障场景下,容器可能会频繁迁移而影响业务;如果容忍时间配置过大,在节点故障时,容器可能长时间无法迁移,导致业务受损。 默认:300s 容器迁移对节点无法访问状态的容忍时间 default-unreachable-toleration-seconds 容器迁移对节点无法访问状态的容忍
service: name: <your_service_name> #替换为您的目标服务名称 port: number: <your_service_port>
Ingress和Nginx Ingress对比 ELB Ingress管理 Nginx Ingress管理 自建Nginx Ingress迁移到ELB Ingress 父主题: 网络
使用Prometheus监控Master节点组件指标 监控NGINX Ingress控制器指标 监控CCE Turbo集群容器网络扩展指标 Prometheus插件平滑迁移实践 父主题: 云原生观测
在打开节池混部开关时,会校验您之前是否启用了kubelet混部超卖配置,若已启用请在开启提示中确认将kubelet混部超卖自动迁移到云原生混部,具体迁移说明可查看kubelet超卖迁移至云原生混部超卖说明。 您可以对以下混部配置进行配置: 参数 默认行为 参数说明 CPU 弹性限流 开启 开启CPU
FOO_SERVICE_HOST=<the host the Service is running on> FOO_SERVICE_PORT=<the port the Service is running on> 因此必须在Pod被创建之前创建它想要访问的任何Service, 否
Context字段。 PodSecurityPolicy允许为不同的服务账号(Service Account)绑定不同策略(Kubernetes社区不建议使用该能力)。如果您有使用该能力的诉求,在迁移至Pod Security Admission后,需要自行定义第三方Webhook。
默认数据盘空间分配说明 节点可创建的最大Pod数量说明 CCE节点kubelet和runtime组件路径与社区原生配置差异说明 将节点容器引擎从Docker迁移到Containerd 节点系统参数优化 配置节点故障检测策略 创建节点时执行安装前/后脚本 云服务器事件处理建议 父主题: 节点
管理节点池 更新节点池 更新弹性伸缩配置 修改节点池配置 纳管节点至节点池 复制节点池 同步节点池 升级操作系统 迁移节点 删除节点池 父主题: 节点池
secret docker-registry myregistrykey -n default --docker-server=DOCKER_REGISTRY_SERVER --docker-username=DOCKER_USER --docker-password=DOCKER_PASSWORD
pool空间耗尽的场景。 解决方案 当节点已出现thinpool空间耗尽时,可将部分业务迁移至其他节点实现业务快速恢复。但对于此类问题,建议采用以下方案从根因上解决问题: 方案1: 合理规划业务分布及数据面磁盘空间,避免和减少出现业务容器数*basesize > 节点thinpo
"name": "internalCluster", "cluster": { "server": "https://192.168.0.85:5443", "certificate-authority-data":
使用UDP协议健康检查的详细说明,请参见使用UDP协议有什么注意事项?。 操作步骤 登录CCE控制台,单击服务列表中的“网络 > 虚拟私有云 VPC”,在网络控制台单击“访问控制 > 安全组”。 在界面右侧的安全组列表中找到集群的安全组。单击“入方向规则”页签,单击“添加规则”,添加入方向规则如下。
拟私有云(VPC)子网。为方便配置和管理,分区创建时需设定默认子网,当创建节点不指定子网时,会填入分区默认子网。 其他属性:分区包含资源类别,即中心云、智能边缘小站。该属性的配置方便后续负载的调度。 约束与限制 节点:分布式集群当前仅支持普通x86虚拟机。暂不支持节点迁移功能。
集群诊断健康提炼了运维专家提供的高频故障案例,分别从如下方面进行检查: 维度 检查项 运维层面 集群运维能力 集群安全组配置正确性 集群资源规划合理性 租户配额是否充足 资源与业务层面 存储插件(everest)健康程度 日志采集插件(log-agent)健康程度 域名解析插件(coredns)健康程度