检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
集群过载保护最佳实践 随着业务不断扩展,Kubernetes集群规模不断增大,导致集群控制平面负载压力增大。当集群规模超过Kubernetes控制平面的承载能力时,可能会出现集群因过载而无法提供服务的情况。本文帮助您了解集群过载的现象、影响范围和影响因素,并详细介绍CCE集群的过
升级方式 表1 升级方式介绍 升级方式 介绍 升级范围 优点 约束 原地升级 节点上升级Kubernetes组件、网络组件和CCE管理组件,升级过程中业务Pod和网络均不受影响。 升级过程中,节点分批进行升级,存量节点将不可调度,升级完成的批次支持调度新业务。 节点操作系统不升级
由于社区安全加固,v1.27及以上版本的集群中ClusterIP地址无法ping通。 额外限制 当集群中超过3000个Service时,可能会出现网络延迟的情况。 Ingress和Service(或不同集群Service不同端口)使用相同ELB实例时,无法在集群内的节点和容器中访问Ing
负载弹性伸缩控制器(horizontal-pod-autoscaler-controller)配置 Pod水平伸缩同步周期 水平弹性伸缩控制器同步 pod 数量的周期,每隔一个同步周期伸缩控制器会对pod和伸缩策略做一次扫描,判断是否需要触发伸缩动作 参数名 取值范围 默认值 是否允许修改
新建Pod检查 检查内容 检查集群升级后,存量节点是否能新建Pod。 检查集群升级后,新建节点是否能新建Pod。 检查步骤 基于新建节点检查创建了新节点后,通过创建DaemonSet类型工作负载,在每个节点上创建Pod。 登录CCE控制台,单击集群名称进入集群。 在导航栏中选择“
GPU插件检查异常处理 检查项内容 检查到本次升级涉及GPU插件,可能影响新建GPU节点时GPU驱动的安装。 解决方案 由于当前GPU插件的驱动配置由您自行配置,需要您验证两者的兼容性。建议您在测试环境验证安装升级目标版本的GPU插件,并配置当前GPU驱动后,测试创建节点是否正常使用。
区和文件系统。 登录节点,执行命令growpart,检查当前系统是否已安装growpart扩容工具。 若回显为工具使用介绍,则表示已安装,无需重复安装。若未安装growpart扩容工具,可执行以下命令安装。 yum install cloud-utils-growpart 执行以
适配CCE v1.19集群 新增支持Ubuntu操作系统和安全容器场景 0.7.1 1.13.8 v1.15.11 v1.17 修复容器隧道网络下CNI健康检查问题 调整资源配额 0.7.1 1.13.6 v1.15.11 v1.17 修复僵尸进程未被回收的问题 0.7.1 1.13
Pod监控检查方法 登录CCE控制台。 单击集群名称进入集群,在左侧选择“工作负载”。 单击工作负载操作列的“监控”,即可查看Pod的CPU、内存、网络I/O等监控大盘。 登录容器的方法 登录CCE控制台。 单击集群名称进入集群,在左侧选择“工作负载”。 单击指定工作负载名称,在工作负载实例列表中,单击操作列的“更多
eus实例的日志,检查日志中是否存在报错日志。如果日志中含有remote_write相关的报错信息,则表示指标上报时失败,请检查指标上报的网络是否通畅。 父主题: 监控中心
(停止维护)Kubernetes 1.21版本说明 云容器引擎(CCE)严格遵循社区一致性认证。本文介绍CCE发布Kubernetes 1.21版本所做的变更说明。 资源变更与弃用 社区1.21 ReleaseNotes CronJob现在已毕业到稳定状态,版本号变为batch/v1。
(停止维护)Kubernetes 1.21版本说明 云容器引擎(CCE)严格遵循社区一致性认证。本文介绍CCE发布Kubernetes 1.21版本所做的变更说明。 资源变更与弃用 社区1.21 ReleaseNotes CronJob现在已达到稳定状态,版本号变为batch/v1。
<pod-name> FailedAttachVolume 请检查Everest插件状态和节点网络连接,同时确保节点具有正确的权限。 FailedMount 请检查Everest插件状态和节点网络连接,同时确保节点具有正确的权限。 InvalidDiskCapacity 请检查节点的磁
自定义监控数据需要保留的天数,默认为15天。 存储 支持云硬盘作为存储,按照界面提示配置如下参数: 可用区:请根据业务需要进行选择。可用区是在同一区域下,电力、网络隔离的物理区域,可用区之间内网互通,不同可用区之间物理隔离。 子类型:支持普通IO、高IO和超高IO三种类型。 容量:请根据业务需要输入存储容量,默认10G。
kubelet CPU/内存占用 低 高 运行时CPU/内存占用 低 高 节点操作系统与容器引擎对应关系 v1.23及以上的VPC网络集群都支持Containerd,容器隧道网络集群从v1.23.2-r0开始支持Containerd。 表2 CCE集群节点操作系统与容器引擎对应关系 操作系统 内核版本
已创建一个集群,且集群有可用节点,具体操作步骤请参见购买Standard/Turbo集群。 集群内节点已绑定弹性公网IP,且已配置kubectl命令行工具,具体请参见将弹性公网IP绑定至实例和通过kubectl连接集群。 步骤一:部署Flink集群 在Kubernetes上部署Flink集群
privileged 启动特权容器。 hostPID hostIPC 使用主机命名空间。 hostNetwork hostPorts 使用主机网络和端口。 volumes 允许使用的挂载卷类型。 allowedHostPaths 允许hostPath类型挂载卷在主机上挂载的路径,通过
1及以上版本的插件支持开启公网访问,开启后需要选择一个负载均衡器作为Grafana服务入口。仅支持选择集群所在VPC下的负载均衡实例。如果使用独享型ELB,该实例还需要包含网络型规格。 须知: 开启公网访问将会把Grafana服务暴露至公网,建议评估安全风险并做好访问策略的管控。 设置插件实例的部署策略。 表2 插件调度配置
使用其他方式申请显存,例如调用cudaMalloc()等。 受GPU虚拟化技术的限制,容器内应用程序初始化时,通过nvidia-smi监测工具监测到的实时算力可能超过容器可用的算力上限。 节点上开启了GPU虚拟化且有多张GPU卡时,如果GPU资源不足,不支持抢占其他Pod的GPU资源。
在TFJob中指定GPU资源。 创建tf-gpu.yaml文件,示例如下: 该示例的主要功能是基于Tensorflow的分布式架构,利用卷积神经网络(CNN)中的ResNet50模型对随机生成的图像进行训练,每次训练32张图像(batch_size),共训练100次(step),记录每