检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
定时任务停止一段时间后,为何无法重新启动? 定时任务在运行过程中,如果被暂停,再次被开启时,控制器会检查上一次调度的时间点到现在所错过了调度次数。如果错过的调度次数超过100次, 那么它就不会启动这个任务并记录这个错误,详情请参考CronJob限制。 Cannot determine
com/gpu资源的工作负载)。 在工作负载中声明nvidia.com/gpu资源(即配置nvidia.com/gpu为小数,例如0.5)时将通过虚拟化GPU提供,实现GPU显存隔离,按照设定值的百分比为容器分配GPU显存(例如分配0.5×16GiB=8GiB的GPU显存,该数值
健康检查探针(Liveness、Readiness)偶现检查失败? 健康检查探针偶现检测失败,是由于容器内的业务故障所导致,您需要优先定位自身业务问题。 常见情况有: 业务处理时间长,导致返回超时。 tomcat建链和等待耗费时间太长(连接数、线程数等),导致返回超时。 容器所在
漏洞影响 攻击者利用runc的systemd cgroup特性进行攻击,可通过在Pod注解中注入恶意的systemd属性(如:ExecStartPre、ExecStart、ExecReload),进而在宿主机中执行任意操作。 CCE集群未使用runc的systemd cgroup特性,因此不受此漏洞影响。
创建一个包年/包月的集群或节点后,您可以将资源的计费模式转为按需计费,更加灵活地按需使用。 包年/包月转按需计费时,包年/包月的资源到期后,按需的资费模式才会生效。 前提条件 包年/包月转按需计费需要在“费用中心 > 续费管理”页面操作,只有订单状态是“使用中”的资源才能执行包年/包月转按需。
class: nginx)的Nginx Ingress路由。 检查项二:检查Nginx Ingress Controller后端指定的DefaultBackend Service是否存在。 问题自检 检查项一自检 针对Nginx类型的Ingress资源,查看对应Ingress的YAML,如I
下载”。 图1 获取证书 在弹出的“证书获取”窗口中,根据系统提示选择证书的过期时间并下载集群X509证书。 下载的证书包含client.key、client.crt、ca.crt三个文件,请妥善保管您的证书,不要泄露。 集群中容器之间互访不需要证书。 使用集群证书调用Kubernetes原生API。
集群状态检查 检查项内容 集群升级后,需要检查集群状态是否为“运行中”状态。 检查步骤 系统会自动为您检查集群状态是否正常,您可以根据诊断结果前往集群列表页面进行确认。 解决方案 当集群状态异常时,请联系技术支持人员。 父主题: 升级后验证
的总字节数。 网络总流入速率:负载的所有Pod的容器在不同的时间段的每秒钟接收的总字节数。 网络发送丢包率:负载的所有Pod的容器在不同的时间段的发送丢失的数据包总量占发送的数据包总量的比例。 网络接收丢包率:负载的所有Pod的容器在不同的时间段的接收丢失的数据包总量占接收的数据包总量的比例。
U/NPU节点的CPU、内存资源被普通工作负载占用的情况,导致GPU/NPU资源闲置。 解决方案 在使用GPU/NPU节点时,可以为其添加污点,并通过工作负载容忍度设置,避免非GPU/NPU工作负载调度到GPU/NPU节点上。 GPU/NPU工作负载:添加指定污点的容忍度,可以调度至GPU/NPU节点。
管理节点池 更新节点池 更新弹性伸缩配置 修改节点池配置 纳管节点至节点池 复制节点池 同步节点池 升级操作系统 迁移节点 删除节点池 父主题: 节点池
docker审计日志量过大影响磁盘IO如何解决? 问题描述 部分集群版本的存量节点docker审计日志量较大,由于操作系统内核缺陷,会低概率出现IO卡住。该问题可通过优化审计日志规则,降低问题出现的概率。 影响范围 受影响的集群版本: v1.15.11-r1 v.1.17.9-r0 只需
支持将弹性到CCI的Pod中的hostPath转换为其它类型存储 修复Kubernetes Dashboard无法使用终端问题 1.2.5 v1.13 v1.15 v1.17 v1.19 支持CCE Turbo集群 自动清理CCI中不再被Pod依赖的资源 支持配置Requests与
对于单集群内多个用户共享使用的场景,如果将Pod和Service的创建和更新权限授予不信任的用户易受此漏洞的影响。 涉及所有Kubernetes版本。 漏洞修复方案 建议您检查所有使用externalIP和loadBalancerIP的Service,确认是否有可疑的Service。 该
CCE AI套件(NVIDIA GPU)插件使用DCGM-Exporter监控GPU指标 基于GPU监控指标的工作负载弹性伸缩配置 GPU虚拟化节点弹性伸缩配置 GPU故障处理 GPU监控指标说明 父主题: 调度
化过程中,不同的业务架构有着不同的部署方案,不同架构的应用有着不同的演进节奏,不同的团队有着性能和服务质量的平衡点。面对这样复杂的场景,应该如何化繁为简,帮助用户有步骤的提升资源利用率和控制成本呢? CCE通过多年在混合部署领域的探索和实践,围绕Volcano和Kubernete
伸缩策略,您在“策略”页面配置的伸缩策略也会在这里显示。 您可以在操作列中单击对应的按钮对弹性伸缩策略进行管理。 弹性伸缩策略类型 操作 HPA策略 事件:查看HPA策略事件页签,若策略异常,请参照界面中的报错提示进行定位处理。 编辑YAML:在弹出的“编辑YAML”窗口中,您可以对YAML进行修改、复制和下载。
为准使用多可用部署均分模式。 multiAZBalance 否 bool 插件中deployment组件多可用部署是否采用均分模式,默认:false。插件Deployment实例均匀调度到当前集群下各可用区,增加新的可用区后建议扩容插件实例以实现跨可用区高可用部署;均分模式限制不
S 对象存储、SFS Turbo 极速文件存储的能力。通过安装升级云存储插件可以实现云存储功能的快速安装和更新升级。 该插件为系统资源插件,Kubernetes 1.13及以下版本的集群在创建时默认安装。 约束与限制 在CCE所创的集群中,Kubernetes v1.15.11版
节点特殊资源:部分Pod可能请求特殊的资源类型,例如GPU等资源,调度器只能将其调度到GPU类型的节点上。 节点健康状态:节点的健康状况和状态可能影响调度决策,不健康的节点可能不会调度新的Pod。 为什么Pod实际负载在节点上分布不均匀 kube-scheduler调度器在分配Pod时不会考虑应用的实际负载