检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
添加告警规则。 事件类告警:根据集群上报到AOM的事件配置告警。推荐配置的事件和配置方法请参见添加事件类告警。 指标类告警:实时监控环境中主机、组件等资源使用情况,根据监控指标阈值告警。推荐配置阈值指标和配置方法请参见添加指标类告警。 在SMN创建主题 SMN(Simple Message
OpenSSH是一个基于SSH协议的安全网络通信工具,通过加密所有流量以消除窃听、连接劫持和其他攻击。此外,OpenSSH 还提供大量安全隧道功能、多种身份验证方法和复杂的配置选项,是远程服务器管理和安全数据通信的必备工具。 漏洞详情 表1 漏洞信息 漏洞类型 CVE-ID 漏洞级别 披露/发现时间 权限提升
3:所有节点都涉及,建议您将kernel.pid_max取值修改为4194304,具体方法请参见修改节点kernel.pid_max。且后续创建节点和节点池时配置安装前脚本修改kernel.pid_max,具体方法请参见配置节点池kernel.pid_max和创建节点时配置kernel.pid_max
Dashboard。NVIDIA提供了NVIDIA DCGM Exporter Dashboard来展示DCGM相关指标信息。关于在Grafana导入Dashboard的方法,请参见Manage dashboards。 查看刚刚导入的面板。 附录:DCGM-Exporter组件故障排查 运行状态检查 在CCE AI套件(NVIDIA
登录CCE控制台,单击集群名称进入集群。 选择左侧导航栏的“工作负载”,查看工作负载容器组运行状态是否为“运行中”,若不是,请根据工作负载状态异常定位方法进行排查。 在集群“概览”页面,在“网络信息”选择“节点默认安全组”,单击跳转到安全组页面,查看安全组入方向规则。 检查所有安全组规则,确
别。 v1.9及以上 kubernetes.io/elb.id String 仅关联已有ELB的场景:必填。 为负载均衡实例的ID。 获取方法: 在控制台的“服务列表”中,单击“网络 > 弹性负载均衡 ELB”,单击ELB的名称,在ELB详情页的“基本信息”页签下找到“ID”字段复制即可。
从容器访问公网 容器访问公网有如下方法可以实现。 给容器所在节点绑定弹性公网IP(容器网络模型为VPC网络或容器隧道网络)。 给Pod IP绑定弹性公网IP(仅支持云原生2.0网络模型集群,在VPC控制台中手动为Pod的弹性网卡或辅助弹性网卡绑定弹性公网IP。不推荐使用,因为Po
rvice。 解决方案二:为无IPv4私网IP地址的ELB绑定一个私网IP。步骤如下: 查找负载均衡类型的Service所关联的ELB。 方法一:通过升级前检查的日志信息中,获取对应的ELB ID。然后前往ELB控制台通过ELB ID进行筛选。 elbs (ids: [*****])
如何扩容容器的存储空间? 使用场景 容器默认大小为10G,当容器中产生数据较多时,容易导致容器存储空间不足,可以通过此方法来扩容。 解决方案 登录CCE控制台,单击集群列表中的集群名称。 在左侧导航栏中选择“节点管理”。 切换至“节点”页签,选择集群中的节点,单击操作列中的“更多
开启负载感知调度策略,使用默认权重值5。插件详情与配置方法请参见负载感知调度。 开启重调度能力,完成负载感知重调度策略配置。插件详情与配置方法请参见重调度(Descheduler)。 关闭装箱调度策略(binpack)。插件详情与配置方法请参见装箱调度(Binpack)。 配置建议如下:
升级集群 升级集群的流程和方法 升级前须知 升级后验证 集群跨版本业务迁移 升级前检查异常问题排查 父主题: 集群
缩。 当使用Pod/容器部署应用时,通常会设置容器的申请/限制值来确定可使用的资源上限,以避免在流量高峰期无限制地占用节点资源。然而,这种方法可能会存在资源瓶颈,达到资源使用上限后可能会导致应用出现异常。为了解决这个问题,可以通过伸缩Pod的数量来分摊每个应用实例的压力。如果增加
filter,在内核以及权限满足时受该漏洞影响。 CCE当前不受影响 判断方法 uname -a查看内核版本号 规避和消减措施 CCE集群节点不受该漏洞影响。对于自建的K8s集群,建议用户对工作负载: 最小权限运行容器 根据社区提供的配置方法配置seccomp 相关链接 https://blog.aquasec
io/docs/concepts/extend-kubernetes/api-extension/apiserver-aggregation/ 解决方法 可以采用如下两种方法解决: 修复报错信息中的APIService对象,使其能够正常访问,如果是插件中的APIService,请确保插件的Pod正常运行。
节点无法连接互联网(公网),如何排查定位? 当节点无法连接互联网时,请参照如下方法排查。 排查项一:节点是否绑定弹性IP 登录ECS控制台,查看节点对应的弹性云服务器是否已绑定弹性IP。 若弹性IP一栏有IP地址,表示已绑定弹性IP。若没有,请为弹性云服务器绑定弹性IP。 图1 节点是否已绑定弹性IP
Turbo集群中使用独享型ELB创建Service时,Service关联的每个Pod实例都会在ELB侧创建一个后端服务器,当后端服务器数量超过配额上限时,会出现以上错误。 解决方法:根据业务需求对负载均衡器的后端服务器进行合理规划。 如何查询配额详情 如何查询配额使用详情 排查项二:后端服务器健康检查是否有异常 在S
重启后查看日志中的时区是否与节点同一时区。 查看方法:单击工作负载名称进入工作负载详情页,单击右上角的“日志”按钮可查看日志详情。日志约需要等待5分钟查看。 场景三:工作负载与节点时区同步 方法一:制作容器镜像时,将时区设置为CST。 方法二:若不希望修改容器,可在CCE控制台创建工
创建密钥时密钥数据中上传的证书文件和私钥文件必须是配套的,不然会出现无效的情况。 解决方法 一般情况下,您需要从证书提供商处获取有效的合法证书。如果您需要在测试环境下使用,您可以自建证书和私钥,方法如下: 自建的证书通常只适用于测试场景,使用时界面会提示证书不合法,影响正常访问,建
缩。 当使用Pod/容器部署应用时,通常会设置容器的申请/限制值来确定可使用的资源上限,以避免在流量高峰期无限制地占用节点资源。然而,这种方法可能会存在资源瓶颈,达到资源使用上限后可能会导致应用出现异常。为了解决这个问题,可以通过伸缩Pod的数量来分摊每个应用实例的压力。如果增加
StorageClass 上节说的PV和PVC方法虽然能实现屏蔽底层存储,但是PV创建比较复杂(可以看到PV中csi字段的配置很麻烦),通常都是由集群管理员管理,这非常不方便。 Kubernetes解决这个问题的方法是提供动态配置PV的方法,可以自动创PV。管理员可以部署PV配置器(