检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
17 v1.19 v1.21 v1.23 新增beta检查项ScheduledEvent,支持通过metadata接口检测宿主机异常导致虚拟机进行冷热迁移事件。该检查项默认不开启。 0.8.10 1.16.3 v1.17 v1.19 v1.21 v1.23 新增ResolvConf配置文件检查。
1.6.0 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 v1.30 支持v1.30集群 安全加固:将插件使用的查询secret的权限限制在monitoring命名空间 1.5.2 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 新增创建容器日志默认日志流时索引功能
如何选择GPU节点驱动版本请参见选择GPU节点驱动版本。 记录当前版本驱动状态。根据CCE AI套件(NVIDIA GPU)插件版本差异,查询驱动的命令如下: 1.x.x版本执行: /opt/cloud/cce/nvidia/bin/nvidia-smi 2.0.0-2.5.3版
Prometheus具有PrometheusRule的能力,PrometheusRules提供了一种用于监控和警报的规则语言,能够方便用户更好的使用Prometheus查询监控指标,配置基于PromQL的告警规则。 当前云原生监控插件仅支持开启本地数据存储时,提供PrometheusRules配置的能力。 如何配置PrometheusRules
设置插件的多可用区部署策略为“强制模式”,单击“安装”。 图5 更新多可用区部署模式为强制模式 在“工作负载”页签查看CoreDNS容器,切换至“kube-system”命名空间查看coredns实例的分布。 图6 查看CoreDNS容器的部署分布 插件的无状态工作负载已经分配到了两个可用区的节点上。 图7
从控制台获取项目ID的步骤如下: 登录管理控制台。 鼠标悬停在右上角的用户名,选择下拉列表中的“我的凭证”。 在“API凭证”页面的项目列表中查看项目ID。 图1 查看项目ID 父主题: 附录
-f ingress-test.yaml 回显如下,表示Ingress服务已创建。 ingress/ingress-test created 查看已创建的Ingress。 kubectl get ingress 回显如下,表示Ingress服务创建成功。 NAME CLASS
解决方案:请前往“插件管理”页面查看已安装插件列表,单击云原生监控插件名称,展开实例列表,检查状态为异常的Pod的事件,根据界面报错信息排查异常原因。 图4 插件状态异常 成功进入监控中心页面,但页面数据为空。 解决方案: 请前往“插件中心”页面查看已安装插件列表,单击云原生监控插
您可以执行以下步骤确认GPU插件的升级目标版本与当前驱动配置。 登录CCE控制台,前往“插件中心”处查看CCE AI套件(NVIDIA GPU)插件。 单击该插件的“升级”按钮,查看插件目标版本及驱动版本。 在测试环境验证安装升级目标版本的GPU插件,并配置当前GPU驱动后,测试创建节点是否正常使用。
公网访问CCE部署的服务并上传OBS,为何报错找不到host? 线下机器访问CCE部署的服务并上传OBS,报错找不到host,报错截图如下: 问题定位 服务收到http请求之后,向OBS传输文件,这些报文都会经过Proxy。 传输文件总量很大的话,会消耗很多资源,目前proxy分
节点关键命令检查异常处理 检查项内容 检查节点升级依赖的一些关键命令是否能正常执行。 解决方案 问题场景一:包管理器命令执行失败 检查到包管理器命令rpm或dpkg命令执行失败,请登录节点排查下列命令的可用性。 rpm -qa 如果上述命令不可用,可通过以下命令恢复: rpm --rebuilddb
Event事件并非100%打印,在遇到大批量打印相同事件时,可能会出现上述问题。 以上逻辑通过Kubernetes源码中的EventCorrelate方法实现,您可以查看社区的设计方案了解详情。 该问题为Kubernetes设计机制导致,因此您可以无需关注。 父主题: 节点池
是否允许修改 作用范围 l4_flavor_name 无 无 允许 CCE Standard/CCE Turbo 四层负载均衡实例规格名称。 可以通过查询规格列表获取所有支持的类型。 弹性规格:适用于业务用量波动较大的场景,按实际使用量收取每小时使用的容量费用。v1.21.10-r10、v1
ret。 避免 IP 分配给服务的冲突 Kubernetes 1.24引入了一项新功能,允许为服务的静态IP地址分配软保留范围。 通过手动启用此功能,集群将从服务IP地址池中自动分配IP,从而降低冲突风险。 基于Go 1.18编译 在Kubernetes 1.24版本后,Kubernetes基于Go
您可以在集群节点上查询GPU/NPU卡的信息,然后使用kubectl搜索到使用该卡的Pod。 GPU场景 NPU场景 登录CCE控制台,在左侧导航栏中选择“节点管理”,切换至“节点”页签,查看GPU节点的IP。本文中以192.168.0.106为例。 登录GPU节点,通过以下命令查看GPU卡的信息。
2500000 -q 请将上述脚本中的<node_ip>替换成集群中节点的实际IP,另外32293端口则为上一步服务详情中查询到的节点端口。 通过以下命令,可以查询节点当前的超卖资源量并持续观察其变化。 kubectl describe node 192.168.98.230 回显如下:
30版本中,传统ServiceAccount令牌清理器特性进阶至GA。其作为kube-controller-manager的一部分运行,每24小时检查一次,查看是否有任何自动生成的传统ServiceAccount令牌在特定时间段内(默认为一年,通过--legacy-service-account-
群内的节点以及运行的业务都将销毁,请务必及时续费或开通自动续费。 登录CCE控制台,在左侧导航栏中选择“集群管理”。 找到需要续费的集群,查看集群的更多操作,并单击“续费”。 图1 续费集群 在弹出的“续费”页面中,根据系统提示进行续费操作。 您已选择操作的资源(高亮显示)和其他资源有关联关系,请确认是否同时操作。
、管理应用版本并发布应用到软件仓库。对于使用者而言,使用Helm后不用需要编写复杂的应用部署文件,可以以简单的方式在Kubernetes上查找、安装、升级、回滚、卸载应用程序。 Helm和Kubernetes之间的关系可以如下类比: Helm <–> Kubernetes Apt
集群类型:CCE Standard集群或CCE Turbo集群。 节点OS:Huawei Cloud EulerOS 2.0 节点类型:x86架构的弹性虚拟机。 Volcano插件版本:1.10.0及以上版本。 使用限制 使用超卖特性时,需保证Volcano未启用overcommit插件。 运行