检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如果您需要定位到程序发生OOM的代码行数,可以将java_pid1.hprof下载到本地,通过MAT(Eclipse Memory Analyzer Tools)进一步分析JVM堆栈信息。 父主题: 存储
作为集群的API服务提供者,控制面API Server的异常可能会导致整个集群无法访问,同时也会影响依赖API Server的工作负载的正常运行,QPS和请求错误率可以帮助您快速识别和修复问题。
在云原生监控插件本地数据存储关闭的情况下,采集端点支持单击直接访问,查看采集结果,方便您对采集任务进行查看和分析管理。 采集端点访问403的原因是什么?该如何处理?
同时在易用性上,提供良好的可视化视图,支持多级下钻与关联分析。 CCE支持上报告警和事件,通过告警模板,用户可以一键开启,实时检测集群和容器故障。
容器与监控类服务 CCE集群下容器支持镜像拉取、监控和日志分析等功能,需要获取访问容器镜像、应用管理等服务的权限。 当您同意授权后,CCE将在IAM中自动创建账号委托,将账号内的其他资源操作权限委托给华为云CCE服务进行操作。关于资源委托详情,您可参考委托进行了解。
原因分析: 集群默认的节点子网网段较小,子网中的私有IP已用完,无法为节点分配新的私有IP。 解决方法: 场景一:VPC网段的IP未分配完 您可以在创建节点时,在网络配置中选择一个新的节点子网。如果没有可用的节点子网,您可以前往VPC创建一个新的节点子网。
GPU硬件故障或驱动程序问题,设置GPU卡不可用 enable_health_monitoring 否 Bool 默认值:true true:插件能够识别GPU硬件故障或驱动程序问题 enable_metrics_monitoring 否 Bool 默认值:true true:收集
表1 Jenkins部署模式 部署模式 Master Agent 优缺点分析 单Master 虚拟机 - 优点:本地化构建,操作简单。 缺点:任务管理和执行都在同一台虚拟机上,安全风险较高。 单Master 容器 - 优点:利用K8s容器调度机制,拥有一定的自愈能力。
√(需Kubernetes RBAC授权) √(需Kubernetes RBAC授权) √ 容器智能分析所有资源查看权限 √ √ √ 容器智能分析所有资源操作权限 x √ √ 告警助手所有资源查看权限 √ √ √ 告警助手所有资源操作权限 x √ √ ECS(弹性云服务器)服务的所有权限
启用企业主机安全服务(HSS) 企业主机安全服务(HSS)拥有主机管理、风险预防、入侵检测、高级防御、安全运营、网页防篡改功能,能够全面识别并管理主机中的信息资产,实时监测主机中的风险并阻止非法入侵行为。推荐启用HSS服务保护用户CCE集群下的主机。
容器与监控类服务 CCE集群下容器支持镜像拉取、监控和日志分析等功能,需要获取访问容器镜像、应用管理等服务的权限。
迁移方案 本文介绍一种集群迁移方案,适合如下几类集群: 本地IDC自建的K8s集群 通过多台ECS自建的集群 其他云服务商提供的集群服务 停止维护,无法原地升级的需要迁移的CCE集群 在迁移前,需对原集群的所有资源进行分析再决定迁移方案,可迁移的资源包括集群内资源和集群外资源,如下表所示
扩容节点数量超过集群规模时,使用集群支持的剩余节点数量进行扩容 1.23.0 1.23.44 v1.23 优化异构设备(GPU/NPU)识别方法 扩容节点数量超过集群规模时,使用集群支持的剩余节点数量进行扩容 1.23.0 1.23.31 v1.23 修复autoscaler伸缩策略
若要保留差异部分配置,您可采用以下方法之一: (推荐)将“parameterSyncStrategy”参数配置为“inherit”,差异配置将自动继承,由系统自动解析、识别与继承差异参数。
查看容器异常退出状态码 您可使用kubectl连接集群,并通过以下命令查询Pod详细状态: kubectl describe pod {pod name} 在返回结果中的Exit Code字段即为程序上次退出时的状态码,该值不为0即表示程序异常退出,可根据退出状态码进一步分析异常原因
扩容物理卷PV,让LVM识别EVS新增的容量。其中/dev/sdb为dockersys逻辑卷所在的物理卷。
controller-gen.kubebuilder.io/version: v0.9.2 兼容模式约束 兼容模式会将云原生监控插件安装在cce-monitoring名空间下,默认不识别任何其他命名空间的ServiceMonitor和PodMonitor。
图1 Volcano Scheduler工作流 Volcano Scheduler的工作流程如下: 客户端提交的Job被调度器识别到并缓存起来。 周期性开启会话,一个调度周期开始。 将没有被调度的Job发送到会话的待调度队列中。
如果集群中安装了多套NGINX Ingress控制器,需将nginx替换为自定义的控制器名称,用于识别Ingress对接的控制器实例。
扩容物理卷PV,让LVM识别EVS新增的容量。其中/dev/sdb为共享盘所在的物理卷。