云搜索服务 CSS-智能检测OpenSearch集群风险:场景描述

时间:2025-01-26 10:49:06

场景描述

集群的智能运维支持以下功能:

  • 启动检测任务:通过启动检测任务,触发系统智能诊断集群的健康状况。
  • 查看集群风险项:检测任务完成后,可以查看集群存在的风险项详情,根据风险建议及时处理集群存在的风险。
  • 删除检测任务:当不需要历史所创建的检测任务时,可删除检测任务。删除检测任务后,系统将删除检测任务所对应的所有诊断信息。

智能运维的检查项包含如下项目。

  • 检查当前时刻集群的健康状态,其中red表示有主分片未分配,yellow表示有副分片未分配,green表示所有分片均已分配。
  • 检测集群节点数与AZ(可用区)数,判定Elasticsearch分布式集群的高可用性。
  • 检测集群索引是否开启副本,未设置副本的索引在节点发生故障后可能导致索引不可用,本地盘集群未设置副本会有数据丢失的风险。
  • 检测集群是否存在kibana索引冲突。
  • 检测节点磁盘用量百分比,节点磁盘存储过大可能导致节点无法分配新索引分片并影响集群性能。
  • 检测集群数据节点/冷数据节点的存储用量是否均衡,不均衡的存储用量分布可能导致集群负载不均,读写延迟增加。
  • 连续5分钟检测当前集群是否有节点脱离或不可用。
  • 检测节点分片数量是否过多,单节点分片数量过多会消耗大量节点资源,读写请求时延增加,集群元数据更新缓慢等。
  • 检测所有分片大小,分片太大可能导致查询性能下降,节点内存消耗增加,影响扩缩容以及节点故障时分片的恢复速率等。
  • 检测当前集群是否存在可升级的版本。
  • 检测集群7天内是否有快照备份失败,或7天内无快照备份记录。
support.huaweicloud.com/usermanual-css/css_01_0400.html