检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
集群冻结状态导致集群不可用 问题现象 “集群状态”为“不可用”,集群的“任务状态”为“冻结”。 图1 集群冻结状态 原因分析 集群出现冻结状态的原因是账户欠费或包年包月集群的订购周期已到期。 处理步骤 按需计费集群 在华为云控制台上方单击“费用与成本”进入费用中心。 在“总览”页面查看账户的欠费情况。
数据类型不兼容导致集群不可用 问题现象 集群进行备份恢复或集群迁移操作后,“集群状态”变为“不可用”。 原因分析 集群出现此场景的原因可能是目标集群不支持被恢复的数据中某些数据类型,比如旧集群有安装一些插件或者定义settings,新集群没有,导致的索引分片无法分配。 处理步骤 在Kibana的“Dev
除了默认的LZ4算法,云搜索服务还支持自定义best_compression算法。该算法适用于写入量大、索引存储成本高的场景,例如日志场景、时序分析场景等,可以大大降低索引的存储成本。 执行如下命令,可以将默认压缩算法(LZ4算法)切换为best_compression算法: PUT index-1
X-pack参数配置导致集群不可用 问题现象 “集群状态”为“不可用”,集群的“任务状态”为“配置错误,重启失败”。 图1 集群配置错误 原因分析 集群可能配置了X-pack相关的自定义参数导致集群不可用。CSS服务不支持X-pack功能。 处理步骤 在集群管理页面,单击不可用的集群名称,进入集群基本信息页面。
集群不可用排查指导 问题现象 云搜索服务的集群列表中,“集群状态”出现“不可用”。 图1 集群不可用 原因分析及处理方法 如果集群列表的任务状态显示“冻结”,可能是集群冻结状态导致集群不可用。 如果集群列表的任务状态显示“配置错误,重启失败”,可能是X-pack参数配置导致集群不可用。
集群突现load高的故障排查 问题现象 集群任务被长时间拒绝,且大量任务出现卡死的情况,在Cerebro界面可以看到集群的load数值突然飙升。 原因分析 集群出现load升高的可能原因如下: 查询请求命中的数据较多导致查询线程执行缓慢。 写入压力过大导致很多线程出现卡死现象。 排查步骤 方法1:Cerebro工具
many scroll contexts. Must be less than or equal to: [100000]. ...... 原因分析 当集群每调用一次scroll的创建接口,都会新建一个scroll使用的context,当scroll contexts的数目达到预定值时,将无法继续创建scroll。
配置Elasticsearch集群大查询隔离 聚合增强 聚合增强在数据聚簇的情况下,利用向量化技术,批量处理数据,从而提升聚合性能,优化可观测性业务的聚合分析能力。 Elasticsearch 7.10.2 配置Elasticsearch集群聚合增强 读写分离 读写分离支持将写入主集群(Lead
”。 图1 节点报错日志示例 CSS服务已下线自定义插件功能,但历史版本的集群可能还装有自定义插件,只有这类集群可能出现该故障。 原因分析 可能是安装的自定义插件与CSS集群版本不兼容,导致Elasticsearch进程无法正常启动。 处理步骤 在集群管理页面,单击不可用的集群名称,进入集群基本信息页面。
overhead spent [x.xs] collecting in the last [x.xs]”。 图1 频繁GC导致OOM 原因分析 集群负载过高,可能是有大量查询或写入任务堆积。当堆内存不足时,任务无法分配,将频繁触发GC,导致Elasticsearch进程异常退出。
索引副本个数,此处以修改为2个索引副本为例。 当采用多可用区部署时,如果某个可用区发生故障,相关的业务故障行为分析及应对策略请参见表2。 表2 AZ故障的业务故障行为分析 可用区数量 主节点个数 业务中断行为及应对建议 2 0 如果节点个数为2的倍数: 一半的数据节点故障,需要替
于2023/03/20 10:30:00将集群转为包年/包月计费,购买时长为1个月。那么在3~4月份,该集群总共产生多少费用呢? 计费构成分析 可以将集群的使用阶段按照计费模式分为两段: 在2023/03/18 15:30:00 ~ 2023/03/20 10:30:00期间为按需计费。
核CPU分配给filebeat时,写ES的速率低于1M/S,这里可以针对filebeat.yml配置文件做优化,提高写入ES的性能。 原因分析 filebeat.yml的默认配置比较保守,在日志量很大的业务场景,需要修改filebeat.yml参数进行调优。 处理步骤 针对filebeat
索引副本个数,此处以修改为2个索引副本为例。 当采用多可用区部署时,如果某个可用区发生故障,相关的业务故障行为分析及应对策略请参见表2。 表2 AZ故障的业务故障行为分析 可用区数量 主节点个数 业务中断行为及应对建议 2 0 如果节点个数为2的倍数: 一半的数据节点故障,需要替
], have discovered [xxx...] which is not a quorum”。 图1 节点报错日志示例 原因分析 出现以上报错日志表示集群各节点之间无法通信,导致集群无法进行选主,可能原因是集群当前所选安全组未放通9300端口。 云搜索服务在7.6.
search强大的搜索和分析能力。 日志分析与检索:将MySQL中的日志数据同步到Elasticsearch,进行快速检索和分析。 应用性能监控:将应用性能数据存储在MySQL中,通过Logstash同步到Elasticsearch,进行实时监控和性能分析。 数据备份与恢复:通过
当云搜索服务资源不再使用时,可以将集群退订或删除,从而避免继续收费。详细介绍请参见10 停止计费。 成本管理 您可以从成本构成、成本分配、成本分析和成本优化四个维度来管理成本。更多详情,请参见11 成本管理。
监控与日志管理 CSS服务提供全面的监控和日志管理功能,包括集群、节点和Logstash管道监控指标、告警规则配置、日志备份与查看,帮助用户有效监控和分析Logstash集群,确保集群的稳定性。 CES中Logstash集群支持的监控指标 使用CES监控Logstash集群 查询和管理Logstash集群日志
CSS服务中为什么新创建的索引分片集中分配到单节点上? 原因分析 新建索引分片被集中分配于一个node节点上可能有以下原因: 之前索引的分配导致某个节点上的shards数量过少,新建索引shards分配被balance.shard参数主导,为了平衡所有索引的全部分片,将shards集中分配在数量过少的节点上。
接Elasticsearch运行一段时间就会出现Connection reset by peer,TCP连接中断,业务数据写入失败。 原因分析 连接关闭有很多原因,是Elasticsearch服务器端不能完全控制的。例如,有可能关闭了连接,有可能有防火墙,交换机,VPN等,也有可