检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
云搜索服务的向量检索引擎提供了全托管、高性能的分布式向量数据库服务。为了方便用户在业务场景进行向量搜索的性能压力测试,为产品选择和资源配置提供准确的参考依据,本文提供了基于开源数据集和开源压力测试工具的Elasticsearch向量检索的性能测试方案。 测试前准备 创建Elasticsea
找到load飙升的集群,单击集群操作列的“Cerebro”进入可视化页面。 查看cpu和heap指标,如果这两个指标过高则说明集群当前压力较大,客户端可以适当减少大请求发送,等待集群压力下降。 查看shards是否合理,官方建议单个shard大小为20-40GB,建议不要超过50GB;单个节点上的同一索引shard数不要超过5个。
asticsearch Unreachable,导致日志无法写入到Elasticsearch里。 原因分析 客户index是单shard,压力承载于单个节点,负载过高,造成队列满后,作业被拒绝。 处理步骤 登录云搜索服务控制台。 选择“集群管理”进入集群管理列表。 选择对应集群操作列“更多”>“Cerebro”。
服务产生的监控指标和告警信息。 命名空间 SYS.ES 集群监控指标列表 监控的指标ID、指标名称、指标含义以及取值范围参见表1。 监控的测量对象:CSS集群(本文介绍的是Elasticsearch集群和OpenSearch集群的监控指标列表),维度名称是“cluster_id”。
无变化。 命名空间 SYS.ES CSS.CUSTOM 集群监控指标列表 监控的指标ID、指标名称、指标含义以及取值范围参见表1。 监控的测量对象:CSS集群。本文介绍的是Logstash集群的监控指标列表。 监控的监控周期(原始指标):1分钟 累计值:从节点启动时开始叠加数值,当节点重启后清零重新累计。
提供单独的流量统计查看接口,记录触发流控的数量,用户可以基于统计值评估流控配置阈值和衡量集群压力。 查看流量控制信息 访问日志 可以记录一段时间内节点接收的HTTP/HTTPS请求URL和Body,用户可以基于访问日志信息分析当前的流量压力。 开启并查看访问日志 访问日志记录 客户端访问集群节点,会记录为{集群名_access_log
服务产生的监控指标和告警信息。 命名空间 SYS.ES 集群监控指标列表 监控的指标ID、指标名称、指标含义以及取值范围参见表1。 监控的测量对象:CSS集群(本文介绍的是Elasticsearch集群和OpenSearch集群的监控指标列表),维度名称是“cluster_id”。
成较大的压力导致熔断。需要查看监控信息,排查近期数据写入量(写入速率)是否存在激增,如果存在则根据业务实际情况合理安排写入高峰时间窗。 如果集群不存在任务堆积或者集群优化完依旧不可用,则执行下一步,查看集群是否压力过大。 查看集群是否压力过大。 在集群管理列表,单击集群操作列的“
ocValue(系统堆外内存)等场景。 超高IO型 1:8 NVMe接口的本地SSD盘,相比磁盘增强型,数据盘较小。适合对时延要求高,写入压力大的场景,比如电商、APP搜索,性能比SSD云盘更好。存在本地盘有崩溃的风险,需要开启副本。 鲲鹏计算 鲲鹏通用计算型 1:2 和1:4
以及客户端反压连接数,用户可以基于统计值评估流控配置阈值和衡量集群压力。 查看流量控制信息 访问日志 可以记录一段时间内节点接收的HTTP/HTTPS请求URL和Body,用户可以基于访问日志信息分析当前的流量压力。 开启并查看访问日志 访问日志记录 客户端访问集群节点,会记录为{集群名_access_log
集群承担查询任务。读写分离可以将读写压力分开,提高查询的性能。当主集群无法提供服务时,可以通过主从切换使用从集群提供写入和查询服务,保证业务可以正常进行。 图1 读写分离特性的两种使用场景 场景一(图左):主集群写入,从集群查询,分离读写压力。 场景二(图右):主集群故障时,从集群升级,正常提供服务,避免业务中断。
集群一直处于快照中 集群一直处于快照中,有三个比较常见的原因: 集群数据量大或者集群压力大,备份快照耗时长。 单个节点的快照速度默认是40MB/s,同时,快照的性能还受集群情况影响,如果此时集群负载较高,耗时将会更久。可以通过上述章节的查询单个快照信息查询正在执行的快照情况。 执行GET
能力,一键断流能力,同时也提供节点访问IP统计和URL的采样统计能力。开启流控功能会使请求在入口处直接阻塞,可以缓解节点高并发场景下的集群压力,降低P99时延,减少节点不可用的风险。 说明: 2023年02月及之后创建的Elasticsearch 7.6.2和Elasticsearch
8节点时,且每天上午5点左右会做大量bulk操作,写入大概100G-200G的数据,根据集群监控指标的CPU使用率、网络流入流出速率来看对ElasticSearch节点造成不了压力,网络连接数较高,其它节点情况也相同。但是,有的节点网络连接数高达近9000,5个节点瞬间有将近5万连接数,用户的代码大致是用同一个Rest
当集群数据节点(ess)的写入与查询压力大、响应时间过长时,可以通过扩容数据节点的“节点存储容量”保证数据的持久性。如果因数据量过大或操作不当导致数据节点状态异常时,可以扩容“节点数量”保证集群的可用性。 冷数据节点(ess-cold)主要用于分担数据节点(ess)的压力,当发现冷数据有丢失的
点,待数据迁移完成后再进行节点下线操作。当待下线节点上的数据在剩余节点存在副本时,可跳过数据迁移,缩短集群变更时间,减少数据迁移带来的负载压力。 单击“返回集群列表”跳转到集群管理页面。集群的“任务状态”列中显示为“缩容中”,表示集群正在缩容。当集群状态变为“可用”,则表示缩容成功。
当集群数据节点(ess)的写入与查询压力大、响应时间过长时,可以通过扩容数据节点的“节点存储容量”保证数据的持久性。如果因数据量过大或操作不当导致数据节点状态异常时,可以扩容“节点数量”保证集群的可用性。 冷数据节点(ess-cold)主要用于分担数据节点(ess)的压力,当发现冷数据有丢失的
体的业务需求和性能预期来选择是否启用该类节点。 如果创建集群时未启用Master节点或Client节点,当业务运行一段时间后,发现数据节点压力太大时,支持单独添加Master节点或Client节点,具体操作请参见添加Master或Client节点。 如果创建集群时未启用冷数据节点
点,待数据迁移完成后再进行节点替换操作。当待替换节点上的数据在剩余节点存在副本时,可跳过数据迁移,缩短集群变更时间,减少数据迁移带来的负载压力。 单击“返回集群列表”跳转到集群管理页面。集群的“任务状态”列中显示为“节点替换中”,表示集群正在替换节点。当集群状态变为“可用”,则表示节点替换成功。
点,待数据迁移完成后再进行节点替换操作。当待替换节点上的数据在剩余节点存在副本时,可跳过数据迁移,缩短集群变更时间,减少数据迁移带来的负载压力。 单击“返回集群列表”跳转到集群管理页面。集群的“任务状态”列中显示为“节点替换中”,表示集群正在替换节点。当集群状态变为“可用”,则表示节点替换成功。