检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
性能的分布式向量数据库服务。为了方便用户在业务场景进行向量搜索的性能压力测试,为产品选择和资源配置提供准确的参考依据,本文提供了基于开源数据集和开源压力测试工具的Elasticsearch向量检索的性能测试方案。 测试前准备 创建Elasticsearch向量数据库,参考创建Elasticsearch集群。
所有“快照类型”为自动创建的快照(包含开启自动创建快照功能前已存在的自动创建的快照)都无法手动删除,只会被系统自动删除。 快照信息删除后,数据将无法恢复,请谨慎操作。 手动删除快照 登录云搜索服务管理控制台。 在“集群管理”页面,单击需要进行备份的集群名称,进入集群基本信息页面。
发生故障后可能导致索引不可用,本地盘集群未设置副本会有数据丢失的风险。 检测集群是否存在kibana索引冲突。 检测节点磁盘用量百分比,节点磁盘存储过大可能导致节点无法分配新索引分片并影响集群性能。 检测集群数据节点/冷数据节点的存储用量是否均衡,不均衡的存储用量分布可能导致集群负载不均,读写延迟增加。
设置允许访问的IP地址或网段,中间用英文逗号隔开。仅当打开“访问控制开关”时才需要配置。 建议开启白名单。 说明: Kibana公网访问配置的白名单依赖ELB的白名单能力。更新白名单后,白名单对新建的连接是实时生效的,但对于已存在的长连接,可能会出现去掉的白名单IP地址还能访问Kibana的场景
Elasticsearch提供了标准的REST接口,以及Java、Python等语言编写的客户端。 本节提供一份创建向量索引、导入向量数据和查询向量数据的Java代码示例,介绍如何使用客户端实现向量检索。 前提条件 根据集群实际版本添加如下Maven依赖,此处以7.10.2举例。 <dependency>
CSS服务支持Kibana和Cerebro组件。 Kibana Kibana是一个开源的数据分析与可视化平台,与Elasticsearch搜索引擎一起使用。通过Kibana可以搜索、查看存放在Elasticsearch索引中的数据,也可以实现以图表、地图等方式展示数据。Kibana的官方文档请参见:https://www
停止,且全部管道数据迁移中断。 热停止某个迁移任务 当需要停止管道列表中某一个配置文件的数据迁移任务时,勾选管道,单击管道列表上方的“热停止”。 根据对话框提示,单击“确定”,停止所选管道的数据迁移任务。 热停止成功则可以看到管道列表中目标配置已被移除且该管道数据迁移中断。 父主题:
代表一个独立运行的搜索服务,由多个节点构成。 索引 用于存储Elasticsearch的数据,是一个或多个分片分组在一起的逻辑空间。 Shard 索引可以存储数据量超过1个节点硬件限制的数据。为满足这样的需求,Elasticsearch提供了一个能力,将一个索引拆分为多个,称为S
选择前提条件中创建好的用于发送告警消息的SMN主题。 说明: 7.1.1版本的Elasticsearch集群,需要手动输入Topic,注意和SMN服务中的主题名称保持一致。 图1 Add destination 单击“Create”返回Destinations列表,在列表可见新建的SMN目的端,表示创建完成。
RestHighLevelClient链接Elasticsearch运行一段时间就会出现Connection reset by peer,TCP连接中断,业务数据写入失败。 原因分析 连接关闭有很多原因,是Elasticsearch服务器端不能完全控制的。例如,有可能关闭了连接,有可能有防火墙,交换
Logstash集群规划建议 规划集群可用区 为防止数据丢失,并确保在服务中断情况下能降低集群的停机时间,从而增强集群的高可用性,CSS服务支持跨可用区(即多可用区)部署。用户可以在同一个区域内选择两个不同的可用区进行集群部署。 在创建集群时,如果用户选择了两个可用区,CSS服务
Elasticsearch提供了标准的REST接口,以及Java、Python等语言编写的客户端。 本节提供一份创建向量索引、导入向量数据和查询向量数据的Python代码示例,介绍如何使用客户端实现向量检索。 前提条件 客户端已经安装python依赖包。如果未安装可以执行如下命令安装:
导入向量数据 执行如下命令,导入向量数据。向“my_index”索引中写入向量数据时,需要指定向量字段名称和向量数据。 向量数据输入格式为逗号分隔的浮点型数组时: POST my_index/_doc { "my_vector": [1.0, 2.0] } 向量数据输入格式为小端字节序编码的Base64字符串时:
OpenSearch集群访问方式 导入数据 OpenSearch集群提供多种数据导入方式,包括Logstash、开源Elasticsearch API、云数据迁移服务CDM和数据复制服务DRS,支持不同来源和格式的数据导入,以及针对关系型数据库的实时同步,用户可根据业务场景和数据特性选择最佳方法。 OpenSearch集群导入数据方式
基于集群规划,创建合适的Logstash集群。 创建Logstash集群 配置路由 当Logstash集群与数据源子网位于同一主网卡时,网络自动互通;如果不通,则需在Logstash集群的每个节点上配置指向源数据服务器IP的回程路由。 配置Logstash集群路由 配置Logstash迁移任务 通过
方案概述 对于时间序列数据,随着时间推移数据持续写入,索引会越来越大,通过生命周期管理来定期将数据滚动到新索引,并将历史老索引删除,实现自动滚动索引。 本案例通过配置生命周期策略,当索引的大小达到1TB或索引创建超过1天时,自动滚动生成新索引;当索引创建7天后,关闭数据副本;当索引创建30天后,删除该索引。
云搜索服务的词库用于对文本进行分词,使得一些特殊词语在分词的时候能够被识别出来,便于根据关键词搜索文本数据。例如,根据公司名称来查询,如“华为”;或者根据网络流行词来查询,如“喜大普奔”。也支持基于同义词词库,根据同义词搜索文本数据。 CSS服务使用的分词器包括IK分词器和同义词分词器。IK分词器配备主词词
所有“快照类型”为自动创建的快照(包含开启自动创建快照功能前已存在的自动创建的快照)都无法手动删除,只会被系统自动删除。 快照信息删除后,数据将无法恢复,请谨慎操作。 手动删除快照 登录云搜索服务管理控制台。 在“集群管理”页面,单击需要进行备份的集群名称,进入集群基本信息页面。
前提条件 确认集群的“任务状态”没有正在执行中的任务,且集群未被冻结。 当集群处于可用状态时,确认集群已停止处理业务数据(如导入数据、搜索数据),否则重启集群时可能导致数据丢失等。 快速重启 登录云搜索服务管理控制台。 在左侧导航栏,选择对应的集群类型,进入集群管理列表界面。 在对应集群的“操作”列中单击“更多>重启”。
设置允许访问的IP地址或网段,中间用英文逗号隔开。仅当打开“访问控制开关”时才需要配置。 建议开启白名单。 说明: Kibana公网访问配置的白名单依赖ELB的白名单能力。更新白名单后,白名单对新建的连接是实时生效的,但对于已存在的长连接,可能会出现去掉的白名单IP地址还能访问Kibana的场景