检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用Elasticsearch加速关系型数据库,可以解决关系型数据库在某些方面的局限性,实现更加高效和智能的数据处理和分析。常用于以下应用场景: 电子商务平台:快速搜索商品,提供个性化推荐,实时监控用户行为和交易数据。 内容管理系统:对大量文档和内容进行高效检索,支持复杂的查询和数据分析。
测试方案一:使用不同维度的数据集,在Top10召回率均达到99%的情况下,测试向量数据库能支撑的最大QPS。每个数据集均基于默认参数和调优参数分别进行测试,通过调整构建参数可以使得图索引结构更优,在同等召回精度下能取得更高的查询性能。 测试结果: 表1 GRAPH类索引测试结果1 数据集 构建参数
向量检索支持漏斗模型,先对所有向量进行量化和近似计算,筛选出一定量接近检索目标的数据集,然后基于筛选的数据集进行精细的计算和排序。本方法不需要对所有向量都进行复杂的计算,可以有效提高检索效率。 向量检索即在一个给定的向量数据集中,按照某种度量方式,检索出与查询向量相近的K个向量(K-Nearest
向量检索支持漏斗模型,先对所有向量进行量化和近似计算,筛选出一定量接近检索目标的数据集,然后基于筛选的数据集进行精细的计算和排序。本方法不需要对所有向量都进行复杂的计算,可以有效提高检索效率。 向量检索即在一个给定的向量数据集中,按照某种度量方式,检索出与查询向量相近的K个向量(K-Nearest
高效可靠:华为云向量检索引擎,提供优秀的搜索性能以及分布式容灾能力。 索引丰富:支持多种索引算法及相似度度量方式,满足各类应用场景及需求。 “0”学习成本:完全兼容开源ES语法与生态。 图4 向量检索场景
增强OpenSearch集群数据导入性能 特性介绍 数据导入性能增强为云搜索服务自主研发的特性,通过优化Bulk路由、文本索引加速、分词加速等方式,有效提升导入性能以及降低写入拒绝的情况。适用于索引分片较多、文本索引量大、导入吞吐量高的场景。 表1 数据导入性能优化方式 优化方式
Hive客户端接入Elasticsearch集群 Elasticsearch-Hadoop (ES-Hadoop) 连接器将Hadoop海量的数据存储和深度加工能力与Elasticsearch实时搜索和分析功能结合在一起。它能够让您快速深入了解大数据,并让您在Hadoop生态系统中更好地开展工作。
dotProduct无法执行。 推荐采用云搜索服务的向量检索功能。该功能依托于CSS自主研发的向量搜索引擎,并利用Elasticsearch的插件架构进行了深度集成,为用户提供了一种高效、低成本的解决方案,旨在满足包括但不限于高性能、高精度和多模态在内的多样化高维向量检索需求。更多信息请参见向量检索。
规则对搜索结果进行排序。自定义排序允许开发者根据业务需求,定义特定的排序规则,以优化搜索结果的相关性和用户体验。该方案可以用于以下场景: 电子商务:根据销量、用户评价、价格等因素对商品进行排序。 内容管理:根据阅读量、发布时间对文章或博客帖子进行排序。 金融服务:根据交易金额、频率或风险评分对交易记录进行排序。
配置Elasticsearch集群存算分离 存算分离支持将集群新写入的数据存储在SSD来达到最佳的查询检索性能,将历史数据存储到OBS中降低数据的存储成本。 场景描述 存算分离是通过冻结索引将历史数据转储到OBS,以此降低数据的存储成本。 对于有海量数据写入和存储的场景,数据有明
使用CES监控Elasticsearch集群 云搜索服务支持通过云监控服务CES对已创建成功的集群进行日常监控。配置集群监控后,就可以在CES管理控制台直观查看集群的监控指标数据。 配置集群监控的操作流程: 配置告警规则:根据实际业务需要对监控指标设置自定义告警规则,当监控指标超
FLAT:暴力计算,目标向量依次和所有向量进行距离计算,此方法计算量大,召回率100%。适用于对召回准确率要求极高的场景。 GRAPH:图索引,内嵌深度优化的HNSW算法,主要应用在对性能和精度均有较高要求且单shard中文档数量在千万个以内的场景。 GRAPH_PQ:将HNSW算法与PQ
增强Elasticsearch集群数据导入性能 特性介绍 数据导入性能增强为云搜索服务自主研发的特性,通过优化Bulk路由、文本索引加速、分词加速等方式,有效提升导入性能以及降低写入拒绝的情况。适用于索引分片较多、文本索引量大、导入吞吐量高的场景。 表1 数据导入性能优化方式 优化方式
FLAT:暴力计算,目标向量依次和所有向量进行距离计算,此方法计算量大,召回率100%。适用于对召回准确率要求极高的场景。 GRAPH:图索引,内嵌深度优化的HNSW算法,主要应用在对性能和精度均有较高要求且单shard中文档数量在千万个以内的场景。 GRAPH_PQ:将HNSW算法与PQ
在嵌套字段中使用向量索引 使用嵌套字段可以实现在单条文档中存储多条向量数据,比如在RAG场景中,文档数据通常需要按段落或按长度进行切分,分别进行向量化得到多条语义向量,通过嵌套字段(Nested)可以将这些向量写入同一条ES的文档中。对于包含多条向量数据的文档,查询时任意一条向量数据与查询向量相似便会返回该条文档。
容量为固定值,存储类型可以根据实际情况选择。 启用冷数据节点 冷数据节点用于存储对查询时延要求不高,但数据量较大的历史数据,是管理大规模数据集和优化存储成本的有效方式。 启用冷数据节点后,在下方选择对应的“节点规格”、“节点数量”和“节点存储”。“节点数量”可设置为1~32任意数
聚簇键必须是排序键的前缀子集。 高基字段必须在排序键中,且高基字段必须在最后一个低基字段后面。 性能测试对比 测试环境 数据集: esrally nyc_taxis数据集 集群规格: 4U16G 100GB高IO * 3节点 测试步骤 在集群中创建索引模板,指定排序键和关闭聚合增强。 PUT
容量为固定值,存储类型可以根据实际情况选择。 启用冷数据节点 冷数据节点用于存储对查询时延要求不高,但数据量较大的历史数据,是管理大规模数据集和优化存储成本的有效方式。 启用冷数据节点后,在下方选择对应的“节点规格”、“节点数量”和“节点存储”。“节点数量”可设置为1~32任意数
提高集群扩展性:增加client节点可以提供更好的集群扩展性和灵活性,支持更大规模的数据集和更复杂的查询需求。 冷数据节点(ess-cold) 冷数据节点用于存储对查询时延要求不高,但数据量较大的历史数据,是管理大规模数据集和优化存储成本的有效方式。 需要存储大量历史数据:当需要存储大量不常访
提高集群扩展性:增加client节点可以提供更好的集群扩展性和灵活性,支持更大规模的数据集和更复杂的查询需求。 冷数据节点(ess-cold) 冷数据节点用于存储对查询时延要求不高,但数据量较大的历史数据,是管理大规模数据集和优化存储成本的有效方式。 需要存储大量历史数据:当需要存储大量不常访