检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
为了提升向量检索的性能,通常需要解决以下两个问题: 减少候选向量集 和传统的文本检索类似,向量检索也需要某种索引结构来避免在全量的数据上做匹配,传统文本检索是通过倒排索引来过滤掉无关文档,而向量检索是通过对向量建立索引结构来绕过不相关的向量,减小需要考察的范围。 降低单个向量计算的复杂度
为了提升向量检索的性能,通常需要解决以下两个问题: 减少候选向量集 和传统的文本检索类似,向量检索也需要某种索引结构来避免在全量的数据上做匹配,传统文本检索是通过倒排索引来过滤掉无关文档,而向量检索是通过对向量建立索引结构来绕过不相关的向量,减小需要考察的范围。 降低单个向量计算的复杂度
高效可靠:华为云向量检索引擎,提供优秀的搜索性能以及分布式容灾能力。 索引丰富:支持多种索引算法及相似度度量方式,满足各类应用场景及需求。 “0”学习成本:完全兼容开源ES语法与生态。 图4 向量检索场景
Hive客户端接入Elasticsearch集群 Elasticsearch-Hadoop (ES-Hadoop) 连接器将Hadoop海量的数据存储和深度加工能力与Elasticsearch实时搜索和分析功能结合在一起。它能够让您快速深入了解大数据,并让您在Hadoop生态系统中更好地开展工作。
dotProduct无法执行。 推荐采用云搜索服务的向量检索功能。该功能依托于CSS自主研发的向量搜索引擎,并利用Elasticsearch的插件架构进行了深度集成,为用户提供了一种高效、低成本的解决方案,旨在满足包括但不限于高性能、高精度和多模态在内的多样化高维向量检索需求。更多信息请参见向量检索。
单节点使用率过高,可通过扩容Elasticsearch集群操作动态调整集群节点的数量和容量。新扩容的节点不会立即分配索引,可打开cerebro看下节点索引分配情况,做进一步观察,也可以修改“indices.recovery.max_bytes_per_sec”和“cluster.routing.allocation
以针对filebeat.yml配置文件做优化,提高写入ES的性能。 原因分析 filebeat.yml的默认配置比较保守,在日志量很大的业务场景,需要修改filebeat.yml参数进行调优。 处理步骤 针对filebeat.yml配置文件做参数优化,调整input端配置: #根
FLAT:暴力计算,目标向量依次和所有向量进行距离计算,此方法计算量大,召回率100%。适用于对召回准确率要求极高的场景。 GRAPH:图索引,内嵌深度优化的HNSW算法,主要应用在对性能和精度均有较高要求且单shard中文档数量在千万个以内的场景。 GRAPH_PQ:将HNSW算法与PQ
Required 保留请求。 403 Forbidden 请求被拒绝访问。 返回该状态码,表明请求能够到达服务端,且服务端能够理解用户请求,但是拒绝做更多的事情,因为该请求被设置为拒绝访问,建议直接修改该请求,不要重试该请求。 404 NotFound 所请求的资源不存在。 建议直接修改该请求,不要重试该请求。
包含ik_max_word和ik_smart分词策略。同义词分词器使用的是ik_synonym分词策略。 ik_max_word:会将文本做最细粒度的拆分,比如会将“昨夜西风吹折千林梢”拆分为“昨夜西风,昨夜,西风,吹折千林梢,吹折,千林梢,千,林,折千林,千林,吹”,会穷尽各种可能的分词组合。
FLAT:暴力计算,目标向量依次和所有向量进行距离计算,此方法计算量大,召回率100%。适用于对召回准确率要求极高的场景。 GRAPH:图索引,内嵌深度优化的HNSW算法,主要应用在对性能和精度均有较高要求且单shard中文档数量在千万个以内的场景。 GRAPH_PQ:将HNSW算法与PQ
包含ik_max_word和ik_smart分词策略。同义词分词器使用的是ik_synonym分词策略。 ik_max_word:会将文本做最细粒度的拆分,比如会将“昨夜西风吹折千林梢”拆分为“昨夜西风,昨夜,西风,吹折千林梢,吹折,千林梢,千,林,折千林,千林,吹”,会穷尽各种可能的分词组合。
内提前终止(early-terminate)。 Elasticsearch 7.x版本中,示例命令如下: //假设需要频繁使用字段date做范围查询。 PUT {index} { "settings": { "index": { "sort.field":
的列进行按天的时间聚合。 高基字段直方图聚合 低基字段和高基字段混合聚合 表示对以上两种类型的聚合混合在一起,如先对低基字段做分组聚合,然后再对高基字段做直方图聚合。 低基字段分组聚合混合高基字段直方图聚合 约束限制 仅Elasticsearch 7.10.2集群支持聚合增强。 低基字段分组聚合
非法请求。 建议直接修改该请求,不要重试该请求。 403 请求被拒绝访问。返回该状态码,表明请求能够到达服务端,且服务端能够理解用户请求,但是拒绝做更多的事情,因为该请求被设置为拒绝访问,建议直接修改该请求,不要重试该请求。 错误码 请参见错误码。 父主题: 快照管理接口
3.3_0102)”,同版本升级后,集群版本会升级到7.10.2版本最新的镜像“1.3.6(1.3.6_24.3.4_0109)”(版本号仅做示例,非现网实际版本号)。 跨版本升级是升级集群的版本。集群升级至目标版本的最新镜像,用于功能加强或版本收编。例如,集群版本为“1.3.6(1
3_0102)”,同版本升级后,集群版本会升级到7.10.2版本最新的镜像“7.10.2(7.10.2_24.3.4_0109)”(版本号仅做示例,非现网实际版本号)。 跨版本升级是升级集群的版本。集群升级至目标版本的最新镜像,用于功能加强或版本收编。例如,集群版本为“7.6.2(7
非法请求。 建议直接修改该请求,不要重试该请求。 403 请求被拒绝访问。返回该状态码,表明请求能够到达服务端,且服务端能够理T解用户请求,但是拒绝做更多的事情,因为该请求被设置为拒绝访问,建议直接修改该请求,不要重试该请求。 错误码 请参见错误码。 父主题: 快照管理接口
查询阶段的缓存大小。 取值范围:1-100。 单位:%。 默认值:10%。 线程池队列大小 thread_pool.force_merge.size 用来做forcemerge的队列大小。输入的参数值为整数类型。 默认值:1。 自定义 用户可以根据实际情况,添加相关参数名称。 自定义参数的取值。
查询阶段的缓存大小。 取值范围:1-100。 单位:%。 默认值:10%。 线程池队列大小 thread_pool.force_merge.size 用来做forcemerge的队列大小。输入的参数值为整数类型。 默认值:1。 自定义 用户可以根据实际情况,添加相关参数名称。 自定义参数的取值。