检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
向量检索的客户端代码示例(Java) OpenSearch提供了标准的REST接口,以及Java、Python等语言编写的客户端。 本节提供一份创建向量索引、导入向量数据和查询向量数据的Java代码示例,介绍如何使用客户端实现向量检索。 前提条件 根据集群实际版本添加如下Maven依赖,此处以OpenSearch
访问OBS的用户名和密码。认证用的ak和sk硬编码到代码中或者明文存储都有很大的安全风险, 建议在配置文件或者环境变量中密文存放, 使用时解密, 确保安全;本示例以ak和sk保存在环境变量中为例, 运行本示例前请先在本地环境中设置环境变量ak和sk。 "access_key":
向量检索特性介绍 向量检索支持对图像、视频、语料等非结构化数据提取的特征向量数据进行最近邻或近似近邻检索。 原理说明 向量检索从本质上讲,其思维框架和传统的检索方法没有区别。为了提升向量检索的性能,通常需要解决以下两个问题: 减少候选向量集 和传统的文本检索类似,向量检索也需要某
过此步骤。 准备词库文件(UTF-8无BOM格式编码的文本文件),上传到对应OBS路径下。 主词词库文件中包含词语“智能手机”;停词词库文件中包含词语“是”;同义词词库文件中包含一组同义词“开心”和“高兴”。 由于系统预置的静态停词词库包含了“是”、“的”等常用词,如果集群未删除
网控制客户端IP访问,如果节点IP在黑名单中,则该客户端的连接将直接中断,节点不会处理任何请求。白名单规则优先于黑名单规则,如果客户端IP在黑白名单中都出现,客户端请求将不会被拒绝。 HTTP/HTTPS并发连接数流控通过限制节点每秒中的HTTP连接总数来限制节点流量。 HTTP
优化向量检索写入与查询性能 写入性能优化 关闭副本,待数据导入完成后再开启副本,减少副本构建的开销。 调整“refresh_interval”为120s或者更大,避免频繁刷新索引生成大量小的segments,同时减少merge带来的向量索引构建开销。 适当调大“native.vector
通过自定义Visualizations图表查看索引监控。 索引监控定期把index/stats信息存储到monitoring-eys-css索引中,通过使用kibana图表功能可以绘制自定义的图表。 下面以文档数据为例介绍通过图表查看文档数量的变化趋势的操作步骤。 单击Kibana左侧
关闭数据副本;当索引创建30天后,删除该索引。 假设某个索引,其每天约产生2.4TB的数据,索引别名“log-alias”,其数据在集群中的组织形态如下图所示。查询时,指向所有test开头的索引;写入时,指向最新的索引。 图1 log-alias的组织形态 索引的滚动条件1天是
当需要使用向量索引加速时,需要设置该值为true。 vector.exact_search_threshold 用于设置在搜索过程中,从前置过滤搜索切换到暴力搜索的中间结果集大小的阈值控制参数。 当Segment中过滤后的中间结果集的数量小于该参数值时,则执行暴力搜索。 默认值为“null”,即不会切换为暴力搜索。
向量检索的客户端代码示例(Java) Elasticsearch提供了标准的REST接口,以及Java、Python等语言编写的客户端。 本节提供一份创建向量索引、导入向量数据和查询向量数据的Java代码示例,介绍如何使用客户端实现向量检索。 前提条件 根据集群实际版本添加如下Maven依赖,此处以7
Elasticsearch集群内核支持的监控指标 表1 集群内核支持的监控指标 指标名称 描述 支持的集群版本 相关文档 search请求的P99时延 开源Elasticsearch在监控search请求时仅提供了平均延迟指标,这不足以准确反映集群的实际搜索性能。为了改进这一点,
ScriptScore查询 重打分查询 Painless语法扩展查询 标准查询 针对创建了向量索引的向量字段,提供了标准向量查询语法。下述查询命令将会返回所有数据中与查询向量最近的size(topk)条数据。 POST my_index/_search { "size":2, "_source":
过此步骤。 准备词库文件(UTF-8无BOM格式编码的文本文件),上传到对应OBS路径下。 主词词库文件中包含词语“智能手机”;停词词库文件中包含词语“是”;同义词词库文件中包含一组同义词“开心”和“高兴”。 由于系统预置的静态停词词库包含了“是”、“的”等常用词,如果集群未删除