云搜索服务 CSS-Elasticsearch向量检索的性能测试和比较:测试前准备

时间:2025-02-18 16:36:44

测试前准备

  • 创建Elasticsearch向量数据库,参考创建Elasticsearch集群

    “节点数量”选择“3”“节点规格”选择“通用计算型”“4vCPUs | 16GB”(由于测试的数据量不大,且为了和第三方的基线测试保持相同的CPU规格),“节点存储”选择“超高I/O”,不启用安全模式。

  • 获取测试数据集。
    • sift-128-euclidean:维度128,base数据100万条,使用欧式距离度量。
    • cohere-768-cosine:维度768,base数据100万条,使用余弦距离度量。
    • gist-960-euclidean:维度960,base数据100万条,使用欧式距离度量。

    “sift-128-euclidean”“gist-960-euclidean”数据的下载地址是https://github.com/erikbern/ann-benchmarks。如需使用“cohere-768-cosine”数据,请提交工单获取。

    图1 下载“sift-128-euclidean”“gist-960-euclidean”数据
  • 准备测试工具。
    • 准备数据写入和召回率测试脚本,参考脚本base_test_example.py
    • 下载性能测试使用的开源压测工具Wrk,获取地址https://github.com/wg/wrk/tree/master
support.huaweicloud.com/bestpractice-css/css_07_0050.html