应用平台 APPSTAGE-创建知识数据集:创建索引配置

时间:2024-11-11 19:06:36

创建索引配置

  1. 知识数据集创建完成后,单击“下一步”,进入索引配置页面。
  2. 在索引配置页面,参照表2进行相关参数的配置。

    表2 索引配置参数说明

    参数

    说明

    索引配置名称

    自定义索引配置名称。支持中英文、数字、下划线(_),长度2-50个字符,以中英文、数字开头。

    索引描述

    索引配置的描述信息。

    向量化模型

    选择向量化模型,向量化模型是将文本数据转换为数值向量的过程。常用于将文本转换为机器可以处理的形式,以便进行各种任务,如文本分类、情感分析、 机器翻译 等。

    当前向量化模型支持的最大长度为512 token,对应的中文约为512个字,英文与符号约900个字符,请注意分片长度。

    长文本截断策略

    • 截断模式:如果待向量化分片字段token长度超过向量化模型限制的token总数,则进行截断,取前top k个token。
    • 智能模式:如果待向量化分片字段token超过向量化模型限制的token总数,首先利用对话大模型对超长分片进行重写,如果仍然超长则进入截断模式。
    • 默认模式:如果待向量化分片字段token长度超过了向量化模型限制的token总数,则创建知识库失败。

    切片配置

    根据需要勾选如下参数:

    • 向量化检索字段:对相应的切片片段进行向量化。
    • 文本过滤字段:设置相应的切片片段为过滤字段。
    • 检索返回字段:检索返回相应的切片片段。

  3. 单击“创建数据集和索引配置”,创建的数据集和索引配置显示在“知识数据集”页面的数据集列表中。

support.huaweicloud.com/usermanual-wiseagent/appstage_04_0800.html