华为云FLEXUS云服务_FLEXUS企业搜索服务-创建KooSearch知识库:新建知识库

时间:2024-09-05 15:04:54

新建知识库

  1. KooSearch 控制台,左侧导航栏选择“知识库管理”

    进入知识库管理页面。

  2. 在知识库管理页面,单击右上角“新建知识库”

    “新建知识库”页面设置知识库信息。

  3. 在创建知识库页签填写“知识库名称”、选择“知识库语言”,填写知识库“描述”,单击“下一步”
    图1 创建知识库
  4. “解析拆分设置”页签配置解析设置和拆分设置,然后单击“下一步”
    • 解析设置:勾选需要解析的能力。
      表1 解析设置

      参数

      说明

      OCR增强

      勾选后,即可调用OCR服务进行智能文档识别,如表格解析或扫描文件等。

      解析图片

      未勾选,在文档中遇到图片默认跳过,不处理图片。

      勾选后,有两种解析方式可供选择:

      • 提取图片文本:识别图片内文字。
      • 仅保留原图:将图片提取后上传OBS桶,便于问答图文展示。

      解析页眉页脚

      未勾选,解析结果中不包含页眉页脚。

      勾选后,解析结果中包含页眉页脚。

      解析目录页

      未勾选,解析结果中不包含目录页。

      勾选后,解析结果中包含目录页。

    • 拆分设置:即分段设置,选择分段方式。
      表2 拆分设置

      参数

      说明

      自动分段

      系统根据文档特点自动选择合适的分段方式。

      长度分段

      默认按照段落进行拆分合并,如果段落过长则通过标识符进行分段。

      • 分段标识符:分段方式为遇到所选符号即截断,符号之间没有优先级,最终分割后合并到预计最大长度。自定义分段中如果未命中分段标识符,分段将会失败。
      • 分段预计长度:分段的最大长度,文档的正文如果超过设定的[最大长度],则截取[最大长度]的片段为新文档,随后回溯[分段重叠]字符,继续向后检查,直到文档结束。

      层级分段

      先按照文章的标题层级分段,再按照段落进行拆分合并,如果段落过长则通过标识符进行分段。

      层级解析模式:可选择自动解析和规则解析。选择规则解析需要自定义层级规。

      层级分段详情如表3所示。

      表3 层级分段

      参数

      说明

      层级解析模式

      自动解析:按照系统规则自动解析。

      规则解析:

      由于不同文档的层次结构多样且不一致,针对不同的文档可自定义其文档层次解析规则,更好地解析切分文档从而提升基于文档知识问答的准确率。

      • 自定义默认规则

        将最常见的规则,作为默认规则可选,详情请参见提供的默认规则示例

      • 自定义解析规则

        当前解析规则采用正则语言编写,可参见如表5示例。

      标题层级深度

      选择文章的标题层级深度。

      标题保存方式

      可选择“保存多标题组合”“保存最后一级标题”

      分段标识符

      分段方式为遇到所选符号即截断,符号之间没有优先级,最终分割后合并到预计最大长度。自定义分段中如果未命中分段标识符,分段将会失败。

      分段预计长度

      分段的最大长度,文档的正文如果超过设定的[最大长度],则截取[最大长度]的片段为新文档,随后回溯[分段重叠]字符,继续向后检查,直到文档结束。

      跨标题合并

      打开“跨标题合并”开关:不同标题段落文字较少时,会自动合并到指定的分段长度,有助于生成更全面的结果。关闭“跨标题合并”开关:不会自动合并不同标题。

      说明:

      “层级分段”页签中有此按钮,可以自己设置开关。“自动分段”“长度分段”页签中没有此按钮,跨标题合并使用的是系统默认参数,等于true。

      表4 规则解析默认规则示例

      类别

      规则

      描述

      第一章

      第一节

      第一条

      ^第([零〇一二三四五六七八九十百千万1-9]{1,7})章

      ^第([零〇一二三四五六七八九十百千万1-9]{1,7})节

      ^第([零〇一二三四五六七八九十百千万1-9]{1,7})条

      以章的规则为例:

      • 中括号内大写的阿拉伯可以匹配,例如:第一章。
      • 支持1-9的阿拉伯数字匹配,例如: 第1章。
      • 最大支持中间位数出现的位数有7位。例如:第一千一百三十七章。

      节和条的规则类似。

      表5 自定义规则解析示例

      类别

      规则

      描述

      第一章

      第一节

      第一条

      ^第([零〇一二三四五六七八九十百千万1-9]{1,7})章

      ^第([零〇一二三四五六七八九十百千万1-9]{1,7})节

      ^第([零〇一二三四五六七八九十百千万1-9]{1,7})条

      /

      1

      1.1

      1.1.1

      ^(\d+\.)(?=\s)

      ^(\d+)(\.\d+)(?!\.)(?=\s)

      ^(\d+)(\.\d+)(\.\d+)(?!\.)(?=\s)

      可以匹配数字开头的段落。

      备注: [\u4e00-\u9fa5]+ 限制中文)

      例如:

      1. 简介

      1.1 说明

      1.1.1 详细说明

      一、

      (一)

      1、

      1)

      ^([零〇一二三四五六七八九十百千万]+)[、]

      ^(([零〇一二三四五六七八九十百千万]+))

      ^[\d+]、

      ^[\d+])

      /

      图2 自定义规则解析示例
  5. “模型设置”页签配置好模型后,单击“下一步”
    • 搜索模型设置

      选择Embedding模型服务、精排模型服务、搜索规划模型服务。

      • Embedding模型服务:基于盘古大模型技术的文本表示模型,将文本转化为用数值表示的向量形式,用于文本检索、聚类、推荐等场景。
      • 精排模型服务:基于盘古大模型技术的文本表示模型,将文本转化为用数值表示的向量形式,用于文本检索、聚类、推荐等场景,语义搜索场景下,加入了精排模型,提升搜索的效果。
      • 搜索规划模型服务:搜索规划模型服务提供了意图分类、多轮查询改写、复杂查询分解、时间抽取等功能,在搜索增强生成任务中,通过意图分类的结果将路由到后续不同的流程;通过改写查询词及查询分解以提高搜索的准确率。
    • NLP模型设置

      选择NLP模型服务。基于盘古大模型的人工智能语言模型,可进行对话互动、回答问题、协助创作。

    • 扩展长上下文: 如果打开了此参数,模型在解析过程中会扩展长上下文以生成更全面结果。
      • 有效输入长度(K):如果打开“扩展长上下文”按钮,则需要设置有效输入长度,输入令牌的有效长度以保证最佳输出。
  6. 进入高级设置页面,设置好后,单击“确定”。
    • 引用定位:针对回答结果定位到原文位置。
    • 图文结合:展示原文引用关联图片。
    • 知识库缓存:如果打开知识库缓存按钮,您的搜索效率会相对高效。使用知识库缓存需要选择以下几个参数。
      • 缓存生成模型服务:选择一个模型服务。
      • 缓存阈值:达到缓存阈值,就会使用缓存输入值必须在0.1到1之间。
      • 缓存策略:达到缓存阈值,如果有多个答案,可以设置最高分或者随机。
      • 过期策略配置:缓存过期的方式,有3中选择。
        • Least Recently Used:根据当前时间与最后一次访问时间的差值超过存活时间时删除。
        • First In First Out:根据当前时间与创建时间的差值超过存活时间时删除。
        • Least Frequency Used:小于缓存命中阈值且当前时间与创建时间大于存活时间时清除,大于阈值时保留
      • 存活时间(秒):可以自己设置缓存的存活时间,或者直接设置成永久。

    知识库创建好后,可以在知识库管理页面查看到新创建的知识库基本信息,包括知识库ID、知识库名称、知识库状态等信息。

support.huaweicloud.com/usermanual-flexussearchservice/koosearch_04_0007.html