华为云FLEXUS云服务_FLEXUS企业搜索服务-创建KooSearch知识库:新建知识库

时间：2024-09-05 15:04:54

新建知识库

在 KooSearch 控制台，左侧导航栏选择“知识库管理”。
进入知识库管理页面。
在知识库管理页面，单击右上角“新建知识库”。
在“新建知识库”页面设置知识库信息。
在创建知识库页签填写“知识库名称”、选择“知识库语言”，填写知识库“描述”，单击“下一步”。
图1 创建知识库

在“解析拆分设置”页签配置解析设置和拆分设置，然后单击“下一步”。

解析设置：勾选需要解析的能力。

表1 解析设置
参数	说明
OCR增强	勾选后，即可调用OCR服务进行智能文档识别，如表格解析或扫描文件等。
解析图片	未勾选，在文档中遇到图片默认跳过，不处理图片。勾选后，有两种解析方式可供选择：提取图片文本：识别图片内文字。仅保留原图：将图片提取后上传OBS桶，便于问答图文展示。
解析页眉页脚	未勾选，解析结果中不包含页眉页脚。勾选后，解析结果中包含页眉页脚。
解析目录页	未勾选，解析结果中不包含目录页。勾选后，解析结果中包含目录页。

拆分设置：即分段设置，选择分段方式。

表2 拆分设置
参数	说明
自动分段	系统根据文档特点自动选择合适的分段方式。
长度分段	默认按照段落进行拆分合并，如果段落过长则通过标识符进行分段。分段标识符：分段方式为遇到所选符号即截断，符号之间没有优先级，最终分割后合并到预计最大长度。自定义分段中如果未命中分段标识符，分段将会失败。分段预计长度：分段的最大长度，文档的正文如果超过设定的[最大长度]，则截取[最大长度]的片段为新文档，随后回溯[分段重叠]字符，继续向后检查，直到文档结束。
层级分段	先按照文章的标题层级分段，再按照段落进行拆分合并，如果段落过长则通过标识符进行分段。层级解析模式：可选择自动解析和规则解析。选择规则解析需要自定义层级规。层级分段详情如表3所示。

表3 层级分段
参数	说明
层级解析模式	自动解析：按照系统规则自动解析。
层级解析模式	规则解析：由于不同文档的层次结构多样且不一致，针对不同的文档可自定义其文档层次解析规则，更好地解析切分文档从而提升基于文档知识问答的准确率。自定义默认规则将最常见的规则，作为默认规则可选，详情请参见提供的默认规则示例。自定义解析规则当前解析规则采用正则语言编写，可参见如表5示例。
标题层级深度	选择文章的标题层级深度。
标题保存方式	可选择“保存多标题组合”和“保存最后一级标题”。
分段标识符	分段方式为遇到所选符号即截断，符号之间没有优先级，最终分割后合并到预计最大长度。自定义分段中如果未命中分段标识符，分段将会失败。
分段预计长度	分段的最大长度，文档的正文如果超过设定的[最大长度]，则截取[最大长度]的片段为新文档，随后回溯[分段重叠]字符，继续向后检查，直到文档结束。
跨标题合并	打开“跨标题合并”开关：不同标题段落文字较少时，会自动合并到指定的分段长度，有助于生成更全面的结果。关闭“跨标题合并”开关：不会自动合并不同标题。说明： “层级分段”页签中有此按钮，可以自己设置开关。“自动分段”和“长度分段”页签中没有此按钮，跨标题合并使用的是系统默认参数，等于true。

表4 规则解析默认规则示例
类别	规则	描述
第一章第一节第一条	^第([零〇一二三四五六七八九十百千万1-9]{1,7})章 ^第([零〇一二三四五六七八九十百千万1-9]{1,7})节 ^第([零〇一二三四五六七八九十百千万1-9]{1,7})条	以章的规则为例：中括号内大写的阿拉伯可以匹配，例如：第一章。支持1-9的阿拉伯数字匹配，例如：第1章。最大支持中间位数出现的位数有7位。例如：第一千一百三十七章。节和条的规则类似。

表5 自定义规则解析示例
类别	规则	描述
第一章第一节第一条	^第([零〇一二三四五六七八九十百千万1-9]{1,7})章 ^第([零〇一二三四五六七八九十百千万1-9]{1,7})节 ^第([零〇一二三四五六七八九十百千万1-9]{1,7})条	/
1 1.1 1.1.1	^(\d+\.)(?=\s) ^(\d+)(\.\d+)(?!\.)(?=\s) ^(\d+)(\.\d+)(\.\d+)(?!\.)(?=\s)	可以匹配数字开头的段落。备注： [\u4e00-\u9fa5]+ 限制中文）例如： 1. 简介 1.1 说明 1.1.1 详细说明
一、（一） 1、 1）	^([零〇一二三四五六七八九十百千万]+)[、] ^（([零〇一二三四五六七八九十百千万]+)） ^[\d+]、 ^[\d+]）	/

图2 自定义规则解析示例

在“模型设置”页签配置好模型后，单击“下一步”。
- 搜索模型设置
   选择Embedding模型服务、精排模型服务、搜索规划模型服务。
  - Embedding模型服务：基于盘古大模型技术的文本表示模型，将文本转化为用数值表示的向量形式，用于文本检索、聚类、推荐等场景。
  - 精排模型服务：基于盘古大模型技术的文本表示模型，将文本转化为用数值表示的向量形式，用于文本检索、聚类、推荐等场景，语义搜索场景下，加入了精排模型，提升搜索的效果。
  - 搜索规划模型服务：搜索规划模型服务提供了意图分类、多轮查询改写、复杂查询分解、时间抽取等功能，在搜索增强生成任务中，通过意图分类的结果将路由到后续不同的流程；通过改写查询词及查询分解以提高搜索的准确率。
- NLP模型设置
   选择NLP模型服务。基于盘古大模型的人工智能语言模型，可进行对话互动、回答问题、协助创作。
- 扩展长上下文：如果打开了此参数，模型在解析过程中会扩展长上下文以生成更全面结果。
  - 有效输入长度(K)：如果打开“扩展长上下文”按钮，则需要设置有效输入长度，输入令牌的有效长度以保证最佳输出。
进入高级设置页面，设置好后，单击“确定”。
- 引用定位：针对回答结果定位到原文位置。
- 图文结合：展示原文引用关联图片。
- 知识库缓存：如果打开知识库缓存按钮，您的搜索效率会相对高效。使用知识库缓存需要选择以下几个参数。
  - 缓存生成模型服务：选择一个模型服务。
  - 缓存阈值：达到缓存阈值，就会使用缓存输入值必须在0.1到1之间。
  - 缓存策略：达到缓存阈值，如果有多个答案，可以设置最高分或者随机。
  - 过期策略配置：缓存过期的方式，有3中选择。
    - Least Recently Used：根据当前时间与最后一次访问时间的差值超过存活时间时删除。
    - First In First Out：根据当前时间与创建时间的差值超过存活时间时删除。
    - Least Frequency Used：小于缓存命中阈值且当前时间与创建时间大于存活时间时清除，大于阈值时保留
  - 存活时间（秒）：可以自己设置缓存的存活时间，或者直接设置成永久。
知识库创建好后，可以在知识库管理页面查看到新创建的知识库基本信息，包括知识库ID、知识库名称、知识库状态等信息。