检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
本文介绍Flexus企业搜索服务如何配置OCR增强实现文档智能解析功能。 步骤1:开通OCR 开通OCR服务的智能文档解析功能。 登录文字识别OCR管理控制台。 在“总览”页面的使用说明模块选择“智能文档解析”。
包括: 解析设置:是否使用OCR增强、是否需要解析图片、是否需要解析页眉页脚、是否需要解析目录页 文档拆分设置:自动分段、长度分段(按文本长度分段)、层级分段(按小标题分段,可自定义小标题解析规则) 搜索模型设置:rerank模型配置 NLP模型设置:生成模型选择 其他设置:召回数量
OCR增强 - OCR增强功能是引用OCR服务能力,来增强实例的搜索和问答能力。 开通OCR增强插件会创建委托访问文字识别服务,需额外计费。
本案例以“kos_ocr”为例。 OCR增强 - OCR增强功能是引用OCR服务能力,来增强实例的搜索和问答能力。 开通OCR增强插件会创建委托访问文字识别服务,需额外计费。 网络配置 虚拟私有云 指定集群节点使用的虚拟专用网络,实现不同业务的网络隔离。
Boolean ocr开关 region_rac_enabled Boolean rac开关 表4 KnowledgeRepoListInfo 参数 参数类型 描述 id String 知识库ID 最小长度:1 最大长度:100 name String 知识库名称 最小长度:1
智能解析切分 通过OCR(Optical Character Recognition)增强准确识别图片/表格等各式版面布局、配置开放、拆分优化等措施提升文档解析效果。 多模态输入和输出 基于业务数据生成问答结果,可溯源,输出结果图文并茂。
否 Boolean ocr增强 缺省值:false image_enabled 否 Boolean 图片解析 缺省值:false header_footer_enabled 否 Boolean 解析页眉页脚 缺省值:false catalog_enabled 否 Boolean
Boolean ocr增强 缺省值:false image_enabled Boolean 图片解析 缺省值:false header_footer_enabled Boolean 解析页眉页脚 缺省值:false catalog_enabled Boolean 解析目录页 缺省值
Boolean ocr增强 缺省值:false image_enabled Boolean 图片解析 缺省值:false header_footer_enabled Boolean 解析页眉页脚 缺省值:false catalog_enabled Boolean 解析目录页 缺省值
Boolean ocr增强 缺省值:false image_enabled Boolean 图片解析 缺省值:false header_footer_enabled Boolean 解析页眉页脚 缺省值:false catalog_enabled Boolean 解析目录页 缺省值
Boolean ocr增强 缺省值:false image_enabled Boolean 图片解析 缺省值:false header_footer_enabled Boolean 解析页眉页脚 缺省值:false catalog_enabled Boolean 解析目录页 缺省值
\ /``` 最小长度:1 最大长度:255 数组长度:0 - 250 file_extract_req 否 String 文档级别解析参数 样例 {"mode":1,"language":"CHINESE","parse_conf":{"ocr_enabled":true,"
包括: 解析设置:是否使用OCR增强、是否需要解析图片、是否需要解析页眉页脚、是否需要解析目录页。 文档拆分设置: 自动分段 长度分段(按文本长度分段) 层级分段(按小标题分段,可自定义小标题解析规则 搜索模型设置:rerank模型配置。 NLP模型设置。
表1 解析设置 参数 说明 OCR增强 勾选后,即可调用OCR服务进行智能文档识别,如表格解析或扫描文件等。 解析图片 未勾选,在文档中遇到图片默认跳过,不处理图片。 勾选后,有两种解析方式可供选择: 提取图片文本:识别图片内文字。
生成答案 功能介绍 将content输入给模型,使用模型能力生成答案。 注意: 当"chat_id"为空时,"chat_create_flag"应为"1",表示需要开启新的对话;当"chat_id"有值时,"chat_create_flag"可以为"0",表示不需要开启新的对话。
查询对话历史列表 功能介绍 查询历史问题列表。包含对话ID、对话问题、用户名、对话开始时间。 URI GET /v1/koosearch/chat-history 表1 Query参数 参数 是否必选 参数类型 描述 user_name 否 String 用户名 最小长度:1 最大长度
查询FAQ列表 功能介绍 获取FAQ列表,包括ID、问题、答案、创建人、创建时间等。可以根据问题关键字过滤出需要查看的FAQ。 URI GET /v1/koosearch/repos/{repo_id}/faqs 表1 路径参数 参数 是否必选 参数类型 描述 repo_id 是
获取FAQ 功能介绍 根据ID获取FAQ详情,包括问题、答案。 URI GET /v1/koosearch/repos/{repo_id}/faqs/{faq_id} 表1 路径参数 参数 是否必选 参数类型 描述 faq_id 是 String FAQ ID,1~64个字符,只能包含数字
列举模型 功能介绍 列举模型 URI GET /v1/koosearch/models/search 表1 Query参数 参数 是否必选 参数类型 描述 model_name 否 String 模型名称 最小长度:1 最大长度:64 model_type 否 String 模型类型
通过API使用KooSearch实现搜索问答 KooSearch服务提供的API支持发布到不同的环境,发布成功后支持被调用。 场景描述 KooSearch服务开通成功后,会自动创建KooSearch API。在KooSearch服务详情页的API管理页签,可以看到知识管理和文档解析两类