检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
本文介绍Flexus企业搜索服务如何配置OCR增强实现文档智能解析功能。 步骤1:开通OCR 开通OCR服务的智能文档解析功能。 登录文字识别OCR管理控制台。 在“总览”页面的使用说明模块选择“智能文档解析”。
OCR增强 - OCR增强功能是引用OCR服务能力,来增强实例的搜索和问答能力。 开通OCR增强插件会创建委托访问文字识别服务,需额外计费。
包括: 解析设置:是否使用OCR增强、是否需要解析图片、是否需要解析页眉页脚、是否需要解析目录页 文档拆分设置:自动分段、长度分段(按文本长度分段)、层级分段(按小标题分段,可自定义小标题解析规则) 搜索模型设置:rerank模型配置 NLP模型设置:生成模型选择 其他设置:召回数量
本案例以“kos_ocr”为例。 OCR增强 - OCR增强功能是引用OCR服务能力,来增强实例的搜索和问答能力。 开通OCR增强插件会创建委托访问文字识别服务,需额外计费。 网络配置 虚拟私有云 指定集群节点使用的虚拟专用网络,实现不同业务的网络隔离。
Boolean ocr开关 region_rac_enabled Boolean rac开关 表4 KnowledgeRepoListInfo 参数 参数类型 描述 id String 知识库ID 最小长度:1 最大长度:100 name String 知识库名称 最小长度:1
否 Boolean ocr增强 缺省值:false image_enabled 否 Boolean 图片解析 缺省值:false header_footer_enabled 否 Boolean 解析页眉页脚 缺省值:false catalog_enabled 否 Boolean
Boolean ocr增强 缺省值:false image_enabled Boolean 图片解析 缺省值:false header_footer_enabled Boolean 解析页眉页脚 缺省值:false catalog_enabled Boolean 解析目录页 缺省值
Boolean ocr增强 缺省值:false image_enabled Boolean 图片解析 缺省值:false header_footer_enabled Boolean 解析页眉页脚 缺省值:false catalog_enabled Boolean 解析目录页 缺省值
Boolean ocr增强 缺省值:false image_enabled Boolean 图片解析 缺省值:false header_footer_enabled Boolean 解析页眉页脚 缺省值:false catalog_enabled Boolean 解析目录页 缺省值
智能解析切分 通过OCR(Optical Character Recognition)增强准确识别图片/表格等各式版面布局、配置开放、拆分优化等措施提升文档解析效果。 多模态输入和输出 基于业务数据生成问答结果,可溯源,输出结果图文并茂。
Boolean ocr增强 缺省值:false image_enabled Boolean 图片解析 缺省值:false header_footer_enabled Boolean 解析页眉页脚 缺省值:false catalog_enabled Boolean 解析目录页 缺省值
表1 解析设置 参数 说明 OCR增强 勾选后,即可调用OCR服务进行智能文档识别,如表格解析或扫描文件等。 解析图片 未勾选,在文档中遇到图片默认跳过,不处理图片。 勾选后,有两种解析方式可供选择: 提取图片文本:识别图片内文字。
\ /``` 最小长度:1 最大长度:255 数组长度:0 - 250 file_extract_req 否 String 文档级别解析参数 样例 {"mode":1,"language":"CHINESE","parse_conf":{"ocr_enabled":true,"
包括: 解析设置:是否使用OCR增强、是否需要解析图片、是否需要解析页眉页脚、是否需要解析目录页。 文档拆分设置: 自动分段 长度分段(按文本长度分段) 层级分段(按小标题分段,可自定义小标题解析规则 搜索模型设置:rerank模型配置。 NLP模型设置。
创建和管理KooSearch模型服务(可选) 场景描述 用户可以在模型管理页面配置不同的模型,建好的模型服务可以在体验问答和搜索的时候用来配置,也可以在配置知识库时,选择您建好的模型。 创建模型服务 登录云搜索服务管理控制台。 在左侧导航栏选择“KooSearch>Flexus企业搜索服务
构造请求 本节介绍REST API请求的组成,以调用获取用户Token接口说明如何调用API,该API获取用户的Token,Token是用户的访问令牌,承载身份与权限信息,Token可以用于调用其他API时鉴权。 您还可以通过这个视频教程了解如何构造请求调用API:https://