检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
配置OCR增强实现文档智能解析 应用场景 Flexus企业搜索服务(后续简称为KooSearch),Koosearch结合OCR服务文档识别能力,通过NET网关打通网络,使Koosearch支持智能文档解析能力,对PDF/Word等格式的文档内容进行版式分析,智能识别文档中的各种版式类型
智能解析切分 通过OCR(Optical Character Recognition)增强准确识别图片/表格等各式版面布局、配置开放、拆分优化等措施提升文档解析效果。 多模态输入和输出 基于业务数据生成问答结果,可溯源,输出结果图文并茂。
开通OCR增强插件会创建委托访问文字识别服务,需额外计费。 说明: 如果要使用此功能,首先需要开通OCR服务,以及购买OCR中的智能文档解析和通用文字识别功能,也可以购买套餐包,详情请查看计费规则。 网络配置 虚拟私有云 指定集群节点使用的虚拟专用网络,实现不同业务的网络隔离。
Flexus企业搜索服务使用流程 华为云企业搜索KooSearch是基于华为云的云搜索服务搭建的一站式智能搜索解决方案,帮助企业聚焦业务场景和应用开发,场景服务化、技术简单化、低门槛化,满足开发者基于业务场景的二次开发。
Flexus企业搜索服务基于业界效果突出的搜索模型、云搜索服务的高性能GaussDB向量数据库以及LLM模型组成行业RAG解决方案,导入非结构化或者结构化业务数据,帮助企业客户快速一站式搭建企业智能问答应用。
版本规格 - 智能搜索版:提供开箱即用的知识库,主要用于RAG,为大语言模型(LLM)提供外部知识来源,扩大知识检索范围。 智能问答版:提供内置大语言模型(LLM),一站式快速搭建企业级RAG服务。 本案例选择“智能问答版”。
表1 解析设置 参数 说明 OCR增强 勾选后,即可调用OCR服务进行智能文档识别,如表格解析或扫描文件等。 解析图片 未勾选,在文档中遇到图片默认跳过,不处理图片。 勾选后,有两种解析方式可供选择: 提取图片文本:识别图片内文字。
content" : "人工智能", "update_date_time" : "134554", "doc_type" : "doc", "file_path" : "uni-search/v1/人工智能.doc", "score" : 0.9999
"chat_id" : "2c57dd12-0384-46c8-8d13-ae78dc857d94", "knowledge_repo_id" : "176e63a2-73bd-415c-aab2-f688030855e3", "chat_title" : "人工智能会取代人类吗
构造时请参考默认prompt,以下为参考示例: 【材料】:{0} 【任务】:你是智能问答助手,你能结合历史对话和【问题】,严格按照【要求】给出准确的回复。 【要求】: 1.
搜索规划模型:提供多轮改写及意图识别功能。 缓存生成模型:提供query之间相似度的计算,用于知识库的缓存功能。 访问地址 模型的内网访问地址及端口。 模型描述 模型详细信息的描述。 昇腾云模型名称 来源于昇腾云服务开通的NLP大模型的模型名称。
TEXT 枚举值: TEXT IMAGE 表8 SplitConf 参数 参数类型 描述 split_mode String 分段设置/层级解析模型 LENGTH-长度拆分,即为字数拆分 CATALOG-层级分段下的自动解析 RULE- 层级分段下的规则解析 AUTO- 自动拆分,自动识别文档格式匹配适合的拆分解析方式
TEXT 枚举值: TEXT IMAGE 表8 SplitConf 参数 参数类型 描述 split_mode String 分段设置/层级解析模型 LENGTH-长度拆分,即为字数拆分 CATALOG-层级分段下的自动解析 RULE- 层级分段下的规则解析 AUTO- 自动拆分,自动识别文档格式匹配适合的拆分解析方式
TEXT 枚举值: TEXT IMAGE 表8 SplitConf 参数 参数类型 描述 split_mode String 分段设置/层级解析模型 LENGTH-长度拆分,即为字数拆分 CATALOG-层级分段下的自动解析 RULE- 层级分段下的规则解析 AUTO- 自动拆分,自动识别文档格式匹配适合的拆分解析方式
TEXT IMAGE 表5 SplitConf 参数 是否必选 参数类型 描述 split_mode 否 String 分段设置/层级解析模型 LENGTH-长度拆分,即为字数拆分 CATALOG-层级分段下的自动解析 RULE- 层级分段下的规则解析 AUTO- 自动拆分,自动识别文档格式匹配适合的拆分解析方式
TEXT IMAGE 表6 SplitConf 参数 是否必选 参数类型 描述 split_mode 否 String 分段设置/层级解析模型 LENGTH-长度拆分,即为字数拆分 CATALOG-层级分段下的自动解析 RULE- 层级分段下的规则解析 AUTO- 自动拆分,自动识别文档格式匹配适合的拆分解析方式
TEXT 枚举值: TEXT IMAGE 表8 SplitConf 参数 参数类型 描述 split_mode String 分段设置/层级解析模型 LENGTH-长度拆分,即为字数拆分 CATALOG-层级分段下的自动解析 RULE- 层级分段下的规则解析 AUTO- 自动拆分,自动识别文档格式匹配适合的拆分解析方式
TEXT 枚举值: TEXT IMAGE 表7 SplitConf 参数 参数类型 描述 split_mode String 分段设置/层级解析模型 LENGTH-长度拆分,即为字数拆分 CATALOG-层级分段下的自动解析 RULE- 层级分段下的规则解析 AUTO- 自动拆分,自动识别文档格式匹配适合的拆分解析方式