检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ch),Koosearch结合OCR服务文档识别能力,通过NET网关打通网络,使Koosearch支持智能文档解析能力,对PDF/Word等格式的文档内容进行版式分析,智能识别文档中的各种版式类型,如表格、图片、公式、标题等,以及识别单栏、双栏版面结构及段落顺序,对用户上传的文档
上传图片 功能介绍 上传图片入库。 URI POST /v1/koosearch/image/{img_id} 表1 路径参数 参数 是否必选 参数类型 描述 img_id 是 String 图片ID,格式为img-[0-9a-z]{32} 最小长度:1 最大长度:64 请求参数
获取图片内容 功能介绍 根据ID获取图片内容。 URI GET /v1/koosearch/image/{img_id} 表1 路径参数 参数 是否必选 参数类型 描述 img_id 是 String 图片ID,格式为img-[0-9a-z]{32} 最小长度:1 最大长度:64
图片管理 上传图片 获取图片内容
Recognition)增强准确识别图片/表格等各式版面布局、配置开放、拆分优化等措施提升文档解析效果。 多模态输入和输出 基于业务数据生成问答结果,可溯源,输出结果图文并茂。 物理多租、租户隔离、全托管 支持物理多租、租户隔离、全托管服务,独享资源更稳定、性能更高。 产品架构 图1 Flexus企业搜索服务架构
OCR增强功能是引用OCR服务能力,来增强实例的搜索和问答能力。 开通OCR增强插件会创建委托访问文字识别服务,需额外计费。 说明: 如果要使用此功能,首先需要开通OCR服务,以及购买OCR中的智能文档解析和通用文字识别功能,也可以购买套餐包,详情请查看计费规则。 网络配置 虚拟私有云 指定集群节点
是否必选 参数类型 描述 parse_conf 否 ParseConf object 文档解析配置,包含是否使用OCR增强、是否解析图片、解析图片是否需要提取文字、是否解析页眉页脚、是否解析目录页 split_conf 否 SplitConf object 拆分配置,包括分段方式设置、层
参数 参数类型 描述 parse_conf ParseConf object 文档解析配置,包含是否使用OCR增强、是否解析图片、解析图片是否需要提取文字、是否解析页眉页脚、是否解析目录页 split_conf SplitConf object 拆分配置,包括分段方式设置、层级解
参数 参数类型 描述 parse_conf ParseConf object 文档解析配置,包含是否使用OCR增强、是否解析图片、解析图片是否需要提取文字、是否解析页眉页脚、是否解析目录页 split_conf SplitConf object 拆分配置,包括分段方式设置、层级解
参数 参数类型 描述 parse_conf ParseConf object 文档解析配置,包含是否使用OCR增强、是否解析图片、解析图片是否需要提取文字、是否解析页眉页脚、是否解析目录页 split_conf SplitConf object 拆分配置,包括分段方式设置、层级解
是否必选 参数类型 描述 parse_conf 否 ParseConf object 文档解析配置,包含是否使用OCR增强、是否解析图片、解析图片是否需要提取文字、是否解析页眉页脚、是否解析目录页 split_conf 否 SplitConf object 拆分配置,包括分段方式设置、层
未勾选,在文档中遇到图片默认跳过,不处理图片。 勾选后,有两种解析方式可供选择: 提取图片文本:识别图片内文字。 仅保留原图:将图片提取后上传OBS桶,便于问答图文展示。 解析页眉页脚 未勾选,解析结果中不包含页眉页脚。 勾选后,解析结果中包含页眉页脚。 解析目录页 未勾选,解析结果中不包含目录页。 勾选后,解析结果中包含目录页。
通过API上传),当前版本中图片上传、文档内单张图片上传最大不超过10MB。 在KooSearch控制台,左侧导航栏选择“知识库管理”,进入“知识库管理”页面。 在知识库管理页面,选择已创建的知识库,单击操作列的“文档管理”,进入“文档管理”页面。 图1 进入文档管理页面 默认进入“文档管理”页签,单击“上传”。
参数 参数类型 描述 parse_conf ParseConf object 文档解析配置,包含是否使用OCR增强、是否解析图片、解析图片是否需要提取文字、是否解析页眉页脚、是否解析目录页 split_conf SplitConf object 拆分配置,包括分段方式设置、层级解
参数 参数类型 描述 parse_conf ParseConf object 文档解析配置,包含是否使用OCR增强、是否解析图片、解析图片是否需要提取文字、是否解析页眉页脚、是否解析目录页 split_conf SplitConf object 拆分配置,包括分段方式设置、层级解
搜索Embedding模型:搜索向量化模型,支持将文本转化成向量。 搜索精排模型:对搜索的召回结果进行重排序,提升向量检索的效果。 搜索规划模型:提供多轮改写及意图识别功能。 缓存生成模型:提供query之间相似度的计算,用于知识库的缓存功能。 访问地址 模型的内网访问地址及端口。 模型描述 模型详细信息的描述。
本案例以“kos_ocr”为例。 OCR增强 - OCR增强功能是引用OCR服务能力,来增强实例的搜索和问答能力。 开通OCR增强插件会创建委托访问文字识别服务,需额外计费。 网络配置 虚拟私有云 指定集群节点使用的虚拟专用网络,实现不同业务的网络隔离。 单击“查看虚拟私有云”跳转到虚拟私有
下所示。 https://iam.cn-southwest-2.myhuaweicloud.com/v3/auth/tokens 图1 URI示意图 为查看方便,每个具体API的URI,只给出resource-path部分,并将请求方法写在一起。这是因为URI-scheme都是H
-type”。 对于获取用户Token接口,返回如图 获取用户Token响应消息头所示的消息头,其中“x-subject-token”就是需要获取的用户Token。有了Token之后,您就可以使用Token认证调用其他API。 图1 获取用户Token响应消息头 响应消息体 响应
根据指定ID,删除对应的对话历史。 批量删除对话历史 根据多个ID,批量删除对话历史信息。 表9 图片管理接口 API 说明 上传图片 上传图片入库。 获取图片内容 根据ID获取图片内容。 表10 模型管理接口 API 说明 新增模型 新增配置模型,包括模型名称、模型描述、模型endpoint、模型配置。