检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
rch结合OCR服务文档识别能力,通过NET网关打通网络,使Koosearch支持智能文档解析能力,对PDF/Word等格式的文档内容进行版式分析,智能识别文档中的各种版式类型,如表格、图片、公式、标题等,以及识别单栏、双栏版面结构及段落顺序,对用户上传的文档进行智能解析。本文介
什么是Flexus企业搜索 什么是KooSearch 华为云企业搜索KooSearch是基于华为云的云搜索服务搭建的一站式智能搜索解决方案,帮助企业聚焦业务场景和应用开发,场景服务化、技术简单化、低门槛化,满足开发者基于业务场景的二次开发。在RAG(Retrieval-Augmented
获取图片内容 功能介绍 根据ID获取图片内容。 URI GET /v1/koosearch/image/{img_id} 表1 路径参数 参数 是否必选 参数类型 描述 img_id 是 String 图片ID,格式为img-[0-9a-z]{32} 最小长度:1 最大长度:64
X-Auth-Token 是 String 接口鉴权使用的Token,Token获取方式参考:获取IAM用户Token 最小长度:1 最大长度:1000000 表3 FormData参数 参数 是否必选 参数类型 描述 image 是 File 需要上传的图片 响应参数 状态码: 400
approved 是同一个标签 2.文档可以有一个或多个标签 3.建议格式为:标签名称:标签值 ,如果能够保证标签值不冲突,也可以直接使用 标签值,例如 《冰箱使用说明书》对应的产品型号:ProductModel:BCD-551WLCTDAFA5U1 《一句顶一万句》的作者是:刘震云 《外观设计专利交底书模板》
是否扩展长上下文。提供更广泛的上下文,以生成完整回答。 缺省值:false effective_input_length Integer 效果最好的上下文长度,与模型相关,确保输入令牌的有效长度以保证最佳输出 考虑到多轮对话,建议控制在模型上下文长度的60%(向上取整)。 最小值:2
开通OCR增强插件会创建委托访问文字识别服务,需额外计费。 说明: 如果要使用此功能,首先需要开通OCR服务,以及购买OCR中的智能文档解析和通用文字识别功能,也可以购买套餐包,详情请查看计费规则。 网络配置 虚拟私有云 指定集群节点使用的虚拟专用网络,实现不同业务的网络隔离。 单击“查看
是否扩展长上下文。提供更广泛的上下文,以生成完整回答。 缺省值:false effective_input_length Integer 效果最好的上下文长度,与模型相关,确保输入令牌的有效长度以保证最佳输出 考虑到多轮对话,建议控制在模型上下文长度的60%(向上取整)。 最小值:2
能包含其他的特殊字符。 本案例以“kos_ocr”为例。 OCR增强 - OCR增强功能是引用OCR服务能力,来增强实例的搜索和问答能力。 开通OCR增强插件会创建委托访问文字识别服务,需额外计费。 网络配置 虚拟私有云 指定集群节点使用的虚拟专用网络,实现不同业务的网络隔离。
CATALOG-层级分段下的自动解析 RULE- 层级分段下的规则解析 AUTO- 自动拆分,自动识别文档格式匹配适合的拆分解析方式 缺省值:AUTO 枚举值: LENGTH CATALOG RULE AUTO separator_ids 否 Array of strings 分段标识符ID列表 文件解析分类
CATALOG-层级分段下的自动解析 RULE- 层级分段下的规则解析 AUTO- 自动拆分,自动识别文档格式匹配适合的拆分解析方式 缺省值:AUTO 枚举值: LENGTH CATALOG RULE AUTO separator_ids 否 Array of strings 分段标识符ID列表 文件解析分类
approved 是同一个标签 2.文档可以有一个或多个标签 3.建议格式为:标签名称:标签值 ,如果能够保证标签值不冲突,也可以直接使用 标签值,例如 《冰箱使用说明书》对应的产品型号:ProductModel:BCD-551WLCTDAFA5U1 《一句顶一万句》的作者是:刘震云 《外观设计专利交底书模板》
未勾选,在文档中遇到图片默认跳过,不处理图片。 勾选后,有两种解析方式可供选择: 提取图片文本:识别图片内文字。 仅保留原图:将图片提取后上传OBS桶,便于问答图文展示。 解析页眉页脚 未勾选,解析结果中不包含页眉页脚。 勾选后,解析结果中包含页眉页脚。 解析目录页 未勾选,解析结果中不包含目录页。 勾选后,解析结果中包含目录页。
华为云企业搜索KooSearch是基于华为云的云搜索服务搭建的一站式智能搜索解决方案,帮助企业聚焦业务场景和应用开发,场景服务化、技术简单化、低门槛化,满足开发者基于业务场景的二次开发。在RAG(Retrieval-Augmented Generation)及搜索场景提供效果和性能突出的组件化服务,
approved 是同一个标签 2.文档可以有一个或多个标签 3.建议格式为:标签名称:标签值 ,如果能够保证标签值不冲突,也可以直接使用 标签值,例如 《冰箱使用说明书》对应的产品型号:ProductModel:BCD-551WLCTDAFA5U1 《一句顶一万句》的作者是:刘震云 《外观设计专利交底书模板》
片效果。 图3 单击文档名称 图4 切片效果 管理文档数据。 单击操作列的“下载”,可下载文档至本地。 单击操作列的“删除”,可删除已上传的文档。 单击操作列的“QA生成”,可将上传的文档生成问答模式的Excel文档,生成任务在“任务管理”页签可以查看。 单击操作列的“重试”,可对已上传的文档重新进行切片。
搜索精排模型:对搜索的召回结果进行重排序,提升向量检索的效果。 搜索规划模型:提供多轮改写及意图识别功能。 缓存生成模型:提供query之间相似度的计算,用于知识库的缓存功能。 访问地址 模型的内网访问地址及端口。 模型描述 模型详细信息的描述。 昇腾云模型名称 来源于昇腾云服务开通的NLP大模型的模型名称。
文件管理接口 用户纳入系统的文档管理接口。 FAQ管理接口 用户自定义的FAQ相关管理接口。 FAQ批量管理接口 用户自定义的批量FAQ相关管理接口。 搜索与问答接口 Koosearch的搜索与模型问答接口。 对话历史接口 用户对话历史接口。 图片管理接口 图片管理相关接口。 模型管理接口
返回结果 状态码 请求发送以后,您会收到响应,包含状态码、响应消息头和消息体。 状态码是一组从1xx到5xx的数字代码,状态码表示了请求响应的状态,完整的状态码列表请参见状态码。 对于获取用户Token接口,如果调用后返回状态码为“201”,则表示请求成功。 响应消息头 对应请求
对于“获取用户Token”接口,您可以从接口的请求部分看到所需的请求参数及参数说明。将消息体加入后的请求如下所示,加粗的斜体字段需要根据实际值填写,其中username为用户名,********为用户的登录密码,domainname为用户所属的账号名称,如果是账号本身获取token,user