检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
、数字、中划线或者下划线,不能包含其他的特殊字符。 本案例以“kos_ocr”为例。 OCR增强 - OCR增强功能是引用OCR服务能力,来增强实例的搜索和问答能力。 开通OCR增强插件会创建委托访问文字识别服务,需额外计费。 网络配置 虚拟私有云 指定集群节点使用的虚拟专用网络,实现不同业务的网络隔离。
包含其他的特殊字符。 OCR增强 - OCR增强功能是引用OCR服务能力,来增强实例的搜索和问答能力。 开通OCR增强插件会创建委托访问文字识别服务,需额外计费。 说明: 如果要使用此功能,首先需要开通OCR服务,以及购买OCR中的智能文档解析和通用文字识别功能,也可以购买套餐包,详情请查看计费规则。
搜索知识库 功能介绍 根据query,在指定知识库中搜索得到topN相关的分片文档。 URI POST /v1/koosearch/experience/search 请求参数 表1 请求Header参数 参数 是否必选 参数类型 描述 X-Auth-Token 是 String
、数字、中划线或者下划线,不能包含其他的特殊字符。 本案例以“kos_ocr”为例。 OCR增强 - OCR增强功能是引用OCR服务能力,来增强实例的搜索和问答能力。 开通OCR增强插件会创建委托访问文字识别服务,需额外计费。 网络配置 虚拟私有云 指定集群节点使用的虚拟专用网络,实现不同业务的网络隔离。
存方式设置、分段长度配置、标题匹配pattern配置等 表5 ParseConf 参数 是否必选 参数类型 描述 ocr_enabled 否 Boolean ocr增强 缺省值:false image_enabled 否 Boolean 图片解析 缺省值:false header_footer_enabled
用户文档解析自定义规则配置接口。 表2 知识库管理接口 API 说明 创建知识库 创建名称为xxx的知识库。 修改知识库配置 修改知识库配置。包括: 解析设置:是否使用OCR增强、是否需要解析图片、是否需要解析页眉页脚、是否需要解析目录页。 文档拆分设置: 自动分段 长度分段(按文本长度分段) 层级分段(按小标题分段,可自定义小标题解析规则
知识库列表 数组长度:1 - 65535 total Integer 总数 最小值:1 最大值:65535 region_ocr_enabled Boolean ocr开关 region_rac_enabled Boolean rac开关 表4 KnowledgeRepoListInfo
String 文档解析ID 最小长度:0 最大长度:64 表4 ParseConf 参数 是否必选 参数类型 描述 ocr_enabled 否 Boolean ocr增强 缺省值:false image_enabled 否 Boolean 图片解析 缺省值:false header_footer_enabled
等 id String 文档解析ID 最小长度:0 最大长度:64 表7 ParseConf 参数 参数类型 描述 ocr_enabled Boolean ocr增强 缺省值:false image_enabled Boolean 图片解析 缺省值:false header_footer_enabled
等 id String 文档解析ID 最小长度:0 最大长度:64 表7 ParseConf 参数 参数类型 描述 ocr_enabled Boolean ocr增强 缺省值:false image_enabled Boolean 图片解析 缺省值:false header_footer_enabled
等 id String 文档解析ID 最小长度:0 最大长度:64 表7 ParseConf 参数 参数类型 描述 ocr_enabled Boolean ocr增强 缺省值:false image_enabled Boolean 图片解析 缺省值:false header_footer_enabled
设置、标题保存方式设置、分段长度配置、标题匹配pattern配置等 表6 ParseConf 参数 参数类型 描述 ocr_enabled Boolean ocr增强 缺省值:false image_enabled Boolean 图片解析 缺省值:false header_footer_enabled
建议直接修改该请求,不要重试该请求。 504 ServerTimeout 请求在给定的时间内无法完成。客户端仅在为请求指定超时(Timeout)参数时会得到该响应。 505 HTTP Version not supported 服务器不支持请求的HTTPS协议的版本,无法完成处理。 父主题: 公共参数
模型,支持对接盘古NLP(Natural Language Processing)大模型,支持对接晟腾云开源大模型。 智能解析切分 通过OCR(Optical Character Recognition)增强准确识别图片/表格等各式版面布局、配置开放、拆分优化等措施提升文档解析效果。
在“解析拆分设置”页签配置解析设置和拆分设置,然后单击“下一步”。 解析设置:勾选需要解析的能力。 表1 解析设置 参数 说明 OCR增强 勾选后,即可调用OCR服务进行智能文档识别,如表格解析或扫描文件等。 解析图片 未勾选,在文档中遇到图片默认跳过,不处理图片。 勾选后,有两种解析方式可供选择:
file_extract_req 否 String 文档级别解析参数 样例 {"mode":1,"language":"CHINESE","parse_conf":{"ocr_enabled":true,"image_enabled":true,"image_conf":"IMAGE","header_footer_enabled":false