检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
创建用户解析规则 功能介绍 用于创建用户自定义的解析规则,解析规则用于解析需要作为subtitle的文本,规则由上而下依次校验。
修改用户解析规则 功能介绍 用于修改已配置的解析规则。
删除用户定义规则解析接口 功能介绍 用于删除用户自定义解析规则。
用户的文档解析规则定义 创建用户解析规则 修改用户解析规则 列举用户规则列表 删除用户定义规则解析接口
本文介绍Flexus企业搜索服务如何配置OCR增强实现文档智能解析功能。 步骤1:开通OCR 开通OCR服务的智能文档解析功能。 登录文字识别OCR管理控制台。 在“总览”页面的使用说明模块选择“智能文档解析”。
父主题: 用户的文档解析规则定义
包括: 解析设置:是否使用OCR增强、是否需要解析图片、是否需要解析页眉页脚、是否需要解析目录页 文档拆分设置:自动分段、长度分段(按文本长度分段)、层级分段(按小标题分段,可自定义小标题解析规则) 搜索模型设置:rerank模型配置 NLP模型设置:生成模型选择 其他设置:召回数量
内网访问文档解析地址 服务的内网访问文档解析地址。 产品规格 服务的产品规格。 计费模式 服务的计费模式。 任务状态 服务当前的任务状态,如果没有进行中的任务则显示“--”。 区域 服务所在区域。 创建时间 服务创建的时间。 内网访问知识管理地址 服务的内网访问知识管理地址。
在KooSearch服务详情页的API管理页签,可以看到知识管理和文档解析两类API。 知识管理:该类API主要用于知识库管理,例如上传文档、刷新文档等。 文档解析:该类API主要用于对文档数据进行处理,例如切分文档内容。
接口获取 KooSearch服务接口组成: https://{apig公网地址}/{apig请求地址} 服务接口请求地址获取方式: 账号登录CSS控制台。 左侧导航栏选择:“KooSearch >Flexus 企业搜索服务”。 根据“名称/ID”,单击进入已购买的服务。
终端节点 终端节点(Endpoint)即调用API的请求地址,KooSearch局点在贵阳一,终端节点见表1。
最大长度:64 create_time String 创建时间,指上传文件的时间,例如:1692848139119 最小长度:1 最大长度:13 update_time String 更新时间,可能不存在该键值 最小长度:1 最大长度:13 file_path String 文件地址
最大长度:64 create_time String 创建时间,指上传文件的时间,例如:1692848139119 最小长度:1 最大长度:13 update_time String 更新时间,可能不存在该键值 最小长度:1 最大长度:13 file_path String 文件地址
最大长度:64 create_time String 创建时间,指上传文件的时间,例如:1692848139119 最小长度:1 最大长度:13 update_time String 更新时间,可能不存在该键值 最小长度:1 最大长度:13 file_path String 文件地址
3 管理KooSearch服务 在服务的基本信息页面,可以获取服务的内网访问文档解析地址、内网访问知识管理地址、计费模式等信息。除此之外,还能进行管理服务、API管理和日志管理。具体请看管理KooSearch知识库。
表11 用户的文档解析规则定义接口 API 说明 创建用户解析规则 列用于创建用户自定义的解析规则,解析规则用于解析需要作为subtitle的文本,规则由上而下依次校验。 修改用户解析规则 用于修改已配置的解析规则。 列举用户规则列表 列举用户配置的所有解析规则列表。
层级解析模式:可选择自动解析和规则解析。选择规则解析需要自定义层级规。 层级分段详情如表3所示。 表3 层级分段 参数 说明 层级解析模式 自动解析:按照系统规则自动解析。
包含是否使用OCR增强、是否解析图片、解析图片是否需要提取文字、是否解析页眉页脚、是否解析目录页 split_conf 否 SplitConf object 拆分配置,包括分段方式设置、层级解析模式设置、标题层级深度设置、标题保存方式设置、分段长度配置、标题匹配pattern配置等
包含是否使用OCR增强、是否解析图片、解析图片是否需要提取文字、是否解析页眉页脚、是否解析目录页 split_conf SplitConf object 拆分配置,包括分段方式设置、层级解析模式设置、标题层级深度设置、标题保存方式设置、分段长度配置、标题匹配pattern配置等
包含是否使用OCR增强、是否解析图片、解析图片是否需要提取文字、是否解析页眉页脚、是否解析目录页 split_conf SplitConf object 拆分配置,包括分段方式设置、层级解析模式设置、标题层级深度设置、标题保存方式设置、分段长度配置、标题匹配pattern配置等