材料数字化内容管理平台-搜象OCR解决方案-
版本: V2.0 | 交付方式: License |
适用于: Windows/Linux | 上架日期: 2022-02-25 03:37:38 |
产品概述
面对企业众多的材料资源,例如各种纸质档案、扫描件以及影像等非结构化文件资源,系统进行资源的收集、 OCR文字识别 以及内容的管理,形成并沉淀资源的半结构化和非结构化数据,对外提供数据服务。
产品特点
1、优秀的用户体验
有赖于我们前期对架构方案的技术选型以及在设计开发中对细节的专注。
2、支持图片、PDF和压缩文件上传,支持多应用渠道接入
图片支持但不限于jpg、jpeg、png、bmp、gif、tif、tiff、jfif、heic、jpe及dib等格式;压缩文件支持兼容Window和Linux的ZIP格式,自动提取压缩文件中的图片和PDF进行识别。支持平台本地上传,支持多系统渠道接入上传。
3、图像非失真压缩、旋正
几M大小图片可非失真压缩至一百多到两百多K,适合大规模存储,可开启自动旋正系统参数,对于非正向图片进行旋正存储。
4、分布式 对象存储
非结构化的图片和PDF数据进行底层的对象存储,高性能写入和读出,大规模数据场景下组件可设置多节点分布式存储。
5、内容标签聚类、热门置顶
默认 文字识别 结果自动标签生成,可按需自定义,内容标签自动聚合,热门标签置顶排序,点击标签可检索出相关图片和PDF页。
6、全文搜索、组合式条件搜索
集成Elasticsearch的强大检索能力,支持中文分词搜索、精确搜索、模糊搜索以及字符串匹配搜索等多条件组合下的复杂搜索。
7、自定义数据统一查询服务
通过简单编写类SQL脚本,可自定义平台的数据API,提供给外部应用渠道调用。
8、异步总线方式,提高系统并发能力和稳定性
基于kafka消息队列的总线模式,可以有效降低处理数据时对 数据库 的依赖,有效缓存削峰,提高并发处理能力,让系统稳健运行。
9、工业级的安全认证及权限管控
采用OAuth2协议标准对用户的访问进行安全认证,独立的权限管理服务将用户的权限粒度控制在菜单/按钮权限、数据权限以及接口权限。
10、 大数据 支撑
在大数据存储及计算方面,平台相关组件支持分布式、支撑横向水平扩展,例如分布式文件存储、NewSql数据库、分布式搜索引擎以及分布式消息总线等。
11、容器化运维
平台采用容器化结合技术部署运维。
产品测试
请联系我们获取测试地址和账号