检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
未实名认证
已实名认证
自动文字识别OCR提供在线文字识别服务,将图片、扫描件或PDF、OFD文档中的文字识别成可编辑的文本。OCR文字识别支持证件识别、票据识别、定制模板识别、通用表格文字识别等。华为云OCR产品优势• 文字识别精度高:采用先进的自研深度学习算法,结合亿万级海量标注数据样本训练,针对各种业务场景优化•自动文字识别稳定服务:华为云OCR成功应用于各类场景,基于华为等企业客户的长期实践,经受过复杂场景考验• 自动文字识别支持复杂场景:证件支持复杂背景、扭曲、倾斜等场景下的文字识别;表单支持盖章、错行等场景• 自动文字识别简单易用:提供符合RESTful规范的API访问接口,兼容性强,使用方便
自动文字识别OCR提供在线文字识别服务,将图片、扫描件或PDF、OFD文档中的文字识别成可编辑的文本。OCR文字识别支持证件识别、票据识别、定制模板识别、通用表格文字识别等。
华为云OCR产品优势
• 文字识别精度高:采用先进的自研深度学习算法,结合亿万级海量标注数据样本训练,针对各种业务场景优化
•自动文字识别稳定服务:华为云OCR成功应用于各类场景,基于华为等企业客户的长期实践,经受过复杂场景考验
• 自动文字识别支持复杂场景:证件支持复杂背景、扭曲、倾斜等场景下的文字识别;表单支持盖章、错行等场景
• 自动文字识别简单易用:提供符合RESTful规范的API访问接口,兼容性强,使用方便
支持表格、文档、网络图片、健康码、核酸检测记录等任意格式图片上文字信息的自动化识别,自适应分析各种版面和表格,快速实现各种文档电子化
支持身份证、驾驶证、行驶证、护照等证件图片上有效信息的自动识别和关键字段结构化提取
支持增值税发票、机动车销售发票、火车票、出租车发票等各种发票以及发票验真,支持图片及PDF、OFD文档上有效信息的自动识别和结构化提取。
支持物流面单、医疗化验单据等多种行业特定类型图片的结构化信息提取和识别,助力行业自动化效率提升
▶ OCR服务通过RestFul API调用,计费以Https请求返回的状态码为准,当返回状态码为2xx(如200/201)时,表示调用成功并进行扣费。
▶ OCR服务通过套餐包计费方式,来降低调用成本,从绝大部分客户的使用来看,客户上传错误样本导致计费的占比非常非常小,几乎可忽略不计。
▶ 在客户使用OCR能力,进行二次开发时,可以尽可能的通过页面可视化提醒等方式,引导使用者尽量拍摄符合人眼易于识别的图片,以保障数据质量提升同时识别准确率。
▶ 由于图片的输入非常开放,因此为了避免恶意攻击,在公有云上对有效识别的信息(即便部分不准)也会计费,类似于在通话质量不佳时通常也是要求计费。
▶ OCR服务只支持调用一次接口识别一张图片,批量识别需要进行二次开发,编码循环调用API,实现批量调用服务识别图片。
▶OCR提取之后返回的结果是JSON格式,需要用户通过编程,将结果保存为Word、TXT、pdf格式。
文字识别服务属于公有云服务,线上用户资源共享,并发量会根据线上用户的调用情况动态调整。
如遇到突发高峰导致的并发量不够用的情况,您可以尝试以下两种解决方法:
▶通过重试机制,在代码里检查返回值,碰到并发错误可以延时一小段时间(如2-5s)重试请求.
▶后端检查上一个请求结果,上一个请求返回之后再发送下一个请求,避免请求过于频繁。
目前OCR提供的SDK有Java、Python、Node.js、PHP、C++、Go、.NET版本。具体请参考文字识别服务《SDK参考》手册,该手册详细介绍了SDK支持的版本及使用方法。
▶ OCR服务SDK供用户免费下载,并依据API调用次数进行收费。
▶ 使用OCR服务时,如果您需要使用华为云对象存储服务(OBS)中的数据,请开通对象存储服务OBS授权,可在控制台进行开通。
▶OCR服务支持IAM细粒度划分策略。可以为子用户设置OCR服务的使用权限,详细权限说明和配置过程请参见权限管理。
目前OCR服务不支持上传图片后直接导出结果,需要通过调用API的方式使用。具体操作请参考《文字识别服务快速入门》。
文字识别服务支持输入图片的base64编码或图片的url路径。
如果您使用图片的url路径,可以将图片上传至华为云对象存储服务(OBS)中,使用OBS提供的图片url。
同时,您也可以不使用华为云存储,使用公网http/https url传入图片。
▶ 增值税发票识别API支持使用pdf、ofd文件进行识别。其他API不能直接识别word、pdf、excel等文件,可将此类文件转换为图片进行识别。
文字识别(Optical Character Recognition,简称OCR)是指将图片、扫描件或PDF、OFD文档中的打印字符进行检测识别成可编辑的文本格式,以JSON格式返回识别结果。
通用表格识别:提取表格内的文字和所在行列位置信息,适应不同格式的表格。同时也识别表格外部的文字区域。用于各种单据和报表的电子化,恢复结构化信息。
智能分类识别服务可以一次性对同张图片中的多个卡证、票据进行检测和识别,并返回每个卡证、票据的类别及结构化数据。本文还将介绍更多智能分类文字识别
身份证识别:自动识别身份证上的全部信息,支持身份证正反面识别,一次扫描即可识别身份证号码、姓名、地址等全部信息,在暗光、倾斜、过曝光、阴影等异常条件下均可准确识别身份证信息。
增值税发票识别:通过对增值税发票图片预处理、表格提取、文字提取、文字识别、结构化信息输出等一系列技术化手段,快速将增值税发票上的文字信息识别出来
计费项:按API调用次数计费,计费价格请参见价格计算器。只有调用成功才会计算调用次数,其中返回的2xx状态码表示调用成功,调用失败不计费。
OCR提供两种计费方式下不同区域、不同应用场景的文字识别服务,含功能场景包括不仅限于以下类别:通用文字识别、机动车销售发票识别、行驶证识别、发票验真等数十种文字识别服务,价格表请参见文字识别价格详情。
OCR以公有云服务为主,线上用户资源共享,并发量会根据线上用户的调用情况动态调整。如遇到突发高峰导致的并发量不够用的情况,您可以尝试以下两种解决方法
若套餐包提前使用完,您需要进行手动续费,防止欠费影响您的业务正常使用。套餐包到期后,您可以手动续费以延长套餐包的有效期,也可以提前设置到期自动续费。续费相关操作,请参见续费管理。
本节定义了文字识别服务上报云监控服务的监控指标的命名空间,监控指标列表和维度定义,用户可以通过云监控服务提供管理控制台或API接口来检索文字识别服务产生的监控指标和告警信息。
文字识别是指对图像文件的打印字符进行检测识别,将图像中的文字转换成可编辑的文本格式。OCR通过API提供服务能力,用户需要通过编程来处理识别结果。
本章节通过网络图片识别API介绍如何解读调API返回的JSON格式识别结果。请参照API参考“响应参数”章节比对查看。以下图识别结果为例,讲解图片内容如何与API的返回字段对应。
文字识别OCR使用SDK
06:38
文字识别 OCR使用API
03:04