检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
未实名认证
已实名认证
怎样从图片中提取文字?通用类OCR(General OCR),支持表格识别、文档识别、网络图片识别、手写文字识别、智能分类识别、健康码识别、核酸检测记录识别等任意格式图片上文字信息的自动化识别,自适应分析各种版面和表格,快速实现各种文档电子化。有哪些应用场景?纸质文件电子化自动识别结构化信息与提取签名盖章区域,有助快速审核。快递单自动填写识别图片中联系人信息并自动填写快递单,减少人工输入。合同录入与审核自动识别结构化信息与提取签名盖章区域,有助快速审核。
怎样从图片中提取文字?
通用类OCR(General OCR),支持表格识别、文档识别、网络图片识别、手写文字识别、智能分类识别、健康码识别、核酸检测记录识别等任意格式图片上文字信息的自动化识别,自适应分析各种版面和表格,快速实现各种文档电子化。
有哪些应用场景?
纸质文件电子化
自动识别结构化信息与提取签名盖章区域,有助快速审核。
快递单自动填写
识别图片中联系人信息并自动填写快递单,减少人工输入。
合同录入与审核
支持对全国各地不同版式的核酸检测记录中的关键字段进行结构化识别,包括姓名、核酸检测采样时间、检测检测结果更新时间、核酸检测结果
支持对全国各地区不同版式的防疫健康码的关键字段进行结构化识别,包括姓名、健康码更新时间、健康码颜色
提取表格内的文字和所在行列位置信息,适应不同格式的表格。同时也识别表格外部的文字区域。用于各种单据和报表的电子化,恢复结构化信息。
提取图片内的文字及其对应位置信息,并能够根据文字在图片中的位置进行结构化整理工作。
自动识别网络图片内的所有文字及其对应位置信息,并能根据识别出来的结果进行联系人信息的提取,同时可供进一步的数据挖掘后处理操作。
自动检测定位图片上指定要识别的票证,一次扫描即可识别票证的位置坐标、结构化识别的内容以及对应的类别。
识别文档中的手写文字信息,并将识别的结构化结果返回给用户。
图片提取文字使用简介
服务以开放API(Application Programming Interface,应用程序编程接口)的方式提供文字识别能力,用户调用API接口需要具备一定的编程开发基础,文字识别后返回的结果为JSON格式,用户需要通过编程来处理识别结果。
图片提取文字功能体验
在开通文字识别 OCR 前,请先使用 OCR体验馆 体验服务功能。该方式无需编程,只需在网页端上传图片,即可体验识别效果。开通OCR后,默认按API调用次数进行收费。说明:使用OCR体验馆前,请先注册华为云帐号,并实名认证。
在开通文字识别 OCR 前,请先使用 OCR体验馆 体验服务功能。该方式无需编程,只需在网页端上传图片,即可体验识别效果。开通OCR后,默认按API调用次数进行收费。
图片提取文字使用流程
使用文字识别服务前需注册华为云账号,并实名认证。第一步:开通文字识别OCR服务;第二步,准备数据;第三步,调用API或SDK;最后,获取识别结果。用户需要具备编程能力,熟悉Java、Python、iOS、Android、Node.js编程语言。
图片提取文字服务开通
在“总览”页面,选择需要使用的服务,在操作列单击“开通服务”。服务开通成功后,开通状态将显示为“已开通”。如果您需要使用存储在对象存储服务(OBS)上的数据,请在开通服务页面进行服务授权。
图片提取文字准备数据
受技术与成本多种因素制约,文字识别服务存在一些约束限制。只支持识别PNG、JPG、JPEG、BMP、TIFF格式的图片;支持图像任意角度的水平旋转;图像各边的像素大小在15px到8192px之间等。
图片提取文字在线调试
文字识别 API Explorer 在线调试工具提供API的检索、调试、代码示例生成功能。同时,集成开发环境CloudIDE,可完成代码的构建、调试、运行。前提:已注册帐号,并实名认证,帐号不能处于异常状态。
图片提取文字本地调用
该接口可以识别表格图片中的文字内容,并将识别结果以JSON格式返回给用户。返回结果包含两类:纯文本区(text)和表格区(table),并返回表格结构(row, column)和文本信息。
图片提取文字解读识别结果
本章节通过网络图片识别API介绍如何解读调API返回的JSON格式识别结果。调用成功后,在“JSON返回结果”中,可见result字段,包含了图片中的文字块数目、文字块排列顺序、具体文本内容、所在位置等信息。
图片提取文字识别结果后处理
提取特定字段导入Excle需开通身份证识别,安装OCR Python SDK。并执行pip install xlsxwriter命令安装依赖包,登录访问秘钥页面,获取AK、SK。可以新增访问秘钥,或使用已有的访问秘钥。
活动对象:华为云电销客户及渠道伙伴客户可参与消费满送活动,其他客户参与前请咨询客户经理
活动时间: 2020年8月12日-2020年9月11日
1、尽量使用文字清晰度高、无反光的图片。进行图片采集时,尽量提高待识别文字区域占比,减少无关背景占比,保持图片内文字清晰人眼可辨认。
2、若图片有旋转角度,算法支持自动修正,建议图片不要过度倾斜。
3、图片尺寸方面,建议最长边不超过8192像素,最短边不小于15像素,图像长宽比例维持常见水平 5:1 内(具体请以各个服务API文档为准)。
识别速度与图片大小有关,图片大小会影响网络传输、图片base64解码等处理过程的时间,因此建议在图片文字清晰的情况下,适当压缩图片的大小,以便降低图片识别时间。推荐上传JPG图片格式。
根据实践经验,一般建议证件类的小图(文字少)在1M以下,A4纸大小的密集文档大图在2M以下。
关于如何压缩图片,请参考代码。
1、将需转码的图片拖拽至Chrome浏览器中,浏览器上显示该图片。
2、按下“F12”,在弹出窗口中选择“Sources”,在左侧导航树中选择需要编码的图片所在路径,单击“{ } Pretty print”按钮。
3、图片的base64编码显示在右侧界面中,如下图箭头中内容,选中图片的base64编码信息,Ctrl+A全选base64编码,Ctrl+C复制,注意不可使用鼠标右键方式进行复制,以免拷贝不全。
OCR服务只支持调用一次接口识别一张图片,批量识别需要进行二次开发,编码循环调用API,实现批量调用服务识别图片。
OCR提取之后返回的结果是JSON格式,需要用户通过编程,将结果保存为Word、TXT、pdf格式。
1、使用OCR服务时,如果您需要使用华为云对象存储服务(OBS)中的数据,请开通对象存储服务OBS授权,可在控制台进行开通。
2、OCR服务支持IAM细粒度划分策略。可以为子用户设置OCR服务的使用权限。
文字识别服务支持输入图片的base64编码或图片的url路径。
如果您使用图片的url路径,可以将图片上传至华为云对象存储服务(OBS)中,使用OBS提供的图片url。
同时,您也可以不使用华为云存储,使用公网http/https url传入图片。
目前OCR服务不支持上传图片后直接导出结果,需要通过调用API的方式使用。具体操作请参考《文字识别服务快速入门》。
通用表格识别支持将表格内容转换成可编辑的Excel格式,传入参数return_excel为true时,将返回的表格转换为Microsoft Excel对应的base64编码,可用Python函数 base64.b64decode解码后保存为.xlsx文件。
1、文字识别 OCR 服务坚持“华为云始终把可信作为产品质量的第一要素”的理念,我们基于安全、合规、隐私、韧性、透明,为您提供有技术、有未来、值得信赖的云服务。
2、文字识别 OCR 服务承诺用户识别的图片与识别结果全部不作任何形式留存,识别返回后立即释放。
采用直播教学+技术干货形式,扫除OCR服务实际应用的问题,实现人人快速上手操作。
您将学习到行业深度应用的AI领域知识:OCR与NLP的概念及其模型开发,同时您也可以选择体验和学习当下热门的端云协同AI应用开发.
通过本课程的学习,了解文字识别的特性、解决方案等,并掌握其申请和使用方法。