检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
创建用于存储发票识别与验真结果的OBS桶,企业业务系统定时从该桶中获取结果并处理。 函数工作流:用于实现调用文字识别服务的业务逻辑,当OBS桶收到上传的发票文件后,会自动通知函数调用文字识别服务,并将结果存放到指定的OBS桶里。 文字识别服务:提供发票识别与验真服务,识别用户上传的发票内容以及对接国税局系统进行真伪验证。
识别速度与图片大小有关,图片大小会影响网络传输、图片base64解码等处理过程的时间,因此建议在图片文字清晰的情况下,适当压缩图片的大小,以便降低图片识别时间。推荐上传JPG图片格式。 根据实践经验,一般建议证件类的小图(文字少)在1M以下,A4纸大小的密集文档大图在2M以下。 关于如何压缩图片,请参考以下代码。
使用OBS提供的url。使用OBS数据需要进行授权。包括对服务授权、临时授权、匿名公开授权,详情参见配置OBS访问权限。
文字识别服务软件开发工具包(OCR SDK)是对文字识别服务提供的REST API进行的封装,以简化用户的开发工作。 本章节以通用表格识别API为例,介绍如何使用OCR Python SDK。 使用OCR SDK的详细步骤如下所示: 步骤1:开通服务 步骤2:安装SDK 步骤3:获取示例代码
page2pix(self, doc, page, trans): """ 根据给定的参数,解析当前页作为图片数据 """ # 获取指定页面的pdf格式,注意:页面参数是事先解析出来的,不然会存在问题。 return doc[page].getPixmap(matrix=trans
github.com/huaweicloud/huaweicloud-sdk-go-v3 开始使用 在开始使用之前,请确保您安装的是最新版本的SDK。使用过时的版本可能会导致兼容性问题或无法使用最新功能。您可以通过运行以下命令来检查并更新SDK至最新版本。 go list -m all
附录 获取项目ID 获取账号ID 配置OBS访问权限
使用OCR服务,是否会保存用户数据 OCR服务坚持“华为云始终把可信作为产品质量的第一要素”的理念,我们基于安全、合规、隐私、韧性、透明,为您提供有技术、有未来、值得信赖的云服务。 OCR服务承诺用户识别的图片与识别结果全部不作任何形式留存,识别返回后立即释放。 具体的声明请参考
Connect timed out 报错处理 问题现象 原因分析 网络不通。 解决措施 需要用户自行检查网络环境。 父主题: SDK使用类
钥。 如果您的访问密钥AK/SK已丢失,建议您先创建新的访问密钥AK/SK,并使用新的访问密钥AK/SK替换正在使用的应用程序等的访问密钥AK/SK之后,确认无其他业务影响,再将丢失的访问密钥AK/SK停用或删除。具体方法请参见:管理访问密钥。 父主题: SDK使用类
本地调用 本章节以通用表格识别为例,介绍如何使用OCR Python SDK在本地进行开发。 该接口可以识别表格图片中的文字内容,并将识别结果以JSON格式返回给用户。返回结果包含两类:纯文本区(text)和表格区(table),并返回表格结构(row, column)和文本信息。
iff。建议:使用OBS的URL进行请求。 "error_code":"ModelArts.4704","error_msg":"Obtaining the file from the OBS failed. "表示从OBS获取图片数据失败,请确保存储图片的OBS路径存在且可访问
携带正确的ID,正常使用OCR服务,账单的企业项目会被分类到企业ID对应的企业项目中。 携带格式正确但不存在的ID,正常使用OCR服务,账单的企业项目会显示对应不存在的企业项目ID。 不携带ID或格式错误ID(包含特殊字符等),正常使用OCR服务,账单的企业项目会被分类到"default"中。 表3 请求Body参数
在使用之前,需要您完成服务申请和认证鉴权,具体操作流程请参见开通服务和认证鉴权章节。 用户首次使用需要先申请开通。服务只需要开通一次即可,后面使用时无需再次申请。如未开通服务,调用服务时会提示ModelArts.4204报错,请在调用服务前先进入控制台开通服务,并注意开通服务区域与调用服务的区域保持一致。
创建企业项目后,在传参时,有以下三类场景。 携带正确的ID,正常使用OCR服务,账单的企业项目会被分类到企业ID对应的企业项目中。 携带格式正确但不存在的ID,正常使用OCR服务,账单的企业项目会显示对应不存在的企业项目ID。 不携带ID或格式错误ID(包含特殊字符等),正常使用OCR服务,账单的企业项目会被分类到"default"中。
偏移、由上下文长度变化引起的偏移等。 多模板的前提: 分类器中的任一模板,均需满足上述单模板的要求。 模板种类固定,识别不在多模板中的图片可能会返回错误的结果或无法识别。 模板间有足够的区分度,不同模板要有不同的参照字段,且参照字段差异尽量明显,相似的参照字段容易导致分类错误。
是否支持从非华为云存储中读取图片 OCR服务支持读取公网http和https的图片地址,如果使用非华为云存储,请确保相应的图片可以通过公网进行访问。 父主题: API使用类
OCR服务识别结果可以转化为Word、TXT、pdf吗 OCR提取之后返回的结果是JSON格式,需要用户通过编程,将结果保存为Word、TXT、pdf格式。 父主题: API使用类
发票识别与验真 方案概述 资源和成本规划 实施步骤
huaweicloudsdkocr-${version} python setup.py install 开始使用 在开始使用之前,请确保您安装的是最新版本的SDK。使用过时的版本可能会导致兼容性问题或无法使用最新功能。您可以通过运行以下命令来检查并更新SDK至最新版本。 pip show huaweicloudsdkcore