检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
除了公式之外,也有一些简单的prompt设计原则分享给大家 这里的第一条原则是 要清楚的陈述 例如我们如果是简单的输入 风景的话,往往模型不知道我们想要的风景是什么样子的 我们要去尽量的幻想我们风景的样子,然后变成语言描述 例如我想想的是日落时,海边的风景 那我就构造了prompt 进一步的,我想风
如何提高识别速度 识别速度与图片大小有关,图片大小会影响网络传输、图片base64解码等处理过程的时间,因此建议在图片文字清晰的情况下,适当压缩图片的大小,以便降低图片识别时间。推荐上传JPG图片格式。 根据实践经验,一般建议证件类的小图(文字少)在1M以下,A4纸大小的密集文档大图在2M以下。
飞机行程单识别 功能介绍 识别飞机行程单中的文字信息,并以JSON格式返回识别的结构化结果。该接口的使用限制请参见约束与限制,详细使用指导请参见OCR服务使用简介章节。 图1 飞机行程单示例图 如果图片中包含多张卡证票据,请调用智能分类识别服务。 约束与限制 支持识别PNG、JP
机动车销售发票识别 功能介绍 识别机动车销售发票、二手车销售发票图片中的文字内容,服务能自动分辨两种类型,并将识别的结果以JSON格式返回给用户。该接口的使用限制请参见约束与限制,详细使用指导请参见OCR服务使用简介章节。 图1 机动车销售发票示例图 图2 机动车销售发票示例图 图3
快速部署 本章节主要指导用户如何自动化部署“文字识别-发票识别与验真”解决方案。 表1 参数说明 参数名称 类型 是否可选 参数解释 默认值 image_bucket_name string 必填 OBS桶名称,全局唯一,用于上传发票图片或PDF文件。取值范围:3~59个字符,支持
OCR服务支持批量识别吗 OCR服务只支持调用一次接口识别一张图片,批量识别需要进行二次开发,编码循环调用API,实现批量调用服务识别图片。 父主题: API使用类
发票识别与验真 方案概述 资源和成本规划 实施步骤
tesseract是谷歌的一个对图片进行识别的开源框架,免费使用,现在已经支持中文,而且识别率非常高,这里简要来个helloworld级别的认识 下载地址:http://code.google.com/p/tesseract-ocr/downloads/detail
车辆合格证识别 功能介绍 识别车辆合格证中的文字信息,并返回识别的结构化结果。 约束与限制 只支持中国大陆车辆合格证的识别。 只支持识别PNG、JPG、JPEG、BMP、TIFF格式的图片。 图像各边的像素大小在15到8192px之间。 图像中识别区域有效占比超过80%,保证整张车辆合格证内容及其边缘包含在图像内。
Ø图像中有效文字图片占比超过60%,避免有效文字图片占比过小。 Ø支持图像中有效文字图片的任意角度的水平旋转(需开启方向检测)。 Ø文字识别服务属于公有云服务,线上用户资源共享,如果需要多并发请求,请提前联系我们。 智能分类识别 Ø只支持识别PNG、JPG、JPEG、BMP、TIFF格式的图片。
人脸识别上传的人脸图片还可以查询到图片数据吗 人脸识别不存储客户人脸图片,只是根据客户的图片来检测人脸参数,只存储人脸特征。如果需要存储图片数据可参考以下方法: 可以开通华为云OBS,存储人脸图片。 人脸图片可以存储在客户自己的数据库中。 父主题: API使用类
财务报表识别 功能介绍 识别用户上传的表格图片中的文字内容,并将识别的结果返回给用户。 约束与限制 只支持识别PNG、JPG、JPEG、BMP、TIFF格式图片。 图像各边的像素大小在15px到8192px之间。 图像中识别区域有效占比超过80%,保证整张表格及其边缘包含在图像内。
、TIFF格式的图片。 图像各边的像素在15到8192px之间。 支持多页同时识别。 能处理反光、暗光、水印等干扰的图片但影响识别精度。 文字识别服务属于公有云服务,线上用户资源共享,如果需要多并发请求,请提前联系我们。 调用方法 请参见如何调用API。 前提条件 在使用之前,需
火车票识别 功能介绍 识别火车票中的文字信息,并以JSON格式返回识别的结构化结果。该接口的使用限制请参见约束与限制,详细使用指导请参见OCR服务使用简介章节。 图1 火车票示例图 如果图片中包含多张卡证票据,请调用智能分类识别服务。 约束与限制 只支持识别PNG、JPG、JPEG、BMP、TIFF格式图片。
不动产证识别 功能介绍 识别不动产证中的文字信息,并返回识别的结构化结果。 如果图片中包含多张卡证票据,请调用智能分类识别服务。 约束与限制 只支持识别PNG、JPG、JPEG、BMP、TIFF格式的图片。 图像各边的像素大小在15到8192px之间。 支持图像中不动产证任意角度的水平旋转。
文字 文字。 文字块的区域位置 文字块的区域位置。 文字块识别结果 文字块识别结果。 图片朝向 图片朝向。 检测到的文字块数目 检测到的文字块数目。 身份证识别 识别身份证图片中的文字内容,并将识别的结果返回给用户。 输入参数 用户配置身份证识别执行动作,相关参数说明如表5所示。
识别飞机行程单中的文字信息,并以JSON格式返回识别的结构化结果。 识别飞机行程单中的文字信息,并以JSON格式返回识别的结构化结果。 车辆通行费发票识别 识别车辆通行费发票中的关键文字信息,并以JSON格式返回识别的结构化结果。 识别车辆通行费发票中的关键文字信息,并以JSON格式返回识别的结构化结果。 票据类
识别服务,实现多种版式图像的文字信息结构化提取。 文字识别套件提供预置工作流供您选择,全流程可视化完成AI应用开发以及持续迭代。 选择预置工作流 单模板工作流 通过工作流指引构建文字识别模板,识别单个板式图片中的文字,快速实现文档、票证等场景的文字识别。详情请见使用单模板工作流开发应用。
营业执照识别 功能介绍 识别营业执照首页图片中的文字信息,并以JSON格式返回识别的结构化结果。该接口的使用限制请参见约束与限制,详细使用指导请参见OCR服务使用简介章节。 图1 营业执照示例图 图2 营业执照示例图-横版 约束与限制 只支持识别PNG、JPG、JPEG、BMP、TIFF格式图片及PDF。
泰文身份证识别 功能介绍 识别泰国身份证中的文字信息,并以JSON格式返回识别的结构化结果。该接口的使用限制请参见约束与限制。 图1 泰文身份证示例图 使用中国站账号开通泰文身份证识别时,需要在OCR控制台的左上角,将区域切换至“亚太-曼谷”。 图2 切换区域至亚太曼谷 约束与限制