检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
全部 通用表格识别 通用文字识别 网络图片识别 智能分类识别 手写文字识别 身份证识别 行驶证识别 驾驶证识别 护照识别 银行卡识别 营业执照识别 道路运输证识别 车牌识别 名片识别 VIN码识别 增值税发票识别 发票验真 机动车销售发票识别 出租车发票识别 火车票识别 定额发票识别
是 String 表示客户端结束识别请求,参数值设置为END。 cancel 否 Boolen 是否取消返回识别结果。 true:表示取消识别,也即丢弃识别中和未识别的语音数据并结束,不返回剩余的识别结果。 false:表示继续处理识别中和未识别的语音数据直到处理完所有之前发送的数据。
结束识别请求响应 服务器端收到“结束识别”请求时或语音识别过程中发生错误,服务端会向客户端推送如下响应消息,以json字符串形式放置在text message中。 响应消息 表1 响应参数 参数名 参数类型 说明 resp_type String 响应类型。参数值为END,表示结束识别响应。
实时语音识别连续模式 功能介绍 连续识别模式的语音总长度限制为五小时,适合于会议、演讲和直播等场景。 连续识别模式在流式识别的基础上,结合了语音的端点检测功能。语音数据也是分段输入,但是连续识别模式将会在处理数据之前进行端点检测,如果是语音才会进行实际的解码工作,如果检测到静音,
驾驶证识别 功能介绍 识别驾驶证图片中主页与副页的文字内容,并将识别的结果以JSON格式返回给用户。该接口的使用限制请参见约束与限制,详细使用指导请参见OCR服务使用简介章节。 图1 驾驶证示例图 图2 电子驾驶证示例图 如果图片中包含多张卡证票据,请调用智能分类识别服务。 约束与限制
音频的结尾中的静音时间,正常情况下不应设成很小的值。 如果检测语音结尾的静音时长大于等于此值时,在实时语音识别单句模式下将返回VOICE_END(识别结果非空)或EXCEEDED_SILENCE(识别结果为空)事件并结束识别,在连续模式下将会断句并继续下一句的识别。 取值范围:[0, 3000]的整数,单位为ms,默认为500ms。
馈的情况下500ms。实时语音识别代码示例请参考SDK文档。 当前SIS服务对于8k音频的分片大小限制为[160, 32768]字节, 16k音频的分片大小限制为[320, 65536]字节, 分片大小超出上限或低于下限会报错。 父主题: 实时语音识别请求
行驶证识别 功能介绍 识别行驶证图片中主页和副页的文字内容,并将识别的结果以JSON格式返回给用户。该接口的使用限制请参见约束与限制,详细使用指导请参见OCR服务使用简介章节。 图1 行驶证示例图 如果图片中包含多张卡证票据,请调用智能分类识别服务。 约束与限制 只支持中国大陆行驶证的识别。
识别结果响应 服务端在收到客户端发送的连续音频数据后, 当服务端识别出结果后会实时向客户端按句推送识别结果响应消息, 以json字符串形式放置在text message中。 响应消息 表1 响应参数 参数名 参数类型 说明 resp_type String 响应类型。参数值为RESULT,表示识别结果响应。
实时语音识别单句模式 功能介绍 单句模式自动检测一句话的结束,因此适合于需要与您的系统进行交互的场景,例如外呼、控制口令等场景。 实时语音识别引擎的单句识别模式,和连续识别模式类似,也会进行语音的端点检测,如果检测到静音,将直接丢弃,检测到语音才会馈入核心进行实际的解码工作,如果
实时语音识别 支持“华北-北京四”、“华东-上海一”区域。 当前服务仅支持北京和上海区域,后续会陆续上线其他区域。 华北-北京四,推荐的区域,支持一句话识别、录音文件识别、实时语音识别和语音合成和热词等接口。 华东-上海一,推荐的区域,支持一句话识别、录音文件识别、实时语音识别、语音合成和热词等接口。
上传模板图片 在使用多模板分类工作流开发应用之前,必须要明确文字识别的模板类型,明确以哪几种板式图片作为模板训练文字识别模型,基于自己的业务需求制定针对性的文字识别模型。例如上传两种不同格式的发票图片作为模板,训练的文字识别模型就能识别并提取这两种格式发票上的关键字段。 前提条件
需要定制识别的字段。例如上传某一格式的发票图片作为模板,配置文字识别模型就能识别并提取同格式发票上的关键字段。 前提条件 已在“自定义OCR”控制台选择“通用单模板工作流”创建应用,详情请见6.2新建应用。 提前准备待识别的图片,图片要求请见图片要求。 图片要求 保证图片质量:不
OCR服务支持上传图片后直接导出结果吗 目前OCR服务不支持上传图片后直接导出结果,需要通过调用API的方式使用。具体操作请参考《文字识别服务快速入门》。 父主题: 产品咨询类
智能分类识别 功能介绍 自动分类识别17+种票证,支持指定票证的结构化识别和印章检测,并以JSON格式返回识别的结构化结果。 接口以列表形式返回图片上要识别票证的位置坐标、结构化识别的内容以及对应的类别。该接口支持的票证类型请见表1,该接口的使用限制请参见约束与限制,详细使用指导请参见OCR服务使用简介章节。
实时语音识别接口 接口说明 Websocket握手请求 实时语音识别请求 实时语音识别响应
OCR服务可以识别文本格式文件吗 增值税发票识别API支持使用pdf、ofd文件进行识别。其他API不能直接识别word、pdf、excel等文件,可将此类文件转换为图片进行识别。pdf转图片识别示例请参见识别结果后处理。 父主题: 产品咨询类
道路运输证识别 功能介绍 识别道路运输证首页中的文字信息,并以JSON格式返回识别的结构化结果。该接口的使用限制请参见约束与限制,详细使用指导请参见OCR服务使用简介章节。 图1 道路运输证示例图 如果图片中包含多张卡证票据,请调用智能分类识别服务。 约束与限制 只支持中国大陆道路运输证的识别。
下情况: 配置串错误,包括存在不识别的配置串,或者配置串值的范围不合法。 时序不正确,比如连续发送两次“开始识别”指令。 识别过程中发生错误,比如音频解码发生错误。 出现错误响应时,如果已经在一个会话中了,会再发送一个“结束识别”的响应,表示识别会话结束。如果会话还没有开始,那么
保险单识别 功能介绍 识别保险单图片上的文字信息,并将识别的结构化结果返回给用户。支持对多板式保险单的扫描图片及手机照片进行结构化信息提取。 约束与限制 只支持识别PNG、JPG、JPEG、BMP、TIFF格式图片。 图像各边的像素在15px到8192px之间。 图像中保险单区域