检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
描述返回状态。 WAITING 等待识别。 FINISHED识别已经完成。 ERROR 识别过程中发生错误。 createTime 否 String 任务创建时间。格式如2018-12-04T13:10:29.310Z。 startTime 否 String 开始识别时间。格式如2018-12-04T13:10:29
实时语音识别 支持“华北-北京四”、“华东-上海一”区域。 当前服务仅支持北京和上海区域,后续会陆续上线其他区域。 华北-北京四,推荐的区域,支持一句话识别、录音文件识别、实时语音识别和语音合成和热词等接口。 华东-上海一,推荐的区域,支持一句话识别、录音文件识别、实时语音识别、语音合成和热词等接口。
开始识别请求响应 由于WebSocket是全双工的,因此响应就是从服务器端发送给客户端的消息,但也并不是所有的请求信息都有一条对应的响应。服务器端收到“开始识别”请求时,会给出如下响应消息,以json字符串形式放置在text message中。 响应消息 表1 响应参数 参数名 参数类型
io_format取值范围”。 语音时长不超过5小时,文件大小不超过300M,用户的识别任务在6小时内完成并返回识别结果,识别结果保存72小时(从转写完成的时间算起)。 支持中文普通话、四川话识别。 父主题: 约束与限制
下情况: 配置串错误,包括存在不识别的配置串,或者配置串值的范围不合法。 时序不正确,比如连续发送两次“开始识别”指令。 识别过程中发生错误,比如音频解码发生错误。 出现错误响应时,如果已经在一个会话中了,会再发送一个“结束识别”的响应,表示识别会话结束。如果会话还没有开始,那么
String 录音文件识别任务标识符。 使用“callback_url”回调url时,该字段会随结果发送至用户服务器。 使用get接口查询,不会出现该字段。 status 否 String 当前识别状态。具体状态如下所示: WAITING 等待识别。 FINISHED 识别已经完成。 ERROR
I获取语音交互结果。例如用户通过语音识别功能,将口述音频或者语音文件识别成可编辑的文本,同时也支持通过语音合成功能将文本转换成逼真的语音等提升用户体验。适用场景如语音客服质检、会议记录、语音短消息、有声读物、电话回访等。 免费体验 一句话识别和语音合成免费体验请进入链接:https://www
API参考》中开始识别章节。 property 是 String 属性字符串,language_sampleRate_domain, 如chinese_16k_general,参见《API参考》中开始识别章节。 addPunc 否 String 表示是否在识别结果中添加标点,取值为yes
音频格式,支持pcm等,如pcm8k16bit,参见《API参考》中开始识别章节。 property 是 String 属性字符串,language_sampleRate_domain, 如chinese_8k_common,参见《API参考》中开始识别章节。 通过set方法可以设置具体参数,详见表 RasrRequest设置参数
段语音的结束点,就会直接将当前这一段的识别结果返回,然后继续检测后面的语音数据。因此在连续识别模式中,可能多次返回识别结果。如果送入的一段语音较长,甚至有可能在一次返回中包括了多段的识别结果。 由于引入了静音检测,连续识别模式通常会比流式识别能具有更高的效率,因为对于静音段将不会
就会将当前这一段的识别结果返回。和连续识别不同的是,在单句模式下,返回第一段的识别结果后,将不再继续识别后续的音频。这主要是用于和用户进行语音交互的场景下,当用户说完一句话后,往往会等待后续的交互操作,例如聆听根据识别结果播报的相关内容,因而没有必要继续识别后续的音频。 wss-URI
实时语音识别请求 实时语音识别工作流程 开始识别 发送音频数据 结束识别 父主题: 实时语音识别接口
、EXCEEDED_SILCENCE事件。 在实时语音识别单句模式下: 返回VOICE_START事件,表示检测到语音,此时IVR可以做打断。 返回VOICE_END事件后,表示一句话结束,后续的音频将被忽略,不会再进行识别。 只会返回最多一组VOICE_START和VOICE_END事件。
音频格式,具体信息请参见《API参考》中一句话识别章节。 property 是 String 属性字符串,语言_采样率_模型,如chinese_16k_general。具体信息请参见《API参考》中一句话识别章节。 addPunc 否 String 表示是否在识别结果中添加标点,取值为yes 、
功能介绍 一句话识别websocket接口支持识别1min以内的音频,交互过程如图 客户端和服务端交互流程所示,主要分为开始识别、发送音频数据,结束识别、断开连接四个步骤。 websocket接口同http接口一致按次计费,只要建立连接成功,发送音频,服务开始识别,则本次调用计费
响应消息 表1 响应参数 参数名 参数类型 说明 resp_type String 响应类型。参数值为FATAL_ERROR,表示开始识别响应。 trace_id String 服务内部的令牌,可用于在日志中追溯具体流程。 error_code String 错误码列表。详细错误码解释,请参见错误码。
ponse response); 识别开始时回调。 void onResponseEnd(AsrResponse response); 识别结束时回调。 void onResponseError(AsrResponse response); 识别过程中出现异常,调用。 void
创建热词表 在一句话识别、录音文件识别、实时语音识别服务中,如果在您的业务领域有一些特有的词,默认识别效果差的时候可以考虑使用热词管理功能,将这些词添加到词表,改善识别效果。 热词可以是姓名、公司名、某个领域的专有名词,如人名"王晓茗”(通常会识别为"王小明”)、运输域的“高栏”
支持采样率为16k的中文普通话语音识别,采用新一代端到端识别算法,识别准确率更高。 区域支持cn-east-3和cn-north-4(强烈推荐使用)。 chinese_16k_travel 支持采样率为16k的中文普通话语音识别,采用新一代端到端识别算法,并针对网约车质检场景进行了优化。
false表示为中间临时结果。 result Object 调用成功表示识别结果,调用失败时无此字段。 请参考表7。 表7 Result 参数名 参数类型 说明 text String 识别结果。 score Float 识别结果的置信度,取值范围:0~1。此值仅会在最终结果时被赋值,在中间结果时统一置为“0