云服务器内容精选

华为云首页用户手册

实时语音识别请求

语音交互服务 SIS-开始识别:示例

示例 { "command": "START", "config": { "audio_format": "ulaw8k8bit", "property": "chinese_8k_common", "add_punc": "yes", "vad_tail": 400, "interim_results": "yes", "need_word_info": "yes" } }

语音交互服务 SIS 实时语音识别请求
语音交互服务 SIS-发送音频数据

发送音频数据在收到“开始识别”的响应之后，可以开始发送音频数据。为节省流量，音频以二进制数据帧形式（binary message）的方式发送。音频数据将分片发送，也即在获得一定量音频数据的同时就可以发送一个binary message，每个分片建议在50ms~1000ms之间，建议在需要实时反馈的情况下100ms，不需要实时反馈的情况下500ms。实时语音识别代码示例请参考SDK文档。当前SIS服务对于8k音频的分片大小限制为[160, 32768]字节, 16k音频的分片大小限制为[320, 65536]字节, 分片大小超出上限或低于下限会报错。父主题：实时语音识别请求

语音交互服务 SIS 实时语音识别请求
语音交互服务 SIS-开始识别:示例

示例 { "command": "START", "config": { "audio_format": "ulaw8k8bit", "property": "chinese_8k_common", "add_punc": "yes", "vad_tail": 400, "interim_results": "yes", "need_word_info": "yes" } }

语音交互服务 SIS 实时语音识别请求
语音交互服务 SIS-实时语音识别工作流程

实时语音识别工作流程实时语音识别分为开始识别、发送音频数据、结束识别，断开连接四个阶段。开始阶段需要发送开始指令，包含采样率，音频格式，是否返回中间结果等配置信息。服务端会返回一个开始响应。发送音频阶段客户端会分片发送音频数据，服务会返回识别结果或者其他事件，如音频超时，静音部分过长等。音频发送结束后，客户端会发送结束请求，服务端会返回end响应。实时语音识别必须客户端要主动断开连接。当服务端超过20s没有收到客户的任何数据时，会返回error事件，并主动断开。图1 工作流程父主题：实时语音识别请求

语音交互服务 SIS 实时语音识别请求