语音交互服务 SIS-websocket接口:开始识别

时间：2024-07-03 11:01:13

语音交互服务 SIS 一句话识别

开始识别

功能介绍
 当wss握手请求收到成功响应后，客户端到服务端的通信协议会升级为Websocket协议。通过Websocket协议，客户端发送开始识别请求，用于配置一句话识别的配置信息。

请求消息

表3 参数说明
参数名	是否必选	参数类型	说明
command	是	String	表示客户端发送开始识别请求，参数值需设置为START。
config	是	Object	配置信息。结构信息请参见表 config数据结构。

表4 config数据结构
参数	是否必选	参数类型	说明
audio_format	是	String	支持语音的格式，请参见表 audio_format取值范围。
property	是	String	所使用的模型特征串。通常是 “语种_采样率_领域”的形式，例如chinese_8k_common。请参见表 property取值范围。
add_punc	否	String	表示是否在识别结果中添加标点，取值为yes 、 no，默认no。
digit_norm	否	String	表示是否将语音中的数字识别为阿拉伯数字，取值为yes 、 no，默认为yes。识别结束后，会将数字识别为阿拉伯数字。
interim_results	否	String	是否输出中间结果，可以为yes或no。默认为no，表示不输出中间结果。
vocabulary_id	否	String	热词表id，不使用热词则不填写。创建热词表信息请参考创建热词表。
need_word_info	否	String	表示是否在识别结果中输出分词结果信息，取值为“yes”和“no”，默认为“no”。

表5 property取值范围
property取值	说明
chinese_8k_general	支持采样率为8k的中文普通话语音识别，采用新一代端到端识别算法，识别准确率更高。格式支持pcm8k16bit/alaw8k8bit/ulaw8k8bit，区域支持cn-east-3和cn-north-4（强烈推荐使用）。
chinese_16k_general	支持采样率为16k的中文普通话语音识别，采用新一代端到端识别算法，识别准确率更高。格式支持pcm16k16bit/alaw16k8bit/ulaw16k8bit，区域支持cn-east-3和cn-north-4（强烈推荐使用）。
chinese_8k_common	支持采样率为8k的中文普通话语音识别。
chinese_16k_common	支持采样率为16k的中文普通话语音识别。
sichuan_16k_common	支持采样率为16k的中文普通话与四川话方言语音识别。区域仅支持cn-north-4。max_seconds参数最短时长为10s，当设置低于10s，默认按照10s处理。
cantonese_16k_common	支持采样率为16k的粤语方言语音识别。区域仅支持cn-north-4。max_seconds参数最短时长为10s，当设置低于10s，默认按照10s处理。
shanghai_16k_common	支持采样率为16k的上海话方言语音识别。区域仅支持cn-north-4。max_seconds参数最短时长为10s，当设置低于10s，默认按照10s处理。

表6 audio_format取值范围
audio_format取值	说明
pcm16k16bit	16k16bit单通道录音数据。
pcm8k16bit	8k16bit单通道录音数据。
ulaw16k8bit	16k8bit ulaw单通道录音数据。
ulaw8k8bit	8k8bit ulaw单通道录音数据。
alaw16k8bit	16k8bit alaw单通道录音数据。
alaw8k8bit	8k8bit alaw单通道录音数据。

目前仅支持裸音频格式，仅支持pcm编码的wav格式，不支其他wav头或者arm格式的编码。

示例

{
  "command": "START",
  "config":
  {
    "audio_format": "pcm8k16bit",
    "property": "chinese_8k_common",
    "add_punc": "yes",
    "interim_results": "yes",
    "need_word_info": "yes"
  }
}