语音交互服务 SIS-websocket接口:开始识别
开始识别
- 功能介绍
当wss握手请求收到成功响应后,客户端到服务端的通信协议会升级为Websocket协议。通过Websocket协议,客户端发送开始识别请求,用于配置 一句话识别 的配置信息。
- 请求消息
表3 参数说明 参数名
是否必选
参数类型
说明
command
是
String
表示客户端发送开始识别请求,参数值需设置为START。
config
是
Object
配置信息。结构信息请参见表 config数据结构。
表4 config数据结构 参数
是否必选
参数类型
说明
audio_format
是
String
支持语音的格式,请参见表 audio_format取值范围。
property
是
String
所使用的模型特征串。通常是 “语种_采样率_领域”的形式,例如chinese_8k_common。请参见表 property取值范围。
add_punc
否
String
表示是否在识别结果中添加标点,取值为yes 、 no,默认no。
digit_norm
否
String
表示是否将语音中的数字识别为阿拉伯数字,取值为yes 、 no,默认为yes。识别结束后,会将数字识别为阿拉伯数字。
interim_results
否
String
是否输出中间结果,可以为yes或no。默认为no,表示不输出中间结果。
vocabulary_id
否
String
热词表id,不使用热词则不填写。
创建热词表信息请参考创建热词表。
need_word_info
否
String
表示是否在识别结果中输出分词结果信息,取值为“yes”和“no”,默认为“no”。
表5 property取值范围 property取值
说明
chinese_8k_general
支持采样率为8k的中文普通话 语音识别 ,采用新一代端到端识别算法,识别准确率更高。
格式支持pcm8k16bit/alaw8k8bit/ulaw8k8bit,区域支持cn-east-3和cn-north-4(强烈推荐使用)。
chinese_16k_general
支持采样率为16k的中文普通话语音识别,采用新一代端到端识别算法,识别准确率更高。
格式支持pcm16k16bit/alaw16k8bit/ulaw16k8bit,区域支持cn-east-3和cn-north-4(强烈推荐使用)。
chinese_8k_common
支持采样率为8k的中文普通话语音识别。
chinese_16k_common
支持采样率为16k的中文普通话语音识别。
sichuan_16k_common
支持采样率为16k的中文普通话与四川话方言语音识别。区域仅支持cn-north-4。max_seconds参数最短时长为10s,当设置低于10s,默认按照10s处理。
cantonese_16k_common
支持采样率为16k的粤语方言语音识别。区域仅支持cn-north-4。max_seconds参数最短时长为10s,当设置低于10s,默认按照10s处理。
shanghai_16k_common
支持采样率为16k的上海话方言语音识别。区域仅支持cn-north-4。max_seconds参数最短时长为10s,当设置低于10s,默认按照10s处理。
表6 audio_format取值范围 audio_format取值
说明
pcm16k16bit
16k16bit单通道录音数据。
pcm8k16bit
8k16bit单通道录音数据。
ulaw16k8bit
16k8bit ulaw单通道录音数据。
ulaw8k8bit
8k8bit ulaw单通道录音数据。
alaw16k8bit
16k8bit alaw单通道录音数据。
alaw8k8bit
8k8bit alaw单通道录音数据。
目前仅支持裸音频格式,仅支持pcm编码的wav格式,不支其他wav头或者arm格式的编码。
- 示例
{ "command": "START", "config": { "audio_format": "pcm8k16bit", "property": "chinese_8k_common", "add_punc": "yes", "interim_results": "yes", "need_word_info": "yes" } }
- 状态码
状态码请参见状态码。
- 错误码
错误码请参见错误码。