语音交互服务 SIS-提交录音文件识别任务:请求参数
请求参数
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
X-Auth-Token |
是 |
String |
用户Token。 用于获取操作API的权限。获取方法请参见认证鉴权。响应消息头中X-Subject-Token的值即为Token。 |
Enterprise-Project-Id |
否 |
String |
企业项目ID。SIS支持通过企业项目管理(EPS)对不同用户组和用户的资源使用,进行分账。 获取方法:进入“企业项目管理”页面,单击企业项目名称,在企业项目详情页获取Enterprise-Project-Id(企业项目ID)。
企业项目创建步骤请参见用户指南。 说明:
账户创建企业项目后,在传参时,有以下三类场景。
|
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
config |
是 |
TranscriberConfig object |
录音文件识别配置信息。 |
data_url |
是 |
String |
存放录音文件地址: |
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
audio_format |
否 |
String |
支持语音的格式,请参考表 audioformat取值范围。 |
property |
是 |
String |
所使用的模型特征串。通常是“语种_采样率_领域”的形式,例如chinese_8k_common。 采样率需要与音频采样率保持一致。 当前支持如下模型特征串:
|
add_punc |
否 |
String |
表示是否在识别结果中添加标点,取值为yes 、 no,默认no。 |
callback_url |
否 |
String |
表示回调 url,即用户用于接收识别结果的服务器地址,不支持IP地址方式调用,url长度小于2048字节。服务请求方法为POST,请求体参见表 响应参数。
|
digit_norm |
否 |
String |
表示是否将语音中的数字识别为阿拉伯数字,取值为yes 、 no,默认为yes。 |
need_analysis_info |
否 |
AnalysisInfo object |
该参数用于设置质检分析参数,是否需要输出质检分析内容以及会议场景多说话人分离,如果为null , 表示不需要。 |
vocabulary_id |
否 |
String |
热词表id,不使用则不填写。 创建热词表信息请参考创建热词表。 |
need_word_info |
否 |
String |
表示是否在识别结果中输出分词结果信息,取值为“yes”和“no”,默认为“no”。 |
参数 |
是否必选 |
参数类型 |
描述 |
---|---|---|---|
diarization |
否 |
Boolean |
是否需要做话者分离。 默认为true,表示会进行话者分离,识别结果中会包含role项(角色)。 如果diarization为false,那么结果中不会出现role项。 说明:
本表中的参数对audio_format格式中采样率为8k和16k的音频有效。对于8k单声道音频,8k双声道音频以及16k双声道音频仅支持两个说话人分离;对于16k单声道音频,自动识别说话人个数,返回结果最多支持10个说话人,并且property仅支持chinese_16k_media,区域仅支持cn-east-3。 |
channel |
否 |
String |
语音文件声道信息,默认为MONO,可设置为MONO,LEFT_AGENT, RIGHT_AGENT。 如果channel 为MONO,那么原始文件需要为单声道文件。 如果为双声道文件,系统会将其转换成单声道文件,可能会影响识别效果。 如果 channel 为 LEFT_AGENT或RIGHT_AGENT, 则原始文件需要为双声道文件,如果为单声道文件,系统会将其转换成双声道文件,识别结果会出现两条内容完全一致的文本。 当channel 为 LEFT_AGENT或RIGHT_AGENT,且diarization为true时,系统会按照配置给出对应角色。其中:
|
emotion |
否 |
Boolean |
是否需要做情绪检测,默认为true。仅对audio_format格式中采样率为8k的音频有效。 目前支持NORMAL(正常)、ANGRY(愤怒)和UNKNOWN(未知)情绪识别。 |
speed |
否 |
Boolean |
是否需要输出语速信息,默认为true。 |
audio_format取值 |
描述 |
---|---|
auto |
默认格式,系统自动判断,支持的音视频格式如下:WAV(内部支持pcm/ulaw/alaw/adpcm编码格式)、AMR、FLAC、M4A、MP3、OGG、WEBM、AAC、AC3、MOV、WMA、MP4、AVI、RMVB、MKV、FLV、F4V、WMV、3GP。支持双声道的音视频。 |
pcm16k16bit |
16k16bit裸音频录音数据。 |
pcm8k16bit |
8k16bit裸音频录音数据。 |
ulaw16k8bit |
16k8bit ulaw 裸音频录音数据。 |
ulaw8k8bit |
8k8bit ulaw 裸音频录音数据。 |
alaw16k8bit |
16k8bit alaw 裸音频录音数据。 |
alaw8k8bit |
8k8bit alaw 裸音频录音数据。 |