语音交互服务教程

什么是语音交互服务?

语音交互服务(Speech Interaction Service,简称SIS)是一种人机交互方式,用户通过实时访问和调用API获取语音交互结果。

其中,一句话识别实时语音识别是最常用的两个功能。例如用户通过语音识别功能,将口述音频或者语音文件识别成可编辑的文本,同时也支持通过语音合成功能将文本转换成逼真的语音等提升用户体验。适用场景如语音客服质检、会议记录、语音短消息、有声读物、电话回访等。


语言交互支持哪些语言?

支持中文普通话的识别和合成,其中语音识别还支持带方言口音的普通话识别以及方言(四川话、粤语和上海话)的识别。

语音交互服务的应用场景

语音交互服务价格表

计费项
月使用量
单价
价格单位
调用接口
0~6000小时(含)
3.2
元/小时
调用接口
6000~30000小时(含)
2.8
元/小时
调用接口
30000~60000小时(含)
2.5
元/小时
调用接口
60000~150000小时(含)
1.8
元/小时
调用接口
大于150000
1.2
元/小时
计费项
月使用量
单价
价格单位
调用接口
0百万次~3百万次(含)
4
元/千次
调用接口
3百万次~15百万次(含)
3.4
元/千次
调用接口
15百万次~30百万次(含)
2.8
元/千次
调用接口
30百万次~150百万次(含)
2.2
元/千次
调用接口
150百万次~300百万次(含)
1.6
元/千次
调用接口
大于300百万次
1.2
元/千次
计费项
月使用量
单价
价格单位
调用接口
0小时~6,000小时(含)
2.5
元/小时
调用接口
6,000小时~30,000小时(含)
2.2
元/小时
调用接口
30,000小时~60,000小时(含)
1.9
元/小时
调用接口
60,000小时~150,000小时(含)
1.6
元/小时
调用接口
150,000小时~1,500,000小时(含)
1
元/小时
调用接口
大于1,500,000小时
0.7
元/小时
计费项
月使用量
单价
价格单位
调用接口
0小时~6,000小时(含)
3
元/小时
调用接口
6,000小时~30,000小时(含)
2.6
元/小时
调用接口
30,000小时~60,000小时(含)
2.2
元/小时
调用接口
60,000小时~150,000小时(含)
1.8
元/小时
调用接口
大于150,000小时
1.3
元/小时
计费项
月使用量
单价
价格单位
调用接口
0千次~10千次(含)
0
元/千次
调用接口
大于10千次
2
元/千次
实时语音识别
调用接口
月使用量:
0~6000小时(含)
单价:
3.2
价格单位:
元/小时
调用接口
月使用量:
6000~30000小时(含)
单价:
2.8
价格单位:
元/小时
调用接口
月使用量:
30000~60000小时(含)
单价:
2.5
价格单位:
元/小时
调用接口
月使用量:
60000~150000小时(含)
单价:
1.8
价格单位:
元/小时
调用接口
月使用量:
大于150000
单价:
1.2
价格单位:
元/小时
一句话识别
调用接口
月使用量:
0百万次~3百万次(含)
单价:
4
价格单位:
元/千次
调用接口
月使用量:
3百万次~15百万次(含)
单价:
3.4
价格单位:
元/千次
调用接口
月使用量:
15百万次~30百万次(含)
单价:
2.8
价格单位:
元/千次
调用接口
月使用量:
30百万次~150百万次(含)
单价:
2.2
价格单位:
元/千次
调用接口
月使用量:
150百万次~300百万次(含)
单价:
1.6
价格单位:
元/千次
调用接口
月使用量:
大于300百万次
单价:
1.2
价格单位:
元/千次
录音文件识别
调用接口
月使用量:
0小时~6,000小时(含)
单价:
2.5
价格单位:
元/小时
调用接口
月使用量:
6,000小时~30,000小时(含)
单价:
2.2
价格单位:
元/小时
调用接口
月使用量:
30,000小时~60,000小时(含)
单价:
1.9
价格单位:
元/小时
调用接口
月使用量:
60,000小时~150,000小时(含)
单价:
1.6
价格单位:
元/小时
调用接口
月使用量:
150,000小时~1,500,000小时(含)
单价:
1
价格单位:
元/小时
调用接口
月使用量:
大于1,500,000小时
单价:
0.7
价格单位:
元/小时
录音文件识别极速版
调用接口
月使用量:
0小时~6,000小时(含)
单价:
3
价格单位:
元/小时
调用接口
月使用量:
6,000小时~30,000小时(含)
单价:
2.6
价格单位:
元/小时
调用接口
月使用量:
30,000小时~60,000小时(含)
单价:
2.2
价格单位:
元/小时
调用接口
月使用量:
60,000小时~150,000小时(含)
单价:
1.8
价格单位:
元/小时
调用接口
月使用量:
大于150,000小时
单价:
1.3
价格单位:
元/小时
语音合成
调用接口
月使用量:
0千次~10千次(含)
单价:
0
价格单位:
元/千次
调用接口
月使用量:
大于10千次
单价:
2
价格单位:
元/千次

语音交互服务 常见问题

常见问题

  • 语音合成后输出的音频格式是什么?

    语音合成后返回一组Base64编码格式的语音数据,用户需要用编程语言或者sdk将返回的Base64编码格式的数据解码成byte数组,再保存为wav格式的音频。

  • 语音合成后能否返回播放时长?

    不能,当前语音合成无此参数。若需要知道语音时长,可以将返回语音数据解码转换成音频格式,播放后查看。

  • 是否支持aac格式的语音文件转文字?

    一句话识别和录音文件识别以及实时语音识别均可实现语音转文字,一句话识别支持aac格式,录音文件识别和实时语音识别不支持aac格式。

  • 为什么会出现识别结果非常差的情况?

    调用语音识别接口,识别结果同真实结果差别很大,或者服务端报音频格式错误。

    解决方案

    1. 检查音频采样率是否符合。
    2. 对于裸音频,可采用toolsoft Audio player等工具进行试听,通过设置不同的采样率,播放正常的即为音频正常采样率。
    3. 如果检查参数“property”是否与采样率一致,如“chinese_8k_common”, 8k即采样率。


  • 语音交互服务是否支持私有化部署?

    目前语音交互服务暂不支持私有化部署。

  • 什么是区域与可用区?

    区域(Region):从地理位置和网络时延维度划分,同一个Region内共享弹性计算、块存储、对象存储、VPC网络、弹性公网IP、镜像等公共服务。Region分为通用Region和专属Region,通用Region指面向公共租户提供通用云服务的Region;专属Region指只承载同一类业务或只面向特定租户提供业务服务的专用Region。


    可用区(AZ,Availability Zone):一个AZ是一个或多个物理数据中心的集合,有独立的风火水电,AZ内逻辑上再将计算、网络、存储等资源划分成多个集群。一个Region中的多个AZ间通过高速光纤相连,以满足用户跨AZ构建高可用性系统的需求

    查看详情

  • 语音交互服务的区域如何选择?

    不同区域的资源之间内网不互通。为保证网络的连通性,降低网络时延、提高访问速度,请选择靠近您客户的区域,当前语音服务支持北京和上海区域,后续会陆续上线其他区域,当前支持的区域请参见地区与终端节点。

    查看详情

  • 语音交互服务需要申请什么权限?

    语音交互服务本身无权限限制,用户不需要额外添加任何权限,即可对语音交互服务执行操作。

    但是如下场景除外:

    当用户需要使用录音文件识别功能时,需要用户具有主帐号或者Security Administrator的权限。

    查看详情

  • 如何通过主帐号创建一个子帐号?

    语音交互服务服务不支持IAM细粒度划分策略,IAM账号与主账号具备相同的操作权限。

    您可以使用IAM的用户管理功能,给员工或应用程序创建IAM用户,可避免分享自己的帐号密码。详细创建步骤请参见创建IAM用户。