语音交互服务 SIS-概述
概述
欢迎使用 语音交互 服务(Speech Interaction Service ,简称SIS)。
语音交互服务(Speech Interaction Service,简称SIS)是一种人机交互方式,用户通过实时访问和调用API获取语音交互结果。支持用户通过 语音识别 功能,将口述音频、普通话或者带有一定方言的语音文件识别成可编辑的文本,同时也支持通过 语音合成 功能将文本转换成逼真的语音等提升用户体验。适用场景如语音客服质检、会议记录、语音短消息、有声读物、电话回访等。
语音交互( 实时语音识别 、 一句话识别 、录音文件识别、语音合成)服务所提供的API为自研API。
接口类型 |
说明 |
---|---|
实时语音识别接口 |
华为云提供的Websocket接口,主要用于实时语音识别。音频分片传输,服务器端可以返回中间临时转写结果,在最后返回最终转写结果。 |
接口类型 |
说明 |
---|---|
一句话识别 |
一句话识别接口,用于短语音的同步识别。一次性上传整个音频,响应中即返回识别结果。 |
接口类型 |
说明 |
---|---|
录音文件识别 |
录音文件识别接口,用于转写不超过5小时的音频。由于录音文件转写需要较长的时间,因此转写是异步的。 |
接口类型 |
说明 |
---|---|
语音合成/实时语音合成 |
语音合成,依托先进的语音技术,使用深度学习算法,将文本转换为自然流畅的语音。用户通过实时访问和调用API获取语音合成结果,将用户输入的文字合成为音频。通过音色选择、自定义音量、语速、音高等,可自定义音频格式,为企业和个人提供个性化的发音服务。 |