语音交互服务 SIS-概述

时间：2023-11-01 16:25:20

语音交互服务 SIS

概述

欢迎使用语音交互服务（Speech Interaction Service ，简称SIS）。

语音交互服务（Speech Interaction Service，简称SIS）是一种人机交互方式，用户通过实时访问和调用API获取语音交互结果。支持用户通过语音识别功能，将口述音频、普通话或者带有一定方言的语音文件识别成可编辑的文本，同时也支持通过语音合成功能将文本转换成逼真的语音等提升用户体验。适用场景如语音客服质检、会议记录、语音短消息、有声读物、电话回访等。

语音交互（实时语音识别、一句话识别、录音文件识别、语音合成）服务所提供的API为自研API。

表1 实时语音识别接口说明
接口类型	说明
实时语音识别接口	华为云提供的Websocket接口，主要用于实时语音识别。音频分片传输，服务器端可以返回中间临时转写结果，在最后返回最终转写结果。

表2 一句话识别接口说明
接口类型	说明
一句话识别	一句话识别接口，用于短语音的同步识别。一次性上传整个音频，响应中即返回识别结果。

表3 录音文件识别接口说明
接口类型	说明
录音文件识别	录音文件识别接口，用于转写不超过5小时的音频。由于录音文件转写需要较长的时间，因此转写是异步的。

表4 语音合成接口说明
接口类型	说明
语音合成/实时语音合成	语音合成，依托先进的语音技术，使用深度学习算法，将文本转换为自然流畅的语音。用户通过实时访问和调用API获取语音合成结果，将用户输入的文字合成为音频。通过音色选择、自定义音量、语速、音高等，可自定义音频格式，为企业和个人提供个性化的发音服务。