语音交互 服务(Speech Interaction Service,简称SIS)是一种人机交互方式,以开放API(Application Programming Interface,应用程序编程接口)的方式提供给用户,用户通过实时访问和调用API获取语音交互结果。目前语音交互服务仅支持中文识别与合成。
语音交互包括以下子服务:
定制 语音识别 (ASR Customization,ASRC):基于深度学习技术,提供针对特定领域(如快递行业)优化的语音识别能力,并可自定义语言模型。定制语音识别包含 一句话识别 、录音文件识别功能。支持热词定制。
实时语音转写(Real-time ASR,RASR):将连续的音频流实时转换成文本,语音识别更快。
短语音识别(Automatic Speech Recognition,ASR):将时长低于1min的口述音频转换为文本。
语音合成 (Text To Speech, TTS ):是一种将文本转换成逼真语音的服务。
定制语音合成(Text To Speech Customization,TTSC):依托华为先进的语音技术,使用深度学习算法,将文本转换为自然流畅的语音。