语音交互 包括以下子服务:
定制 语音识别 (ASR Customization,ASRC):基于深度学习技术,提供针对特定领域(如快递行业)优化的语音识别能力,并可自定义语言模型。
定制语音识别包含 一句话识别 、录音文件识别功能。支持热词定制。
实时语音转写(Real-time ASR,RASR):将连续的音频流实时转换成文本,使语音识别更加快速。
语音识别(Automatic Speech Recognition,ASR):将时长低于1分钟的口述音频转换为文本。
语音合成(Text To Speech, TTS ):将文本转换成逼真的语音。
定制语音合成(Text To Speech Customization,TTSC):将文本转换为自然流畅的语音,提供特定领域的语音合成。
定制语音识别
定制语音识别提供了一句话识别,录音文件识别功能。
一句话识别:可以实现1分钟以内音频到文字的转换。对于用户上传的二进制音频格式数据,系统经过处理,生成语音对应的文字。
录音文件识别:对于录制的长语音进行识别,转写成文字,提供不同领域模型,具备良好的可扩展性,支持热词定制。
ASRC优势
高识别率
基于深度学习技术,对特定领域场景和语料进行优化,识别率达到业界领先。
前沿技术
使用工业界成熟的算法,结合学术界最新研究成果,为企业提供独特竞争力优势。
支持热词
针对专业词汇,支持上传至热词表,增加专业词汇的识别准确率。
可定制化
针对客户的特定场景需求,定制垂直领域的语音识别模型,识别效果更精确。
实时语音转写
实时语音转写服务,用户通过实时访问和调用API获取实时语音转写结果。
文本时间戳
为音频转换结果生成特定的时间戳,从而通过搜索文本即可快速找到对应的原始音频。
智能断句
通过提取上下文相关语义特征,并结合语音特征,智能划分断句及添加标点符号,提升输出文本的可阅读性。
中英文混合识别
支持在中文句子识别中夹带英文字母、数字等,从而实现中、英文以及数字的混合识别。
即时输出识别结果
连续识别语音流内容,即时输出结果,并可根据上下文语言模型自动校正。
自动静音检测
对输入语音流进行静音检测,识别效率和准确率更高。
RASR优势
识别准确率高
采用最新一代语音识别技术,基于深度神经网络(Deep Neural Networks,简称DNN)技术,大大提高了抗噪性能,使识别准确率显著提升。
识别速度快
把语言模型、词典和声学模型统一集成为一个大的神经网络,同时在工程上进行了大量的优化,大幅提升解码速度,使识别速度在业内处于领先地位。
多种识别模式
支持多种实时语音转写模式,如流式识别、连续识别和实时识别模式,灵活适应不同应用场景。
定制化服务
可定制特定垂直领域的语言层模型,可识别更多专有词汇和行业术语,进一步提高识别准确率。
语音识别
语音识别服务可以实现1分钟以内、不超过4MB的音频到文字的转换。对于用户上传的完整的录音文件,系统通过处理,生成语音对应文字内容。
ASR优势
效果出众
使用深度学习技术,语音识别准确率超过95%,在业界具有一定的技术优势。
稳定可靠
成功应用于各类场景,基于华为等企业客户的长期实践,经受过复杂场景考验。
简单高效
提供RESTful规范API接口,并提供服务SDK,方便客户使用与集成;帮助客户减少人力成本,节省业务支出。
语音支持
支持中文普通话,含带方言口音的普通话识别。
语音合成
语音合成将用户输入的文字合成为音频。通过音色选择、自定义音量、语速,为企业和个人提供个性化的发音服务。
TTS优势
效果出众
使用深度学习技术来合成逼真的人声语音,合成速度快,语音自然流畅。
个性定制
能够对合成后的语音音色、音调、语速进行个性化的设置,满足客户的定制化需求。
稳定可靠
成功应用于各类场景,基于华为等企业客户的长期实践,经受过复杂场景考验。
简单高效
提供RESTful规范API接口,并提供服务SDK,方便客户使用与集成;帮助客户减少人力成本,节省业务支出。
定制语音合成
定制语音合成支持多种音色,可调节语调,语速,音量。
TTSC优势
个性定制
可以为企业客户提供定制发音人服务。合成效果更出色。
多语种多音色
中文普通话、男声、女声、童声自由切换,可以调整音量,语速。
效果出色
文本转换自然清晰,近乎真人发音,能够符合多样的应用场景。