华为云计算 云知识 语音交互服务有什么功能
语音交互服务有什么功能

语音交互 包括以下子服务:

定制 语音识别 (ASR Customization,ASRC):基于深度学习技术,提供针对特定领域(如快递行业)优化的语音识别能力,并可自定义语言模型。

定制语音识别包含 一句话识别 、录音文件识别功能。支持热词定制。

实时语音转写(Real-time ASR,RASR):将连续的音频流实时转换成文本,使语音识别更加快速。

语音识别(Automatic Speech Recognition,ASR):将时长低于1分钟的口述音频转换为文本。

语音合成(Text To Speech, TTS ):将文本转换成逼真的语音。

定制语音合成(Text To Speech Customization,TTSC):将文本转换为自然流畅的语音,提供特定领域的语音合成。

语音合成服务有什么功能

定制语音识别

定制语音识别提供了一句话识别,录音文件识别功能。

一句话识别:可以实现1分钟以内音频到文字的转换。对于用户上传的二进制音频格式数据,系统经过处理,生成语音对应的文字。

录音文件识别:对于录制的长语音进行识别,转写成文字,提供不同领域模型,具备良好的可扩展性,支持热词定制。

ASRC优势

高识别率

基于深度学习技术,对特定领域场景和语料进行优化,识别率达到业界领先。

前沿技术

使用工业界成熟的算法,结合学术界最新研究成果,为企业提供独特竞争力优势。

支持热词

针对专业词汇,支持上传至热词表,增加专业词汇的识别准确率。

可定制化

针对客户的特定场景需求,定制垂直领域的语音识别模型,识别效果更精确。

实时语音转写

实时语音转写服务,用户通过实时访问和调用API获取实时语音转写结果。

文本时间戳

为音频转换结果生成特定的时间戳,从而通过搜索文本即可快速找到对应的原始音频。

智能断句

通过提取上下文相关语义特征,并结合语音特征,智能划分断句及添加标点符号,提升输出文本的可阅读性。

中英文混合识别

支持在中文句子识别中夹带英文字母、数字等,从而实现中、英文以及数字的混合识别。

即时输出识别结果

连续识别语音流内容,即时输出结果,并可根据上下文语言模型自动校正。

自动静音检测

对输入语音流进行静音检测,识别效率和准确率更高。

RASR优势

识别准确率高

采用最新一代语音识别技术,基于深度神经网络(Deep Neural Networks,简称DNN)技术,大大提高了抗噪性能,使识别准确率显著提升。

识别速度快

把语言模型、词典和声学模型统一集成为一个大的神经网络,同时在工程上进行了大量的优化,大幅提升解码速度,使识别速度在业内处于领先地位。

多种识别模式

支持多种实时语音转写模式,如流式识别、连续识别和实时识别模式,灵活适应不同应用场景。

定制化服务

可定制特定垂直领域的语言层模型,可识别更多专有词汇和行业术语,进一步提高识别准确率。

语音识别

语音识别服务可以实现1分钟以内、不超过4MB的音频到文字的转换。对于用户上传的完整的录音文件,系统通过处理,生成语音对应文字内容。

ASR优势

效果出众

使用深度学习技术,语音识别准确率超过95%,在业界具有一定的技术优势。

稳定可靠

成功应用于各类场景,基于华为等企业客户的长期实践,经受过复杂场景考验。

简单高效

提供RESTful规范API接口,并提供服务SDK,方便客户使用与集成;帮助客户减少人力成本,节省业务支出。

语音支持

支持中文普通话,含带方言口音的普通话识别。

语音合成

语音合成将用户输入的文字合成为音频。通过音色选择、自定义音量、语速,为企业和个人提供个性化的发音服务。

TTS优势

效果出众

使用深度学习技术来合成逼真的人声语音,合成速度快,语音自然流畅。

个性定制

能够对合成后的语音音色、音调、语速进行个性化的设置,满足客户的定制化需求。

稳定可靠

成功应用于各类场景,基于华为等企业客户的长期实践,经受过复杂场景考验。

简单高效

提供RESTful规范API接口,并提供服务SDK,方便客户使用与集成;帮助客户减少人力成本,节省业务支出。

定制语音合成

定制语音合成支持多种音色,可调节语调,语速,音量。

TTSC优势

个性定制

可以为企业客户提供定制发音人服务。合成效果更出色。

多语种多音色

中文普通话、男声、女声、童声自由切换,可以调整音量,语速。

效果出色

文本转换自然清晰,近乎真人发音,能够符合多样的应用场景。

上一篇:API网关开放API 下一篇:创建VPN网关CreateVgw