检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如需使用第三方声音进行语音合成,请购买出门问问声音套餐。 图1 声音合成 功能介绍 该接口用于TTS流式合成音频,用于文本转化为语音,并实时返回合成的音频数据。 调用方法 构造请求 请求URL:wss://metastudio-api.
语音合成的base64编码如何使用 问题现象 用户在使用语音合成获取响应体的base64编码,不了解应该如何进一步使用。 解决方案 1. 建议用户使用Java或Python SDK,可参考SDK简介。 2.
File Recognition)、语音合成(Text To Speech )功能。
语音通知中TTS的声音是什么类型的?是否支持自定义? 语音通知文本转语音播报使用青年女声,不支持自定义声音。 父主题: 录音&收号&TTS相关问题
语音通知中TTS如何播报数字和英文符号? 语音通知文本转语音时,对于一连串数字会逐个播报,例如文本为“1234”,则播报时会读成“一二三四”。若希望系统播报“一千两百三十四”,请直接使用汉字文本。对于英文的识别性不高,对于表示单位等的英文符号,请直接使用汉字文本。
语音合成能不能支持返回立体音(双声道)格式的音频 语音合成接口当前仅支持单声道,不支持返回立体音(双声道)格式的音频。 父主题: API使用类
账号中存在语音合成服务的套餐,但是为什么却收到了欠费的信息 问题描述 账号中存在语音合成服务的套餐,但是为什么却收到了欠费的信息? 解决方案 如果是同一个区域的服务,存在套餐会先从套餐计费,超出套餐的部分才会按照按需计费。 请确认上述套餐和欠费服务否属于不同服务或者不同区域的。
0 volume string 必填 合成语音的音量,取值范围0到100。 50 登录华为云解决方案实践,选择“基于TTS快速实现文字转语音方案”。 图1 解决方案实施库 单击“一键部署”,跳转至该解决方案创建资源栈部署界面。
实施步骤 准备工作 快速部署 开始使用 快速卸载
SP可以要求业务平台播放多段语音,每段语音的内容都可以是下列两种语音中的一种: 语音文件中录制的语音。 文本(需要先通过模板定义)通过TTS服务转换成的语音。 业务体验描述: SP想要给用户A通知一段或多段语音。 SP向语音通话平台发送播放语音通知业务请求。
实时语音识别 支持“华北-北京四”、“华东-上海一”区域。 当前服务仅支持北京和上海区域,后续会陆续上线其他区域。 华北-北京四,推荐的区域,支持一句话识别、录音文件识别、实时语音识别和语音合成和热词等接口。
录音&收号&TTS相关问题 录音文件可以保存多久时间? 如何下载录音文件? 录音文件什么格式? 什么是收号? 如何实现收号功能? 如何查询放音收号结果? 语音通知中TTS的声音是什么类型的?是否支持自定义? 语音通知中TTS如何播报数字和英文符号?
用户通过调用语音识别类接口,将口述音频、普通话或者带有一定方言的语音文件识别成可编辑的文本,同时也支持通过调用语音合成接口将文本转换成逼真的语音等。适用场景有语音客服质检、会议记录、语音短消息、有声读物、电话回访等。
修订记录 表1 修订记录 发布日期 修订记录 2024-1-30 第一次正式发布。
快速卸载 进入上传文本的OBS和存放结果的OBS中,删除所有存放在里面的文件。 图1 删除文本上传的OBS中的文件 图2 删除存放结果的OBS中的文件 登录资源编排服务 RFS资源栈,找到该解决方案创建的资源栈,单击资源栈名称最右侧“删除”按钮,在弹出的“删除资源栈”提示框输入“Delete
开发者调用语音通知API通过语音通话平台发起呼叫,给用户播放自定义的语音文件或语音模板内容,用户在放音结束后根据提示输入号码,语音通话平台将获得的用户按键信息反馈给开发者。获取用户按键信息(即用户根据提示输入号码)称为收号。
准备工作 创建rf_admin_trust委托(可选) 进入华为云官网,打开控制台管理界面,鼠标移动至个人帐号处,打开“统一身份认证”菜单。 图1 控制台管理界面 图2 统一身份认证菜单 进入“委托”菜单,搜索“rf_admin_trust”委托。 图3 委托列表 如果委托存在,则不用执行接下来的创建委托的步骤
开始使用 在华为云控制台打开对象存储服务 OBS,打开上传文本的OBS(本案例中为text-to-speech-in,实际OBS名称以部署指定参数为准)。 图1 打开上传文本的OBS 上传需要合成的文本文件(文件编码格式为utf-8,建议使用txt文件,文件名称只支持包含数字、英文
播放完语音通知后是自动挂断电话吗? 调用语音通知API播放完语音通知后: 如果没有设置收号功能(collectInd取值为0),则语音通话平台会在播放完语音通话内容后自动挂断电话。
文本驱动SSML定义 MetaStudio语音驱动采用语音合成标记语言(SSML,Speech Synthesis Markup Language)来控制数字人的行为,包括动作、情绪以及TTS语音合成的多音字、停顿等。 SSML基础定义可参考语音合成标记语言版本 1.0。