检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在弹出的“开通按需计费服务提示”对话框中,勾选同意协议。单击“确定”,开通按需计费。开通后的效果如图1所示。 如需使用第三方声音进行语音合成,请购买出门问问声音套餐。 图1 声音合成 功能介绍 该接口用于TTS流式合成音频,用于文本转化为语音,并实时返回合成的音频数据。 调用方法
视频合成失败如何处理? 视频合成失败时,请您根据界面提示信息进行问题定位及修改。 提示“视频名称包含非法字符” 请您根据要求修改导出文件名称中的敏感字符。 提示“资产名称重复” 请您根据要求重新修改导出文件的名称。 视频任务合成状态一直显示“待合成” 可能是由于当前视频任务正在等待队列中,请您耐心等待。
示例7:视频直播对接实时音视频客户端SDK 视频直播对接实时音视频客户端SDK应用示例代码,请参考MetaStudio数字人直播对接实时音视频客户端SDK。 父主题: 应用示例
务概览页面,开通“声音合成”的按需计费。 详细操作为:单击“声音合成”卡片中的“去开通”,在弹出的“开通按需计费服务提示”对话框中,勾选同意协议。单击“确定”,开通按需计费。 如需使用第三方声音进行语音合成,请购买出门问问声音套餐,操作请参考《用户指南》的“购买出门问问声音套餐”章节。
示例3:语音合成管理 语音合成管理示例代码,请参考MetaStudio数字人语音合成管理。 父主题: 应用示例
语音合成管理 创建TTS试听任务 获取TTS试听文件 创建TTS异步任务 获取TTS异步任务 设置TTS租户级自定义读法配置 获取TTS租户级自定义读法配置 删除TTS租户级自定义读法配置 修改TTS租户级自定义读法配置 语音同步合成WebSocket接口
text 是 String 待合成文本。 tts_text 否 String 发送给tts的待合成文本。 emotion 是 String 音色ID,获取方式详见获取音色ID。 speed 否 Integer 语速。 当取值为“100”时,表示一个成年人正常的语速,约为250字/分钟。
} } 更多编程语言的SDK代码示例,请参见API Explorer的代码示例页签,可生成自动对应的SDK代码示例。 状态码 状态码 描述 200 处理成功。 400 参数异常 500 服务端异常 错误码 请参见错误码。 父主题: 语音合成管理
} } 更多编程语言的SDK代码示例,请参见API Explorer的代码示例页签,可生成自动对应的SDK代码示例。 状态码 状态码 描述 200 处理成功。 400 参数异常 500 服务端异常 错误码 请参见错误码。 父主题: 语音合成管理
} } 更多编程语言的SDK代码示例,请参见API Explorer的代码示例页签,可生成自动对应的SDK代码示例。 状态码 状态码 描述 200 处理成功。 400 参数异常 500 服务端异常 错误码 请参见错误码。 父主题: 语音合成管理
} } 更多编程语言的SDK代码示例,请参见API Explorer的代码示例页签,可生成自动对应的SDK代码示例。 状态码 状态码 描述 200 处理成功。 400 参数异常 500 服务端异常 错误码 请参见错误码。 父主题: 语音合成管理
数字内容生产线(MetaStudio)解决方案,提供数字人视频与直播、智能交互等服务,使能千行百业场景应用。 主要功能如下所示,详见功能特性。 数字内容生产线Metastudio通过AI学习真人形象和声音,来生成数字人模型,相应功能为形象制作、声音制作和Flexus分身数字人。再将模型用于音视频内容的创作,相应
} } 更多编程语言的SDK代码示例,请参见API Explorer的代码示例页签,可生成自动对应的SDK代码示例。 状态码 状态码 描述 200 处理成功。 400 参数异常 500 服务端异常 错误码 请参见错误码。 父主题: 语音合成管理
} } 更多编程语言的SDK代码示例,请参见API Explorer的代码示例页签,可生成自动对应的SDK代码示例。 状态码 状态码 描述 200 处理成功。 400 参数异常 500 服务端异常 错误码 请参见错误码。 父主题: 语音合成管理
详见购买出门问问语音合成套餐的操作流程。 购买出门问问语音合成套餐的操作流程 如需使用系统预置的第三方声音,需要购买出门问问语音合成套餐包,详细的操作流程如下所示。第三方声音支持的语言类型,如第三方声音支持的语言类型所示。 购买出门问问语音合成套餐包:在云商店购买语音合成套餐包,用于激活和使用出门问问提供的第三方声音。
文本驱动SSML定义 MetaStudio语音驱动采用语音合成标记语言(SSML,Speech Synthesis Markup Language)来控制数字人的行为,包括动作、情绪以及TTS语音合成的多音字、停顿等。 SSML基础定义可参考语音合成标记语言版本 1.0。MetaStudio在
应用示例 示例1:分身形象制作管理 示例2:声音制作任务管理 示例3:语音合成管理 示例4:视频制作 示例5:视频制作剧本管理 示例6:视频直播 示例7:视频直播对接实时音视频客户端SDK 示例8:资产管理 示例9:数字人名片制作 示例10:智能交互
集成数字人API、SDK至企业自建平台。 联合专业直播服务伙伴,定制场景化解决方案,实现数字人直播系统交付和运营专业支持。 帮助客户提升产品竞争力 大幅提升数字人生产效率 满足批量生成数字人诉求,平台支持几百到上千的并发模型训练任务。 大幅提升数字人生产质量 模型质量提升30%以上,数字
文本驱动:通过输入文本的方式生成音频。文本支持插入停顿、调整语速,如果是多音字可设置正确的发音,还可以选择不同的声音,试听生成的音频效果。支持开启字幕展示功能。 音频驱动:从本地上传音频文件,作为视频的语音。音频驱动方式,仅支持中文普通话的场景下能开启字幕。 还可以设置音频的音量,和调整画布的横竖屏展示。
声音模型不是通用模型,不与第三方服务兼容。用户在MetaStudio制作的模型,仅支持在本服务内使用。 视频制作 使用系统预置或自定义生成的数字人形象、声音,制作音视频内容。 制作的视频可应用于教学、培训等各类场景中。 视频直播 使用系统预置或自定义的数字人形象、声音,制作音视频直播内容。 可通过下述方式,在直播平台开播。