检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
算法应用场景 分身数字人声音制作算法可以应用于数字人语音合成。在新闻播报、课件制作等场景模拟真人配音,提升数字内容生产效率。 算法目的意图 可以通过有授权的真人语音音频,在预训练模型基础上微调生成数字人声音模型,该模型可用于基于文本合成类似真人音色的数字人语音。
示例7:语音同步合成WebSocket接口(iOS SDK) 语音同步合成WebSocket接口示例,详见语音同步合成iOS SDK。 父主题: 应用示例
示例6:语音同步合成WebSocket接口(Android SDK) 语音同步合成WebSocket接口示例,详见语音同步合成Android SDK。 父主题: 应用示例
每个单场景如果包含语音合成标记语言SSML标签,文字数量需小于128K。 音频驱动 每个单场景上传音频的大小不超过100M。 视频格式 插入的视频素材支持的格式为:MP4、M4V、MKV、MOV、FLV、3GP、WMV、AVI和WEBM。
创建TTS试听任务 5次/秒 3次/秒 3次/秒 获取TTS试听文件 20次/秒 10次/秒 10次/秒 创建TTS异步任务 5次/秒 3次/秒 3次/秒 获取TTS异步任务 20次/秒 10次/秒 10次/秒 设置TTS租户级自定义读法配置 10次/秒 3次/秒 3次/秒 获取
表27 语音合成管理接口 接口 说明 POST /v1/{project_id}/ttsc/audition 创建TTS试听任务 GET /v1/{project_id}/ttsc/audition-file/{job_id} 获取TTS试听文件 POST /v1/{project_id
创建TTS试听任务 5次/秒 3次/秒 3次/秒 获取TTS试听文件 20次/秒 10次/秒 10次/秒 创建TTS异步任务 5次/秒 3次/秒 3次/秒 获取TTS异步任务 20次/秒 10次/秒 10次/秒 设置TTS租户级自定义读法配置 10次/秒 3次/秒 3次/秒 获取
取值范围: 90-240 默认取值: 140 provider String 第三方TTS供应商类型。 XIMALAYA:喜马拉雅TTS HUAWEI_EI:EI TTS MOBVOI:出门问问TTS language String 语言类型。默认值CN。 CN:简体中文。
Web语音唤醒 产品预置了唤醒能力,详见预制唤醒能力,如果用户需要更新唤醒词,需要参考定制唤醒能力处理。唤醒模型定制完成后,产品会提供给用户,用户需要参考更新唤醒模型,将模型更新至本地模型路径中。 使用要求 WebSDK版本为3.0.1及以上。 仅支持数字人平台配置或内置ASR(语音转文本
视频合成失败如何处理? 视频合成失败时,请您根据界面提示信息进行问题定位及修改,如表1所示。 表1 问题定位及修改 错误提示 处理办法 视频名称包含非法字符 请您根据要求修改导出文件名称中的敏感字符。 资产名称重复 请您根据要求重新修改导出文件的名称。 视频任务合成状态一直显示“待合成
取值范围: 90-240 默认取值: 140 provider String 第三方TTS供应商类型。 XIMALAYA:喜马拉雅TTS HUAWEI_EI:EI TTS MOBVOI:出门问问TTS language String 语言类型。默认值CN。 CN:中文。
6 数字人支持TTS和ASR吗? 已支持TTS(文本转语音),详见创建TTS异步任务。MetaStudio不提供ASR(语音转文本),用户如有ASR需求,可以查看语音交互服务或其他ASR服务。 图1 视频制作 父主题: FAQ
6 数字人支持TTS和ASR吗? 已支持TTS(文本转语音),详见创建TTS异步任务。MetaStudio不提供ASR(语音转文本),用户如有ASR需求,可以查看语音交互服务或其他ASR服务。 图1 视频制作 父主题: 产品咨询
合成的视频可以下载至本地吗? 可以下载至本地。在MetaStudio控制台“我的创作 > 视频制作 > 我的视频”页面,找到需要下载的视频卡片,单击卡片右下角的图标,从下拉框中选择“下载”即可。 父主题: 视频制作
取值范围: 90-240 默认取值: 140 provider String 第三方TTS供应商类型。 XIMALAYA:喜马拉雅TTS HUAWEI_EI:EI TTS MOBVOI:出门问问TTS language String 语言类型。默认值CN。 CN:中文。
合成视频二次剪辑后,数字人口型效果变差? 需要检查二次剪辑软件的视频帧率。因为数字人合成视频的帧率为25,如果用户使用软件的帧率为30,需要插帧至数字人视频中,才能达到30,这样就导致插帧后的口型对不上了。所以用户对视频进行二次剪辑时,帧率必须设置为25的整数倍,才不会影响数字人的口型效果
声音更新记录 2025年1月 表1 声音更新记录 发音人名称 性别 TTS版本 风格 语言 变更方式 云海 男 TTS V7 营销 中文 新增 云佳 女 TTS V7 客服 中文 新增 云辉 男 TTS V7 直播 中文 新增 云英 女 TTS V9 直播 中文 新增 云薇 女 TTS
删除语音训练任务 功能介绍 删除语音训练任务 调用方法 请参见如何调用API。 URI DELETE /v1/{project_id}/voice-training-manage/user/jobs/{job_id} 表1 路径参数 参数 是否必选 参数类型 描述 project_id
获取语音文件上传地址 功能介绍 获取语音文件上传地址 调用方法 请参见如何调用API。 URI GET /v1/{project_id}/voice-training-manage/user/jobs/{job_id}/uploading-address-url 表1 路径参数 参数
提交语音训练任务 功能介绍 提交训练任务,执行该接口后,任务会进入审核状态,审核完成后会等待训练。 调用方法 请参见如何调用API。 URI POST /v1/{project_id}/voice-training-manage/user/jobs/{job_id} 表1 路径参数