检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
取值范围: 1-2 默认取值: 1 output_external_url 否 String 音频文件上传的外部URL 说明: 需要先申请开通白名单, 才允许将音频等文件上传到外部URL。
在文本输入框中,输入文本内容,以生成音频,如图2所示。 文本示例:今天是9月26日,星期二,天气晴朗,欢迎大家到访。我们精心布置了现场,室内摆放了各类植物和鲜花,场地宽敞明亮,足够大家在室内共同交流和活动。 图2 文本驱动 音频制作完成后,可单击音量图标,调整音频的音量。
约束限制: 用户无需填写,系统自行提取。 默认取值: 不涉及 取值范围: 0-86400 audio_codec String 参数解释: 音频编码格式。 约束限制: 用户无需填写,系统自行提取。 取值范围: 字符长度0-32位。
约束限制: 用户无需填写,系统自行提取。 默认取值: 不涉及 取值范围: 0-86400 audio_codec String 参数解释: 音频编码格式。 约束限制: 用户无需填写,系统自行提取。 取值范围: 字符长度0-32位。
算法运行机制 训练阶段: 用户上传一段真人语音音频及授权书作为输入。 音频经过人工安全审核和授权认证后,由训练人员标注用于训练的音频数据,使用深度学习算法训练生成数字人声音模型。 推理阶段: 用户上传一段文本作为输入文本内容,由系统自动审核。
音频 音频录制要求,如下所示: 单声道音频。 清晰人声无背景音乐与杂音。 音频格式要求,如下所示: 支持的格式为:MP3、WAV。 大小不超过20MB,时长不超过5分钟。 文本驱动 文本驱动方式的要求如下所示: 文本输入长度不超过2000字。
约束限制: 用户无需填写,系统自行提取。 默认取值: 不涉及 取值范围: 0-86400 audio_codec 否 String 参数解释: 音频编码格式。 约束限制: 用户无需填写,系统自行提取。 取值范围: 字符长度0-32位。
音乐:各类音乐列表,可本地导入音频文件。支持添加为背景音乐。 文本:用于在画布中添加文本。 2 画面布局区域 视频画面制作区域,可以制作和预览视频画面。 3 音频制作区域 音频制作区域,可选择下述1种方式生成音频。 文本驱动:通过输入文本的方式生成音频。
界面提供录音指导,需要按照指导,录制生成一个符合时长要求的基础版、进阶版或高品质音频文件。WAV或MP3格式音频文件支持直接上传,无需压缩,无需携带文案txt文件。 如果未使用服务预置文案,声音标签仅作为标签,来区分声音使用场景。
音频时长为0.5~180分钟,建议5分钟。音频格式为WAV或MP3文件,支持19种语言的声音制作。 音频总时长,建议5分钟;单段不低于5秒 如果剩余次数为0,可单击“立即购买”,参考购买出门问问小语种克隆套餐的操作流程购买小语种克隆套餐包。 请完善声音信息 输入声音名称。
添加动作时需注意,动作生效需要有足够的音频时间,如果音频太短,数字人可能来不及做动作。 4 数字人说话是文本驱动还是语音驱动? 数字人视频制作、视频直播、分身数字人名片和照片数字人都支持文本驱动和语音驱动的方式说话。 5 数字人支持提供语义理解知识库吗? 不提供语义理解知识库。
添加动作时需注意,动作生效需要有足够的音频时间,如果音频太短,数字人可能来不及做动作。 4 数字人说话是文本驱动还是语音驱动? 数字人视频制作、视频直播、分身数字人名片和照片数字人都支持文本驱动和语音驱动的方式说话。 5 数字人支持提供语义理解知识库吗? 不提供语义理解知识库。
图3 开播界面 音频驱动 单击“上传音频”,从本地上传已录制好的音频,如图4所示。 每个音频不能超过100M,支持WAV、M4A和MP3格式,每个场景的音频总时长不能低于1分钟。 开播后会直接播放音频,声音是音频原有声音。
请联系管理员检查 语音识别服务欠费不可用,请联系管理员检查 语音识别服务欠费不可用,请联系管理员检查 403 MSS.47015017 第三方驱动不支持此操作请通过驱动接口控制 第三方驱动不支持此操作请通过驱动接口控制 第三方驱动不支持此操作请通过驱动接口控制 500 MSS.47010002
附录 授权书 手机录制音频 客户声音制作案例 第三方平台开播指南 FAQ
音频驱动:上传音频,通过音频驱动数字人说话。 即兴直播:无需设置剧本,直接开播。开播后数字人是不说话的,需要发送互动内容,或者开启真人接管,驱动数字人说话。 互动设置:支持弹幕、用户入场 、点赞和送礼设置。 直播配置:支持开播设置、输出设置、风控设置和更多设置。
音频:从本地选择音频文件。 单击“创建”,界面提示“创建成功”。 在“商品管理”页面,新增一行商品。 支持对商品执行如下操作: 单击商品所在行的“查看”,进入商品详情界面,支持单击“编辑”,修改商品信息。
音频:从本地上传一个音频文件,支持MP4、WAV和M4A格式。当命中此规则后,使用此音频进行回复。 智能交互:通过智能交互的方式回复用户问题,相当于提供了一个第三方语言模型去答复用户问题。 素材绑定(可选) 从本地选择图片或视频上传。
数字人会根据直播任务中预置的文本或音频进行直播。 PLAY_PAUSE:数字人直播暂停状态。此时数字人会处于静默状态,等待恢复剧本播放的指令。 TAKE_OVER:真人接管状态。MetaStudio直播服务会获取RTC通道中来自主播端的音频,实时驱动数字人进行直播。
sample_rate String body voice_data中音频的采样率。 取值示例:16000、24000。 voice_data String body 音频数据,为base64编码的pcm音频流。