正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
画布制作完成后,再制作语音。 选择“文本驱动”的方式。在文本输入框中,输入文本内容,以生成音频,如图2所示。 文本示例:今天是9月26日,星期二,天气晴朗,欢迎大家到访。我们精心布置了现场,室内摆放了各类植物和鲜花,场地宽敞明亮,足够大家在室内共同交流和活动。 图2 文本驱动 音频制作完成后,可单击音量图标,调整音频的音量。
请通过“查询资产详情”接口,获取每个音色支持使用的标签。 speak标签 描述 <speak></speak>:SSML文本的根节点。 语法 1 <speak>这里输入SSML标签的文本</speak> 属性 无 标签关系 <speak>可以包含文本和标签,包括<break>
一种音频生成方式。 文本驱动 在文本输入框中,输入文本内容,以生成音频,如图1所示。 文本示例:今天是9月26日,星期二,天气晴朗,欢迎大家到访。我们精心布置了现场,室内摆放了各类植物和鲜花,场地宽敞明亮,足够大家在室内共同交流和活动。 图1 文本驱动 文本内容的操作说明如表1所示。
wav;文本文件命名规则:0.txt~19.txt。 语音文件和文本文件逐句上传:每次上传一句语料的语音文件和文本文件,再调用“确认在线录音结果”接口确认语音和文本内容是否一致。确认成功后再上传和确认下一句。 文件上传后,调用“提交语音训练任务”接口,启动审核和训练。 调用方法 请参见如何调用API。
wav;文本文件命名规则:0.txt~99.txt。 语音文件和文本文件逐句上传:每次上传一句语料的语音文件和文本文件,再调用“确认在线录音结果”接口确认语音和文本内容是否一致。确认成功后再上传和确认下一句。 文件上传后,调用“提交语音训练任务”接口,启动审核和训练。 调用方法 请参见如何调用API。
动内容。 回复方式 选择主播或助播进行回复,具体回复内容支持通过下述方式设置。 文本:通过文本方式设置回复内容,最多可增加5条回复。直播间开播后按照触发次数,从前往后依次命中答复,每次仅回复一条文本内容。 示例:关于产品的链接、型号和优惠等问题,请看界面上方的说明,按照说明操作,就可以详细了解了。
“剧本驱动”包含3种方式: 文本驱动 需要通过文本驱动数字人说话。支持下述2种方式,增加文本内容。 直接在各个场景的段落框中输入文本内容。可单击图标,新增更多的段落。 单击右上方的“导入”,从本地导入不少于200字的txt文件。如果多个段落,可通过换行来实现,平台会自动解析输入内容。 手工输入文本示例,如下所示:
是 String 音色模型ID。需要使用MetaStudio的数字资产管理相关接口从资产库查出。 script_type 否 String 脚本类型,即视频制作的驱动方式。默认TEXT TEXT: 文本驱动,即通过TTS合成语音 AUDIO: 语音驱动 默认取值: TEXT text
品。 支持多选,支持添加新类别。 产品素材 合成商品的素材。 包括如下内容: 贴图:从本地选择图片。 视频:从本地选择视频文件。 文本:手工输入文本内容。 音频:从本地选择音频文件。 单击“创建”,界面提示“创建成功”。 在“商品管理”页面,新增一行商品。 支持对商品执行如下操作:
还支持设置大小,拖动位置。 文本 文本界面详情,如图6所示。 图6 文本界面 文本界面说明,如表6所示。 表6 界面元素说明 界面元素 说明 界面默认展示两列文本,单击图标后,缩小展示为1列文本。单击图标,可恢复为2列展示。 文本列表 系统支持的文本列表。字体分别为:鸿蒙常规、鸿蒙粗体、鸿蒙细体、鸿蒙中黑。
的“取消应用”,取消使用。 文本 文本界面详情,如图8所示。 图8 文本界面 文本界面说明,如表7所示。 表7 界面元素说明 界面元素 说明 界面默认展示两列文本,单击图标后,缩小展示为1列文本。单击图标,可恢复为2列展示。 文本列表 系统支持的文本列表。字体分别为:鸿蒙常规、鸿蒙粗体、鸿蒙细体、鸿蒙中黑。
智能交互驱动WebSocket接口 终端节点获取方式 智能交互驱动WebSocket接口终端节点的获取方式,如表1所示。 表1 终端节点获取方式 场景 获取方式 未通过WEB SDK调用场景 终端节点地址从接口启动数字人智能交互任务的响应参数chat_access_address中获取。
表1 通知列表 接口 描述 error 错误事件。 jobInfoChange 交互任务信息变更事件。 speakingStart 数字人开始讲话事件。 speakingStop 数字人结束讲话事件。 speechRecognized ASR对提问进行语音识别后输出为文本的事件。 semanticRecognized
品。 支持多选,支持添加新类别。 产品素材 合成商品的素材。 包括如下内容: 贴图:从本地选择图片。 视频:从本地选择视频文件。 文本:手工输入文本内容。 音频:从本地选择音频文件。 单击“创建”,界面提示“创建成功”。 在“商品管理”页面,新增一行商品。 支持对商品执行如下操作:
支持的格式为:MP3、WAV。 大小不超过20MB,时长不超过5分钟。 文本驱动 文本驱动方式的要求如下所示: 文本输入长度不超过2000字。 通过文本合成的音频时长不能超过5分钟。 在照片数字人制作页面,选择“文本驱动”方式驱动照片说话时,需要输入文本并选择音色,再单击“试听”预估音频时长。如果超过5分钟,会导致照片数字人制作失败。
智能交互第三方LLM回调接口 功能介绍 MetaStudio智能交互服务支持开发者自定义数字人大脑(即第三方LLM)。当用户与数字人对话时,将触发调用该接口,由该接口返回问题对应的答案文本内容。 签名计算方法 第三方LLM自定义接口,使用HMACSHA256签名模式,需要在URL
音乐:各类音乐列表,可本地导入音频文件。支持添加为背景音乐。 文本:用于在画布中添加文本。 2 画面布局区域 视频画面制作区域,可以制作和预览视频画面。 3 音频制作区域 音频制作区域,可选择下述1种方式生成音频。 文本驱动:通过输入文本的方式生成音频。文本支持插入停顿、调整语速,如果是多音字可设置
47010114 第三方文本驱动失败,文本长度超过最大值 第三方文本驱动失败,文本长度超过最大值 第三方文本驱动请携带正确长度的文本数据 400 MSS.47010115 第三方文本驱动失败,seq参数小于最小值 第三方文本驱动失败,seq参数小于最小值 第三方文本驱动请携带正确的seq参数信息
真人声音录制 客户录制真人音频,上传至MetaStudio进行AI训练,即可得到和真人音色1:1复刻的声音模型。 声音模型可实现文本转语音,应用于数字人视频制作、直播、交互问答等场景中。不同版本录制规格如下: 基础版:20句语料,需整段录制,生成的音频总时长为3~10分钟,建议5分钟。
频文件。支持添加为背景视频。 商品:商品列表。需要自定义创建商品,一个商品可以同时包含贴图、视频、文本和音频内容。 文本:文本模板列表,可选择一个文本模板,在视频直播画面上添加文本。 ② 直播画面预览窗口,用于预览视频直播静态画面效果。 ③ 直播剧本由多个场景构成,每个场景由多个段落组成。