检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
创建TTS异步任务 功能介绍 该接口用于对外生成音频文件 使用本接口前,需要在MetaStudio控制台服务概览页面,开通“声音合成”的按需计费。 详细操作为:单击“声音合成”卡片中的“去开通”,在弹出的“开通按需计费服务提示”对话框中,勾选同意协议。单击“确定”,开通按需计费。
MetaStudio有哪些计费项? MetaStudio的计费项分为分身数字人费用、3D数字人费用和资产管理费用三类,详见计费说明。 分身数字人费用:包括分身数字人形象制作、声音制作、分身数字人视频制作、分身数字人视频直播、照片数字人视频制作和分身数字人名片制作的费用。 3D数字
创建一次性鉴权码 功能介绍 该接口用于创建一次性鉴权码,有效期5分钟,鉴权码只能使用一次,每次使用后需要重新获取。 接口只能通过第三方后台调用,不能在浏览器前台直接调用,否则会有跨域问题。 调用方法 请参见如何调用API。 URI POST /v1/{project_id}/di
从下拉框个中选择“重命名”,修改声音名称。 请制作声音 制作声音的方式为“语料上传”。界面提供录音指导,需要按照指导,录制生成一个符合时长要求的基础版、进阶版或高品质音频文件。WAV或MP3格式音频文件支持直接上传,无需压缩,无需携带文案txt文件。 如果未使用服务预置文案,声音标签仅作为标签,来区分声音使用场景。
配置对话机器人服务CBS 在对话机器人服务配置问答机器人。MetaStudio创建对话时,如果“第三方应用”需要选择“华为云CBS”时,才需要执行本节操作,详情请参考表1。 操作步骤 登录MetaStudio控制台。 单击界面左上角的图标,在弹出的浮动框中,搜索“对话机器人服务 CBS”。
HarmonyOS_Sans_SC_Black font_size Integer 参数解释: 字体大小。接口的取值范围为0-120,实际业务使用的取值范围要求为24-120,请以业务实际使用要求为准。 约束限制: 不涉及。 取值范围: 0-120 默认取值: 54 h Integer 参数解释: 字幕框高度。 约束限制:
创建智能交互数字人 介绍如何在MetaStudio平台创建智能交互数字人,实现用户和数字人交互对话。相应的场景说明,请参考场景说明。 操作步骤 登录MetaStudio控制台,单击“智能交互”。 在智能交互编辑页面,依次设置角色和背景。 查看界面右侧的“互动问答”页签,如图1所示。
创建角色 支持在奇妙问平台创建角色,并配置已上传的外部知识库和问答库给大模型学习使用,让角色的问答信息更丰富。 创建智能交互数字人中的“第三方应用”选择“奇妙问”时,才需要执行本节操作。 用户使用奇妙问前,需要联系奇妙问的客户经理注册开通服务。 客户经理的联系方式,可以在云商店语音合成商品页面查看,如图1所示。
面,如图2所示。 界面操作详情,如表1所示。 图2 形象制作页面 表1 界面操作说明 参数 说明 训练视频 从本地上传已录制好,且符合拍摄要求的真人实景视频,训练生成Flexus数字人形象和Flexus声音。 录制的视频时长1~5分钟,建议2分钟,分辨率需≥1080P(4K最佳)
HarmonyOS_Sans_SC_Black font_size Integer 参数解释: 字体大小。接口的取值范围为0-120,实际业务使用的取值范围要求为24-120,请以业务实际使用要求为准。 约束限制: 不涉及。 取值范围: 0-120 默认取值: 54 h Integer 参数解释: 字幕框高度。 约束限制:
font_size 否 Integer 参数解释: 字体大小(像素)。接口的取值范围为0-120,实际业务使用的取值范围要求为4-120,请以业务实际使用要求为准。 约束限制: 不涉及。 取值范围: 0-120 默认取值: 16 font_color 否 String 参数解释:
k font_size Integer 参数解释: 字体大小(像素)。接口的取值范围为0-120,实际业务使用的取值范围要求为4-120,请以业务实际使用要求为准。 约束限制: 不涉及。 取值范围: 0-120 默认取值: 16 font_color String 参数解释: 字体颜色。RGB颜色值。
频内容生产效率。 算法运行机制 选择一段真人视频。 输入真人视频,经过平台专家安全审核通过,且用户授权使用后,由训练人员选取真人视频中符合要求的视频进行预处理。预处理完成后,进行深度学习训练,生成该真人形象的数字人驱动模型。 推理阶段输入一段音频。 音频输入至数字人驱动模型后,经过模型推理生成数字人形象播报视频。
ack font_size 否 Integer 参数解释: 字体大小。接口的取值范围为0-120,实际业务使用的取值范围要求为24-120,请以业务实际使用要求为准。 约束限制: 不涉及。 取值范围: 0-120 默认取值: 54 h 否 Integer 参数解释: 字幕框高度。
API使用限制 使用API调用声音的限制说明 用户使用视频直播或智能交互接口调用音色时,需要先确认能否在MetaStudio控制台的视频直播间编辑界面或智能交互对话设置页面,选到当前音色。 如果界面正常展示且可以选择此音色使用,说明接口可以正常调用此音色,否则接口无法调用。 API流控
ack font_size 否 Integer 参数解释: 字体大小。接口的取值范围为0-120,实际业务使用的取值范围要求为24-120,请以业务实际使用要求为准。 约束限制: 不涉及。 取值范围: 0-120 默认取值: 54 h 否 Integer 参数解释: 字幕框高度。
ack font_size 否 Integer 参数解释: 字体大小。接口的取值范围为0-120,实际业务使用的取值范围要求为24-120,请以业务实际使用要求为准。 约束限制: 不涉及。 取值范围: 0-120 默认取值: 54 h 否 Integer 参数解释: 字幕框高度。
font_size 否 Integer 参数解释: 字体大小(像素)。接口的取值范围为0-120,实际业务使用的取值范围要求为4-120,请以业务实际使用要求为准。 约束限制: 不涉及。 取值范围: 0-120 默认取值: 16 font_color 否 String 参数解释:
语音合成管理 创建TTS试听任务 获取TTS试听文件 创建TTS异步任务 获取TTS异步任务 设置TTS租户级自定义读法配置 获取TTS租户级自定义读法配置 删除TTS租户级自定义读法配置 修改TTS租户级自定义读法配置 语音同步合成WebSocket接口
ack font_size 否 Integer 参数解释: 字体大小。接口的取值范围为0-120,实际业务使用的取值范围要求为24-120,请以业务实际使用要求为准。 约束限制: 不涉及。 取值范围: 0-120 默认取值: 54 h 否 Integer 参数解释: 字幕框高度。