检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
字符长度1-256位。 默认取值: 不涉及。 speed 否 Integer 参数解释: 语速。50表示0.5倍语速,100表示正常语速,200表示2倍语速。 当取值为“100”时,表示一个成年人的正常语速,约为250字/分钟。 约束限制: 不涉及。 取值范围: 50-200 默认取值:
取值范围: 字符长度1-256位。 默认取值: 不涉及。 speed Integer 参数解释: 语速。50表示0.5倍语速,100表示正常语速,200表示2倍语速。 当取值为“100”时,表示一个成年人的正常语速,约为250字/分钟。 约束限制: 不涉及。 取值范围: 50-200 默认取值:
字符长度1-256位。 默认取值: 不涉及。 speed 否 Integer 参数解释: 语速。50表示0.5倍语速,100表示正常语速,200表示2倍语速。 当取值为“100”时,表示一个成年人的正常语速,约为250字/分钟。 约束限制: 不涉及。 取值范围: 50-200 默认取值:
字符长度1-256位。 默认取值: 不涉及。 speed 否 Integer 参数解释: 语速。50表示0.5倍语速,100表示正常语速,200表示2倍语速。 当取值为“100”时,表示一个成年人的正常语速,约为250字/分钟。 约束限制: 不涉及。 取值范围: 50-200 默认取值:
系统资产标签定义 查询资产列表接口支持使用“tags”标签对分身数字人模型进行分类。 “tags”取值及其含义,如表1所示。 表1 tags标签说明 tags取值类型 说明 数字人类型 取值如下: VIRTUAL_AVATARS:分身数字人 VIRTUAL_HUMANS:虚拟数字人
字符长度1-256位。 默认取值: 不涉及。 speed 否 Integer 参数解释: 语速。50表示0.5倍语速,100表示正常语速,200表示2倍语速。 当取值为“100”时,表示一个成年人的正常语速,约为250字/分钟。 约束限制: 不涉及。 取值范围: 50-200 默认取值:
字符长度0-1024 默认取值: 不涉及。 表23 TriggerProcess 参数 参数类型 描述 time_window Integer 参数解释: 处理抑制时长。单位秒。 -1:表示整场直播仅触发一次。 0:表示无抑制,每次都触发。 其他值n:表示n秒内仅触发一次。 约束限制: 不涉及
客户声音制作案例 单击声音样例.zip,下载如表1所示的音频文件。 mos分是从音色相似度、情感表达效果和声音音质方面,进行整体效果综合评分的结果。 表1 音频文件 版本 类别 原音文件 合成音文件 版本差异 适用场景 基础版声音制作 女声 基础版媒体1.wav 基础版媒体2.wav
声音制作限制 声音制作限制说明,如表1所示。 表1 声音制作限制 限制项 说明 用户限制 MetaStudio不支持个人用户定制声音,仅支持企业用户。 定制声音时,从平台下载的授权书中有明确说明,定制音色需授权给公司使用。 父主题: 使用限制
视频制作限制 分身数字人视频制作限制说明,如表1所示。 表1 视频制作限制 视频制作配置 限制 多场景配置 每个单场景,如果通过“文本驱动”方式生成语音时,所有段落汇总的文字数量需大于200字。 每个单场景,如果通过“音频驱动”方式生成语音时,每个音频时长需大于1分钟。 文本驱动配置
Flexus形象制作限制 Flexus形象制作限制说明,如表1所示。 表1 声音制作限制 限制项 说明 Flexus形象和声音使用限制 Flexus分身数字人目前仅支持视频制作,不支持视频直播和智能交互。 视频制作限制 Flexus数字人采用实景拍摄,视频制作时不支持切换背景。
字符长度1-256位。 默认取值: 不涉及。 speed 否 Integer 参数解释: 语速。50表示0.5倍语速,100表示正常语速,200表示2倍语速。 当取值为“100”时,表示一个成年人的正常语速,约为250字/分钟。 约束限制: 不涉及。 取值范围: 50-200 默认取值:
字符长度0-1024 默认取值: 不涉及。 表22 TriggerProcess 参数 是否必选 参数类型 描述 time_window 否 Integer 参数解释: 处理抑制时长。单位秒。 -1:表示整场直播仅触发一次。 0:表示无抑制,每次都触发。 其他值n:表示n秒内仅触发一次。 约束限制:
文本界面详情,如图6所示。 图6 文本界面 文本界面说明,如表6所示。 表6 界面元素说明 界面元素 说明 界面默认展示两列文本,单击图标后,缩小展示为1列文本。单击图标,可恢复为2列展示。 文本列表 系统支持的文本列表。字体分别为:鸿蒙常规、鸿蒙粗体、鸿蒙细体、鸿蒙中黑。 插入文本
视频提交 提交视频的详细说明,如表1所示。 表1 提交视频说明 视频要求 说明 交付内容 拍摄完成后请提供一个视频素材用于数字人训练。 推荐视频格式为MP4。 视频大小通常小于5G。 提交训练的视频需要保留录制时的原声,且音画必须同步。 若对素材进行后处理,导出时请确保帧率与原视频一致。
照片数字人限制 照片数字人视频制作限制说明,如表1所示。 表1 照片数字人视频制作限制 照片数字人视频制作配置 限制 人像照片 制作照片数字人的人像照片拍摄要求,如下所示: 真人正面照,不支持动漫卡通形象;面部占比50%以上,侧脸俯仰角度不超过15度。 五官清晰无遮挡,目视前方。
智能交互限制 智能交互对硬件设备的最低配置要求,如表1所示。 表1 硬件设备要求 硬盘配置 最低配置 CPU i5及以上版本。 内存 8G以上。 硬盘 128G及以上。 操作系统 Windows或Android系统。 麦克风 需要有麦克风,且要保障1米以内的拾音效果。 扬声器 需要有扬声器。
音乐界面说明,如表6所示。 表6 界面元素说明 界面元素 说明 本地导入 单击“本地导入”,从本地选择WAV或MP3格式的音乐文件上传。 也支持直接拖拽本地音乐文件至音乐列表区域,完成上传操作。 单击图标后,音乐界面缩小展示。单击图标,可恢复为默认展示。 音乐列表 默认展示全量音乐文件。
支持的语言类型 第三方声音支持的语言类型 目前第三方声音支持的语言类型,如表1所示。 表1 语言类型 语言类型 语种 方言(7种) 东北话、广西话、湖北话、陕西话、四川话、粤语、港台 外文(18种) 英文、德语、法语、韩语、葡萄牙语、日语、西班牙语、意大利语、俄罗斯语、菲律宾语、
请求发送以后,您会收到响应,其中包含状态码、响应消息头和消息体。 状态码是一组从1xx到5xx的数字代码,状态码表示了请求响应的状态,完整的状态码列表请参见状态码。 对于管理员创建IAM用户接口,如果调用后返回状态码为“201”,则表示请求成功。 响应消息头 对应请求消息头,响应同样也有消息头,如“Content-type”。