检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
什么是数字内容生产线 功能特性 产品优势 使用限制 计费说明 03 API 数字内容生产线服务提供了丰富的API和调用示例,您可以通过API实现分身数字人资产管理、视频制作、视频直播、智能交互等功能。 API文档 API概览 API接口 04 SDK 数字内容生产线服务提供Java、Python
预置音色ID列表 系统预置自研音色ID列表,如表1所示。 表1 预置音色ID列表 音色名称(中文) 资产ID(华东-上海一) 资产ID(华北-北京四) 音色名称(英文) 资产ID(亚太-新加坡) 云歌 075494c45b5aef529d55cd2a456e6076 0a4b54
场景说明 创建智能交互数字人(华为云CBS) 创建智能交互数字人(科大讯飞) 创建智能交互数字人(奇妙问) 创建智能交互数字人(第三方语言模型) 创建智能交互数字人(二次开发场景) 智能交互公共配置
照片建模 照片建模任务创建失败是什么原因? 照片建模任务出现异常问题怎么办? 风格化照片建模的照片有什么要求? 风格化照片建模生成的模型文件是什么格式? 表情驱动数据格式如何定义? 肢体驱动数据格式如何定义?
业务类型。可填多个,用","分隔。 VOICE_CLONE:声音制作 SYNTHETICS_SOUND:声音合成 ASSET_MANAGER:资产管理 MODELING_2D:形象制作 LIVE_2D:分身数字人视频直播 VIDEO_2D:分身数字人视频制作 CHAT_2D:分身数字人智能交互
boolean 是否直接初始化唤醒模型。 初始化唤醒模型需要2~3s的加载时间,这段时间无法进行其他操作,所以需要根据实际情况选择模型初始化的时间点,详细说明如下所示: 如果为true,会在接口执行时,初始化模型。 如果为false,会在数字人创建过程中,初始化模型。 【返回参数】 无。 【代码示例】
业务类型。可填多个,用","分隔。 VOICE_CLONE:声音制作 SYNTHETICS_SOUND:声音合成 ASSET_MANAGER:资产管理 MODELING_2D:形象制作 LIVE_2D:分身数字人视频直播 VIDEO_2D:分身数字人视频制作 CHAT_2D:分身数字人智能交互
视频制作限制 视频制作配置 限制 视频制作剧本 一个视频制作剧本的场景数量不能超过50个。 一个视频制作剧本,仅支持使用一个数字人模型和一个音色模型。 文本驱动 每个单场景输入文字的数量不超过1万字。 所有场景输入文字的数量不超过10万字。 每个单场景如果包含语音合成标记语言SSML标签,文字数量需小于128K。
app_type Integer 对接第三方应用厂商类型。 说明: 0:科大讯飞AIUI;1:华为云CBS;2:科大讯飞星火交互认知大模型;5:第三方驱动;6:第三方语言模型;8:奇妙问 取值范围: 0-32 app_key String 应用的AccessKey或帐号。 robot_type
app_type Integer 对接第三方应用厂商类型。 说明: 0:科大讯飞AIUI;1:华为云CBS;2:科大讯飞星火交互认知大模型;5:第三方驱动;6:第三方语言模型;8:奇妙问 取值范围: 0-32 app_key String 应用的AccessKey或帐号。 robot_type
不是数字人的能力。 智能交互的主要功能是通过数字人与用户进行交互问答,也就是用户提问,数字人说出知识库返回的答案。数字人回答的内容,是由大模型或知识库返回的答案决定的。 6 数字人支持TTS和ASR吗? 已支持TTS(文本转语音),详见创建TTS异步任务。MetaStudio不提
不是数字人的能力。 智能交互的主要功能是通过数字人与用户进行交互问答,也就是用户提问,数字人说出知识库返回的答案。数字人回答的内容,是由大模型或知识库返回的答案决定的。 6 数字人支持TTS和ASR吗? 已支持TTS(文本转语音),详见创建TTS异步任务。MetaStudio不提
内共同交流和活动。 图1 文本驱动 文本内容的操作说明如表1所示。 不同声音模型对表1中操作的支持情况有差异,所以如果表1中操作项置灰,说明当前声音模型不支持此操作。需要重新选择一个支持所需操作的声音模型进行设置。 表1 操作说明 操作 说明 插入停顿 将鼠标放在需要停顿的文字右
默认取值: 不涉及。 表13 VoiceConfig 参数 参数类型 描述 voice_asset_id String 参数解释: 音色资产ID,可以从资产库中查询。 音色ID的查询操作,详见查询预置音色ID。 约束限制: 不涉及。 取值范围: 字符长度1-256位。 默认取值: 不涉及。
默认取值: 不涉及。 表13 VoiceConfig 参数 参数类型 描述 voice_asset_id String 参数解释: 音色资产ID,可以从资产库中查询。 音色ID的查询操作,详见查询预置音色ID。 约束限制: 不涉及。 取值范围: 字符长度1-256位。 默认取值: 不涉及。
<word></word>标签用于设置选中文字为连读模式。 MetaStudio包含多种TTS音色,每种音色支持的SSML标签能力是有差异的,请通过“查询资产详情”接口,获取每个音色支持使用的标签。 speak标签 描述 <speak></speak>:SSML文本的根节点。 语法 1 <spe
同时引发了一系列与伦理、隐私和就业等相关的讨论。 全球范围内的5G网络建设逐渐展开,提供了更快的数据传输速度和更低的延迟, 为物联网、智能城市和工业自动化等应用打下了基础。 区块链技术正在改变金融、供应链和数字资产交易等领域, 许多国家和企业都在探索如何应用区块链技术来提高效率和安全性。 全球对可再生能源的需
声音授权签署文件。 操作步骤 登录MetaStudio控制台。 单击“声音制作”下方的“开始创建”,进入声音制作页面。 图1 定制声音 在“华为模型”页签,配置声音制作参数。 界面操作详情,如表1所示。 表1 界面操作说明 区域 说明 声音制作方式 选择“基础版声音制作”,音频格式为W
应该如何解决的呢? 图2 文本驱动 文本内容的操作说明如表1所示。 不同声音模型对表1中操作的支持情况有差异,所以如果表1中操作项置灰,说明当前声音模型不支持此操作。需要重新选择一个支持所需操作的声音模型进行设置。 表1 操作说明 操作 说明 插入停顿 在段落的某个位置,插入换气或者停顿时间,也支持自定义停顿时长。
音频:从本地上传一个音频文件,支持MP4、WAV和M4A格式。当命中此规则后,使用此音频进行回复。 智能交互:通过智能交互的方式回复用户问题,相当于提供了一个第三方语言模型去答复用户问题。 素材绑定(可选) 从本地选择图片或视频上传。当直播间命中当前互动内容进行答复时,同时会在直播画面展示这里上传的图片或视频。