检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
支持。 直播任务退出说明 直播任务退出说明,如表2所示。 表2 直播任务退出说明 直播任务退出场景 操作说明 租户自行退出直播任务 租户可通过下述方式,退出直播任务。 在MetaStudio控制台开播页面,停止直播任务。 调用结束数字人智能直播任务接口,停止直播任务。 服务自动关停直播任务
示在“我的创作 > 分身名片”页面。 用户在控制台进行智能交互操作,生成的对话项目和技能,会展示在“我的创作 > 智能交互”页面。 一类是通过本地上传或者接收资产管理员转移的资产生成的,会展示在“我的创作 > 资源”页面。 父主题: 资产管理
配置说明如下所示,其他配置请参见智能交互。 语言:支持同时添加中文和英文,并设置其中一种语言为默认语言。 在数字人智能交互界面,自动展示默认语言,并用默认语言与用户进行问答。可通过界面右上方的语言切换图标,切换语言。 声音:单击声音右侧的图标,切换数字人声音。 这里选择的声音,需要与前面选择的语言匹配。如果是中文,则
配置说明如下所示,其他配置请参见智能交互。 语言:支持同时添加中文和英文,并设置其中一种语言为默认语言。 在数字人智能交互界面,自动展示默认语言,并用默认语言与用户进行问答。可通过界面右上方的语言切换图标,切换语言。 声音:单击声音右侧的图标,切换数字人声音。 这里选择的声音,需要与前面选择的语言匹配。如果是中文,则
支持的格式为:MP3、WAV。 大小不超过20MB,时长不超过5分钟。 文本驱动 文本驱动方式的要求如下所示: 文本输入长度不超过2000字。 通过文本合成的音频时长不能超过5分钟。 在照片数字人制作页面,选择“文本驱动”方式驱动照片说话时,需要输入文本并选择音色,再单击“试听”预估音
的方式说话。 5 数字人支持提供语义理解知识库吗? 不提供语义理解知识库。语义理解是知识库的能力,不是数字人的能力。 智能交互的主要功能是通过数字人与用户进行交互问答,也就是用户提问,数字人说出知识库返回的答案。数字人回答的内容,是由大模型或知识库返回的答案决定的。 6 数字人支持TTS和ASR吗?
的方式说话。 5 数字人支持提供语义理解知识库吗? 不提供语义理解知识库。语义理解是知识库的能力,不是数字人的能力。 智能交互的主要功能是通过数字人与用户进行交互问答,也就是用户提问,数字人说出知识库返回的答案。数字人回答的内容,是由大模型或知识库返回的答案决定的。 6 数字人支持TTS和ASR吗?
创建任务),COMMIT_JOB(提交任务),SYSTEM_AUDIT_PASS(系统审核通过),ADMIN_AUDIT_PASS(管理员审核通过),AUDIT_NOT_PASS(审核未通过),TRAINING_FINISH(训练完成),UPLOADING_MODEL(上传语音模型)
机图形学、动作捕捉和驱动、图像渲染和人工智能等。 服务型数字人是利用深度神经网络进行图像合成、高度拟真的虚拟人。具备如下特点: 2D模型,通过拍摄真人视频训练生成 无表情&骨骼数据 只能由AI驱动 使用既定表情&动作 剧本、画布和设置 视频制作、视频直播功能,都需要进行视频创作,下面以视频直播为例,进行说明。
不需要用户一直打开控制台。 如果直播平台无法提供推流地址,可通过窗口捕获方式开播。 需要注意: 使用RTMP推流时,关闭控制台页面不等于结束直播任务,画面会持续生成并计费。如需结束直播画面,需手动单击结束直播或通过API下发结束命令。 直播平台的规定及相关政策请自行了解,部分平台可能限制虚拟内容直播。
重的,还会冻结租户的全部资源。 被冻结的资产不能用作内容生成的素材。租户可以删除被冻结的资产或者申请解冻资产。 用户申请解冻资产 用户可以通过申诉的方式,申请解冻资产,解冻后资产会恢复至解冻前的状态。 如果处于回收站中的资产被冻结,解冻后,其状态会恢复至被删除前的状态。 父主题:
端的音频,实时驱动数字人进行直播。 PLAY_END:退出直播任务状态。 RTSA Command定义 RTC User Render用户通过COMMAND通道发送服务端状态通知。 代码示例如下所示: { "message_type" : "state_notify", "state"
钟。 在线录音:在线录制音频。录音时长不能超过5分钟,为保证音频生成的效果,请保持录音环境安静无噪音。支持试听录制生成的语音。 文本驱动:通过输入文本,选择声音的方式,生成播报内容。不能超过2000字。 单击声音图标,会弹出声音对话框,可以选择需要使用的声音。 无标注的系统声音,均为免费声音,可直接选用。
钟。 在线录音:在线录制音频。录音时长不能超过5分钟,为保证音频生成的效果,请保持录音环境安静无噪音。支持试听录制生成的语音。 文本驱动:通过输入文本,选择声音的方式,生成播报内容。不能超过2000字。 单击声音图标,会弹出声音对话框,可以选择需要使用的声音。 无标注的系统声音,均为免费声音,可直接选用。
形成全社会共同参与的良好氛围。 利用现代科技手段,如GIS(地理信息系统)、无人机监测等,对西湖的自然环境和文化遗产进行实时监控和分析。 通过教育和推广活动,让更多的人了解西湖的价值,培养青少年对传统文化的兴趣和保护意识。 总结 杭州西湖,以其独特的自然风光、深厚的文化底蕴和现代
<word></word>标签用于设置选中文字为连读模式。 MetaStudio包含多种TTS音色,每种音色支持的SSML标签能力是有差异的,请通过“查询资产详情”接口,获取每个音色支持使用的标签。 speak标签 描述 <speak></speak>:SSML文本的根节点。 语法 1
建议使用uuId,若不携带,则后台自动生成 X-Auth-Token 否 String 用户Token。使用Token鉴权方式时必选。 通过调用IAM服务获取用户Token接口获取。 响应消息头中X-Subject-Token的值。 Authorization 否 String
照片数字人视频制作 左下角展示用户已购买资源的剩余量。 照片数字人视频制作支持开通或关闭按需计费。 声音合成 这里的声音合成,仅针对使用声音API调用,通过MetaStudio控制台声音制作方式生成的声音,来合成音频的费用。 声音合成支持开通或关闭按需计费。 如需查看声音合成的使用量,单击左下
是否必选 参数类型 描述 X-Auth-Token 是 String 用户Token。需要获取全局级Token(将scope设置为domain) 通过调用IAM服务获取用户Token接口获取(响应消息头中X-Subject-Token的值)。 响应参数 状态码:200 表3 响应Header参数
是否必选 参数类型 描述 X-Auth-Token 是 String 用户Token。需要获取全局级Token(将scope设置为domain) 通过调用IAM服务获取用户Token接口获取(响应消息头中X-Subject-Token的值)。 响应参数 状态码:200 表4 响应Header参数