检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
预付费资源包中扣除1次。 计费时优先使用套餐包中的额度,该额度使用完后,转按需付费。 照片建模的含义:根据单张照片自动生成3D风格化基础模型。 按需计费 按需预付费套餐包 语音驱动 按照输入文本或语音驱动数字人口型、表情等动作的时长进行计费。 计费时优先使用套餐包中的额度,该额度使用完后,转按需付费。
PPTPageInfo objects PPT页面图片。 表15 PPTPageInfo 参数 参数类型 描述 page_no Integer 参数解释: 页面编号。 约束限制: 不涉及 取值范围: 1-256 file_id String 参数解释: 页面对应图片文件ID。 约束限制: 不涉及
大小不超过20MB,时长不超过5分钟。 文本驱动 文本驱动方式的要求如下所示: 文本输入长度不超过2000字。 通过文本合成的音频时长不能超过5分钟。 在照片数字人制作页面,选择“文本驱动”方式驱动照片说话时,需要输入文本并选择音色,再单击“试听”预估音频时长。如果超过5分钟,会导致照片数字人制作失败。 父主题:
基于图片URL创建照片建模任务 功能介绍 该接口用于从URL中获取图片进行照片建模任务。 调用方法 请参见如何调用API。 URI POST /v1/{project_id}/digital-human/stylized/picture-modelings-by-url 表1 路径参数
ob.xml的响应参数chat_access_address中获取。 通过WEB SDK调用场景 终端节点地址从智能交互SDK的通知jobInfoChangejobInfoChange的参数websocketAddr中获取。 功能介绍 该接口用于创建用户与数字人对话的WebSocket连接,驱动数字人对话。
Flexus分身数字人左上角会有标识。未带有标识的数字人均为标准版形象。 需注意Flexus视频制作和标准版视频制作分开计费,从各自的套餐包中扣除费用。 Flexus视频制作:必须使用Flexus形象,声音使用不受限制。 按视频制作时长计费,计费项为“Flexus分身数字人视频制作”,详见计费说明。
播的当前场景中。 在视频直播画面预览区域,如果存在多种素材,支持对数字人进行图层管理,如:上移一层、下移一层、置顶、置底、应用到全局、删除等。还支持设置大小,拖动位置。 将鼠标放在数字人上方,数字人右上角展示图标。单击图标,可以将数字人更新至当前视频直播的所有场景中。 背景 背景界面详情,如图2所示。
直播控制HTTP Command命令说明 分身数字人直播过程中,支持通过HTTP API的方式人工接管直播。人工接管以后,支持通过下述方式驱动数字人说话: 文本驱动方式:对应Command命令为“INSERT_PLAY_SCRIPT”,即插入表演脚本,用于互动回复。数字人不变时,
视频制作界面如图1所示。各区域详细说明,如表1所示。 用户使用数字人形象创作的视频,都会自动保存在MetaStudio控制台首页“最近项目”区域的“视频项目”页签中。用户可以根据实际情况,进行二次创作。 图1 视频制作界面 表1 界面说明 序号 区域名称 说明 1 视频素材区域 设置视频的场景,包括如下
在直播间制作界面,如果添加视频,且视频格式为FLV、3GP、WMV、AVI时,无法展示视频播放效果,仅能图片展示。这是浏览器不兼容导致的,但是不影响直播效果。直播过程中,这些插入的视频可以正常播放和展示。 视频要求如下所示: 分辨率最大支持1080P。 帧率小于等于30fps。 编码为AV1、H264或H265格式。
Integer 生成文本在列表中的索引值,从0开始计算。 表8 MessageItem 参数 是否必选 参数类型 描述 content 是 String 对话内容。 取值最小长度1,最大长度4096。 请求参数“is_stream”取值为“true”时,响应Body体中的参数说明,如表6所示。
如何实时切换智能交互的语言和声音? 在展厅等智能交互场景中,会有切换智能交互界面,数字人说话语言和声音的需求。 请参考下述步骤操作: 登录MetaStudio控制台。 如果是展厅场景,需要切换到“华北-北京四”区域。因为展厅的配置,均在“华北-北京四”区域。 在左侧导航栏中,选择“我的创作”。 界面右侧选择“智能交互
本地打开PPT文件,在左上方的导航栏中,选择“文件 > 导出”。 选择创建视频,可以设置每张幻灯片放映的时间等参数。 单击“创建视频”,在弹出的对话框中,选择本地存放目录,并设置视频名称。 单击“保存”,生成视频文件。 视频文件生成后,需要在视频制作界面的“视频”页签,导入使用。 请注意:视频中PPT每页
配置特殊词表 支持全局设置多音字或者别名,设置完成后,所有视频草稿自动生效。 操作步骤 登录MetaStudio控制台。 在左侧导航栏中,单击“我的创作”。 选择“声音”页签,单击界面右侧的“特殊词表”,进入如图1所示的界面。 图1 特殊词表 单击“新建词表”,界面新增一行特殊词,如图2所示。
PPTPageInfo objects PPT页面图片。 表13 PPTPageInfo 参数 参数类型 描述 page_no Integer 参数解释: 页面编号。 约束限制: 不涉及 取值范围: 1-256 file_id String 参数解释: 页面对应图片文件ID。 约束限制: 不涉及
如何实时切换智能交互的语言和声音? 在展厅等智能交互场景中,会有切换智能交互界面,数字人说话语言和声音的需求。 请参考下述步骤操作: 登录MetaStudio控制台。 如果是展厅场景,需要切换到“华北-北京四”区域。因为展厅的配置,均在“华北-北京四”区域。 在左侧导航栏中,选择“我的创作”。 界面右侧选择“智能交互
解码H265(HEVC)视频时,Chrome等浏览器将无法播放H265(HEVC)视频,并获取不到视频分辨率等参数。 在Chrome浏览器中输入“chrome://gpu”后,搜索“coding”。可以检查当前PC的浏览器是否支持H265(HEVC)视频解码。 图2 查看浏览器配置
工具运行界面 单击“选择webm文件”,选择WEBM格式的视频。 等待视频格式转换完成。请注意,视频格式转换过程中,一定不能关闭如图2所示的2个窗口。 图2 工具运行界面 视频转换过程中,工具的同级目录下面会出现一些过程文件,请勿移动或删除,待视频格式转换完成后,会自动删除。 图3 工具目录
高品质:约5个工作日。 自定义声音应用方式,如下所示: 自定义声音生成后,会自动展示在MetaStudio控制台声音列表中,可用于分身数字人视频制作、视频直播或智能交互等场景中。 通过MetaStudio的API调用自定义声音。 父主题: 声音制作
智能交互驱动停止对话流程图 图5 智能交互驱动心跳保活流程图 图6 智能交互驱动超时流程图 图7 智能交互驱动任务结束流程图 流程图总体说明 流程图示例中详细的接口交互说明,如下所示: 用户请求建立WebSocket连接 用户发送文本驱动消息 用户发送中断对话的消息 用户发送结束对话的消息 用户发送心跳请求消息