检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
入剧本,平台自动解析输入内容。 直播剧本包含下述设置: 剧本驱动 支持下述三种方式任选其一: 文本驱动:输入文本,通过文本驱动数字人说话。 音频驱动:上传音频,通过音频驱动数字人说话。 即兴直播:无需设置剧本,直接开播。开播后数字人是不说话的,需要发送互动内容,或者开启真人接管,驱动数字人说话。
关键词搜索框,可输入数字人名称进行精准搜索。 示例:yun lan。 刷新图标。如果有关键词,按照关键词进行刷新展示;如果没有关键词,恢复为默认展示。 筛选条件 支持通过角色、性别、姿势、行业、区域和分辨率的维度,筛选展示下方的数字人。 数字人列表 默认展示全量数字人。单击数字人形象,自动替换更新至视频直播的当前场景中。
模特面部要求 请淡妆出镜,且妆面造型保持干净整洁,避免脸部过油引起反光。 不佩戴眼镜、墨镜或帽子,需要露出额头与眉毛。 确保面部无零散发丝,保证无法通过头发空隙看到背景。 男性模特确保面部没有较长零散的胡须。 父主题: 拍摄真人视频
示在“我的创作 > 分身名片”页面。 用户在控制台进行智能交互操作,生成的对话项目和技能,会展示在“我的创作 > 智能交互”页面。 一类是通过本地上传或者接收资产管理员转移的资产生成的,会展示在“我的创作 > 资源”页面。 父主题: 资产管理
概览 如需使用华为云MetaStudio服务定制分身数字人形象,需要参考拍摄真人视频,完成分身数字人形象的采集工作。 请注意,分身数字人形象的制作效果与拍摄录制的内容效果有较大关联,为了后续能够体验到更好的数字人应用效果,我们建议您详细阅读每一节内容,并严格按照各章节内容为标准进行拍摄。
支持的格式为:MP3、WAV。 大小不超过20MB,时长不超过5分钟。 文本驱动 文本驱动方式的要求如下所示: 文本输入长度不超过2000字。 通过文本合成的音频时长不能超过5分钟。 在照片数字人制作页面,选择“文本驱动”方式驱动照片说话时,需要输入文本并选择音色,再单击“试听”预估音
中,选择正确的发音或者自定义发音。 须知: 这里设置的多音字,仅对当前视频草稿有效,如需全局生效,可参考配置特殊词表配置。 别名 选中需要通过别名播报的文本内容 ,单击“别名”,设置为实际播报的内容。 须知: 这里设置的别名,仅对当前视频草稿有效,如需全局生效,可参考配置特殊词表配置。
支持使用智能交互API或SDK,自主开发实现与数字人对话场景。 智能导购、文旅导览、智能问答、营业厅客服、智能陪练等。 数字人名片 支持为分身数字人制作形象名片,且支持通过名片来试听语音效果。 - 照片数字人 支持上传正面清晰的人像照片,生成会说话的照片数字人视频。 -
关键词搜索框,可输入数字人名称进行精准搜索。 示例:yun lan。 刷新图标。如果有关键词,按照关键词进行刷新展示;如果没有关键词,恢复为默认展示。 筛选条件 支持通过角色、性别、姿势、行业、区域、分辨率和动作的维度,筛选展示下方的数字人。 数字人列表 默认展示全量数字人。单击数字人形象,自动替换更新至视频草稿的所有场景中。
钟。 在线录音:在线录制音频。录音时长不能超过5分钟,为保证音频生成的效果,请保持录音环境安静无噪音。支持试听录制生成的语音。 文本驱动:通过输入文本,选择声音的方式,生成播报内容。不能超过2000字。 单击声音图标,会弹出声音对话框,可以选择需要使用的声音。 无标注的系统声音,均为免费声音,可直接选用。
可根据实际需要,上传外部知识库和问答库给大模型学习。 前提条件 使用奇妙问前,需提交工单申请使用手机号注册账号。 操作步骤 访问奇妙问,输入有效手机号和验证码,或者通过密码方式登录。 图1 奇妙问 单击“登录”,进入奇妙问“创建角色”页面,如图2所示。 图2 创建角色 在左侧导航栏中,选择“我的知识库”,进入“我的知识库”页面,如图3所示。
文本:用于在画布中添加文本。 2 画面布局区域 视频画面制作区域,可以制作和预览视频画面。 3 音频制作区域 音频制作区域,可选择下述1种方式生成音频。 文本驱动:通过输入文本的方式生成音频。文本支持插入停顿、调整语速,如果是多音字可设置正确的发音,还可以选择不同的声音,试听生成的音频效果。支持开启字幕展示功能。
所有语料录制生成一个长音频WAV或MP3文件,命名示例:Voice.wav。 音频导出 操作如下所示: 打开超级录音机软件,进入音频文件列表页面。 通过长按音频文件的方式,选中所有文件,单击分享图标,可选择隔空投送或其他第三方应用导出音频文件至PC中。 一个长音频文件无需压缩,可直接上传至
<word></word>标签用于设置选中文字为连读模式。 MetaStudio包含多种TTS音色,每种音色支持的SSML标签能力是有差异的,请通过“查询资产详情”接口,获取每个音色支持使用的标签。 speak标签 描述 <speak></speak>:SSML文本的根节点。 语法 1
请求Header参数 参数 是否必选 参数类型 描述 X-Auth-Token 否 String 用户Token。使用Token鉴权方式时必选。 通过调用IAM服务获取用户Token接口获取。 响应消息头中X-Subject-Token的值。 Authorization 否 String
metastudio.modeling.enterpriselivepackage 包含: 形象制作5个 声音制作5个 视频制作5路 说明: 查询接口中通过business_type来区分3种类型。 智能交互基础版 路 包年包月 hws.resource.type.metastudio.modeling