检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
系统声音免费使用。第三方声音的计费方式,详见购买出门问问语音合成套餐包。 画布制作完成后,再制作语音。 支持下述2种方式生成语音。每个场景仅支持选择一种音频生成方式。 文本驱动 在文本输入框中,输入文本内容,以生成音频,如图1所示。 文本示例:今天是9月26日,星期二,天气晴朗,欢迎大家到访。我们精心布置了
推荐使用单声道录制音频。 苹果手机的简易录音机默认为单声道录制,无需修改。 音频格式 推荐使用无损音质格式保存音频,如WAV、MP3格式。 音频命名 所有语料录制生成一个长音频WAV或MP3文件,命名示例:Voice.wav。 音频导出 操作如下所示: 打开简易录音机软件,单击底部的“播放”菜单,进入“播放”页面。
创建用户并授权使用MetaStudio 如果您需要对您所拥有的MetaStudio进行精细的权限管理,您可以使用统一身份认证服务(Identity and Access Management,简称IAM),通过IAM,您可以: 根据企业的业务组织,在您的华为云账号中,给企业中不同
Integer 响应生成时间。 choices Array of ChatChoice objects 生成的文本列表。 表7 ChatChoice 参数 是否必选 参数类型 描述 message 是 表8 objects 生成文本的内容。 index 是 Integer 生成文本在列表中的索引值,从0开始计算。
避免头部大幅度转动或者摆动,避免嘴巴被遮挡,可能造成口型异常。 视频中需保证仅出现录制者及其声音。如果出现其他人物形象或声音,将会影响口型生成效果和声音克隆效果。 避免动作幅度过大超出画面;避免相机距离人过远;建议人脸在画面中的占比超过1/5。 15秒静默状态时,需正视镜头,面带微笑,嘴巴闭合,保持静默。
分享给其他用户使用。 获取数字人互动页面URL的方式还有:进入“我的创作 > 智能交互 > 对话项目”页面,单击智能交互对话项目右侧的“生成URL并复制”,将URL分享给其他用户使用。 图4 智能交互对话项目 父主题: 创建智能交互数字人(二次开发场景)
新增1个视频草稿,默认会有1个场景,用户可以自定义此场景,也可以保持不变。MetaStudio按文件页面依次生成对应的场景,即一个页面对应生成一个场景。 不同的操作的含义为: 复制当前场景:插入的文件页面直接复制第一个场景,粘贴生成新场景,即新场景中完全复用第一个场景的背景、数字人等内容,同时再包含文件的选中页面。
X-Request-Id 否 String 请求requestId,用来标识一路请求,用于问题跟踪定位,建议使用uuId,若不携带,则后台自动生成 X-Auth-Token 否 String 用户Token。使用Token鉴权方式时必选。 通过调用IAM服务获取用户Token接口获取。
WAIT_GENERATE_ACTION: 等待原子动作生成 WAIT_ARRANGE: 等待编排 ACTION_GENERATE_DATA_PROCESSING: 原子动作生成中 MANUAL_STOP_ACTION_GENERATE_DATA_PROCESSING: 人工中止动作生成 MANUAL_STOP
分享给其他用户使用。 获取数字人互动页面URL的方式还有:进入“我的创作 > 智能交互 > 对话项目”页面,单击智能交互对话项目右侧的“生成URL并复制”,将URL分享给其他用户使用。 图3 智能交互对话项目 复制URL至浏览器中,访问数字人互动页面。 界面弹出激活码输入对话框,请参考下述操作获取激活码:
用数字人哪怕一条就3000播放,但是工序简单、成本低呀,把文字输到软件里,选择好人物形象和声音直接生成,一个人一天做100条完全不费劲,那一天就是30万的播放量。 如果大家已经有了完整的视频生产流程和稳定的流量,那么可以考虑生成个人的数字人,现在很多大咖在运用数字人以后,整体数据也没有太大的下滑。 期间
分享给其他用户使用。 获取数字人互动页面URL的方式还有:进入“我的创作 > 智能交互 > 对话项目”页面,单击智能交互对话项目右侧的“生成URL并复制”,将URL分享给其他用户使用。 图3 智能交互对话项目 父主题: 创建智能交互数字人(第三方语言模型)
分享给其他用户使用。 获取数字人互动页面URL的方式还有:进入“我的创作 > 智能交互 > 对话项目”页面,单击智能交互对话项目右侧的“生成URL并复制”,将URL分享给其他用户使用。 图3 智能交互对话项目 复制URL至浏览器中,访问数字人互动页面。 界面弹出激活码输入对话框,请参考下述操作获取激活码:
subtitle_file_state String 字幕文件生成状态。 GENERATING:字幕文件生成中。 GENERATE_SUCCEED:字幕文件生成成功。 GENERATE_FAILED:字幕文件生成失败。 job_id String 字幕文件生成任务ID。 表23 PreviewInfo
String 用户类型。 CAPTURE: 直播助手,将摄像头获取视频流推送到RTC房间 ANIMATION: VDS服务,从RTC房间拉视频流生成动作数据 RENDER: 渲染服务,将动作数据渲染成数字人动画 PLAYER: 普通观看方,可选择原始视频流或者数字人动画视频流观看 INFERENCE_USER:
1864标准计算出消息体的MD5摘要字符串,即消息体128-bit MD5值经过base64编码后得到的字符串。 md5值获取详情请参考使用Java代码生成文件内容的MD5值。 约束限制: 不涉及 取值范围: 字符长度24位。 默认取值: 不涉及 file_size 是 Long 参数解释: 文件总的大小。
配置的参数最多。 包含如下选项: 初阶模型 中阶模型 高阶模型 多轮对话 是否开启多轮会话。 如果开启,会根据上下文的信息进行语义理解,以生成连贯的对话。 业务ID 仅特殊定制的业务模型需要配置。 所在城市 智能交互面向的城市。 提示词 用户长时间不提问时,互动数字人的提示语。
subtitle_file_state 否 String 字幕文件生成状态。 GENERATING:字幕文件生成中。 GENERATE_SUCCEED:字幕文件生成成功。 GENERATE_FAILED:字幕文件生成失败。 job_id 否 String 字幕文件生成任务ID。 响应参数 状态码: 200 表22
subtitle_file_state 否 String 字幕文件生成状态。 GENERATING:字幕文件生成中。 GENERATE_SUCCEED:字幕文件生成成功。 GENERATE_FAILED:字幕文件生成失败。 job_id 否 String 字幕文件生成任务ID。 响应参数 状态码: 200 表22
减少视频底噪。 建议使用小蜜蜂或其他专业麦克风搭配相机进行拍摄,会大幅降低视频底噪和其他环境噪声。但请注意:尽量隐藏麦克风不被拍摄到,否则生成的数字人形象会一直包含麦克风。 收音常见问题 如果我拍摄过程中有人闯入或出现突发声音,如雷声、汽车喇叭声等,要重新拍摄吗? 根据以往的录制