检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
speakingStart 数字人开始讲话事件。 × √ speakingStop 数字人结束讲话事件。 × √ speechRecognized ASR对提问进行语音识别后输出为文本的事件。 × √ semanticRecognized LLM对提问进行语义识别后输出回复文本的事件。speechReco
MetaStudio不支持个人用户定制声音,仅支持企业用户。 定制声音时,从平台下载的授权书中有明确说明,定制音色需授权给公司使用。 操作前准备 用户创建声音制作任务前,需要参考操作步骤准备如下内容: 使用“语料上传”方式上传语音文件前,需参考声音制作页面的“录音指导”,提前录制好音频。 声音授权签署文件,如授权书所示。
ANIMATION: VDS服务,从RTC房间拉视频流生成动作数据 RENDER: 渲染服务,将动作数据渲染成数字人动画 PLAYER: 普通观看方,可选择原始视频流或者数字人动画视频流观看 INFERENCE_USER: 数字人推理端用户。从RTC房间接收音频流,并推送视频流到RTC房间
参数类型 描述 X-Auth-Token 否 String 用户Token。使用Token鉴权方式时必选。 通过调用IAM服务获取用户Token接口获取。 响应消息头中X-Subject-Token的值。 Authorization 否 String 使用AK/SK方式认证时必选,携带的鉴权信息。
文本驱动,即通过TTS合成语音 AUDIO: 语音驱动 默认取值: TEXT text_config TextConfig object 讲解词配置。 audio_drive_action_config Array of AudioDriveActionConfig objects 语音驱动时的动作配置。
参数类型 描述 X-Auth-Token 否 String 用户Token。使用Token鉴权方式时必选。 通过调用IAM服务获取用户Token接口获取。 响应消息头中X-Subject-Token的值。 Authorization 否 String 使用AK/SK方式认证时必选,携带的鉴权信息。
普通观看方,可选择原始视频流或者数字人动画视频流观看 INFERENCE_USER: 数字人推理端用户。从RTC房间接收音频流,并推送视频流到RTC房间 END_USER: 端侧用户。从推送音频流到RTC房间,并从RTC房间接收视频流 user_id String RTC用户ID。 signature String
播报内容生成后,单击右侧的“试听”,可以试听播报效果。 语音上传:本地录制音频后上传。音频格式需要为WAV或MP3格式,音频大小不超过20MB,时长不超过5分钟。 在线录音:在线录制音频。录音时长不能超过5分钟,为保证音频生成的效果,请保持录音环境安静无噪音。支持试听录制生成的语音。 文本驱动:通过输入文本,
PlatformLiveDetailInfo 参数 参数类型 描述 platform_id String 直播平台ID。 platform String 直播平台。美团填写meituan account String 授权账号信息。 美团平台对应:opBizCode live_id String 直播ID。如果配置,则段落切换回调中会携带该信息。
PlatformLiveDetailInfo 参数 参数类型 描述 platform_id String 直播平台ID。 platform String 直播平台。美团填写meituan account String 授权账号信息。 美团平台对应:opBizCode live_id String 直播ID。如果配置,则段落切换回调中会携带该信息。
使用的功能申请对应的系统权限并向用户告知征得其同意。 权限 权限描述 使用目的 获取麦克风权限 获取浏览器的麦克风设备权限 开始语音交互时,用于进行语音识别文字,获取交互答案 四、延迟初始化要求 为了避免您的应用在未获取用户的同意前SDK提前处理用户的个人信息。我们提供了智能交互
能。 无论您身处何地,只需一声令下,机器人将立即响应,提供真正个性化的服务。 智慧管家可以通过语音识别和自然语言处理技术,与您或家人进行交互和对话。 您只需对它说出您的需求,它就会立刻执行。 无论是预约洗衣服务、订餐、调节家居温度还是其他家务,智慧管家都能轻松胜任。 智慧管家可以
参数类型 描述 X-Auth-Token 否 String 用户Token。使用Token鉴权方式时必选。 通过调用IAM服务获取用户Token接口获取。 响应消息头中X-Subject-Token的值。 Authorization 否 String 使用AK/SK方式认证时必选,携带的鉴权信息。
文本驱动,即通过TTS合成语音 AUDIO: 语音驱动 默认取值: TEXT text_config TextConfig object 讲解词配置。 audio_drive_action_config Array of AudioDriveActionConfig objects 语音驱动时的动作配置。
否 String 参数解释: 脚本类型,即视频制作的驱动方式 约束限制: 不涉及 取值范围 TEXT: 文本驱动,即通过TTS合成语音 AUDIO: 语音驱动 默认取值: TEXT text_config 否 TextConfig object 讲解词配置。 audio_drive_action_config
进入视频制作界面,界面详情如图1所示。 图1 视频制作界面 在画布区域,设置角色、背景、贴图、视频等内容。 详细操作请参见视频制作素材操作详情。 画布制作完成后,再制作语音。 选择“文本驱动”的方式。在文本输入框中,输入文本内容,以生成音频,如图2所示。 文本示例:今天是9月26日,星期二,天气晴朗,欢迎大家
热词类型。 说明: SIS:使用的语音识别服务为SIS时选此类型 vocabulary_id String 热词ID(sis中配置)。 sis_project_id String SIS服务所在区域projectId region Integer 对接SIS服务的区域。 说明: 0:北京四;3:上海一;
热词类型。 说明: SIS:使用的语音识别服务为SIS时选此类型 vocabulary_id String 热词ID(sis中配置)。 sis_project_id String SIS服务所在区域projectId region Integer 对接SIS服务的区域。 说明: 0:北京四;3:上海一;
基本不用修改,直接复制出来使用就可以。 下一个功能是文字语音互转,在新版本中我们新增很多音色。 基本上市面上听到的解说声音都可以在喵影找到,以刚刚AI生成的文案为例。 我们只需要复制这个文案添加到字幕轨道中,找到文字转语音的按钮,选择“电影解说” 这个配音,点击进行转换,然后稍作等待,大家就能听到熟悉的声音。
参数类型 描述 X-Auth-Token 否 String 用户Token。使用Token鉴权方式时必选。 通过调用IAM服务获取用户Token接口获取。 响应消息头中X-Subject-Token的值。 Authorization 否 String 使用AK/SK方式认证时必选,携带的鉴权信息。