检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
不支持Edge浏览器。 视频素材总大小小于1GB。 同时叠加的视频总数量最多支持2个。 音频格式 音频支持的格式为:MP3、M4A、WAV。 音频要求如下所示: 仅提取单声道音频。 音频素材总大小小于500MB。 图片格式 图片支持的格式为:PNG、JPG、JPEG。 图片要求如下所示:
热词记录ID。 robot_id String 应用ID。 hot_words_type String 热词类型。 说明: SIS:使用的语音识别服务为SIS时选此类型 vocabulary_id String 热词ID(sis中配置)。 sis_project_id String
is_ifly_production Boolean 是否为正式环境 默认取值: false tail_silence_time Integer 语音识别后端点静音时长默认500ms 取值范围: 0-3000 role_id String 奇妙问角色ID。 sis_region Integer
is_ifly_production Boolean 是否为正式环境 默认取值: false tail_silence_time Integer 语音识别后端点静音时长默认500ms 取值范围: 0-3000 role_id String 奇妙问角色ID。 sis_region Integer
购买语音包后试听一直转圈圈是为什么? 需要检查已购买的第三方声音AK/SK是否配置正确,详见购买出门问问声音套餐。如果配置有误,则无法使用。 父主题: 计费咨询
PROCESSING:数字人的工作状态。数字人会根据直播任务中预置的文本或音频进行直播。 PLAY_PAUSE:数字人直播暂停状态。此时数字人会处于静默状态,等待恢复剧本播放的指令。 TAKE_OVER:真人接管状态。MetaStudio直播服务会获取RTC通道中来自主播端的音频,实时驱动数字人进行直播。 PLAY_END:退出直播任务状态。
基础版声音制作:需整段录制生成一个WAV或MP3格式的音频文件,时长3~10分钟,建议5分钟。 进阶版声音制作:需整段录制生成一个WAV或MP3格式的音频文件,时长10~30分钟,建议15分钟。 高品质声音制作:需整段录制生成一个WAV或MP3格式的音频文件,时长1小时以上,建议1小时。 每种
zh_CN:简体中文(已下线,请使用CN) en_US:英语(已下线,请使用EN) CN:中文 EN:英文 tail_silence_time 否 Integer 语音识别后端点静音时长默认500ms 取值范围: 0-3000 enable_question_audit 否 Boolean 提问文本审核开关
80。 音频 音频录制要求,如下所示: 单声道音频。 清晰人声无背景音乐与杂音。 音频格式要求,如下所示: 支持的格式为:MP3、WAV。 大小不超过20MB,时长不超过5分钟。 文本驱动 文本驱动方式的要求如下所示: 文本输入长度不超过2000字。 通过文本合成的音频时长不能超过5分钟。
文本驱动SSML定义 MetaStudio语音驱动采用语音合成标记语言(SSML,Speech Synthesis Markup Language)来控制数字人的行为,包括动作、情绪以及TTS语音合成的多音字、停顿等。 SSML基础定义可参考语音合成标记语言版本 1.0。Meta
zh_CN:简体中文(已下线,请使用CN) en_US:英语(已下线,请使用EN) CN:中文 EN:英文 tail_silence_time 否 Integer 语音识别后端点静音时长默认500ms 取值范围: 0-3000 enable_question_audit 否 Boolean 提问文本审核开关
用于互动回复。数字人不变时,背景不变。其参数结构定义为“PlayTextInfo”。 音频驱动方式:对应Command命令为“INSERT_PLAY_AUDIO”,即插入驱动音频,用于音频直接驱动。数字人不变时,背景不变。其参数结构定义为“PlayAudioInfo”。 控制数
本次变更如下: 语音合成管理接口组,新增接口:创建TTS异步任务、获取TTS异步任务。 声音制作任务管理接口组,新增接口:查询用户配置的个性化音频时长、设置任务批次。 2024-10-30 第十一次正式发布 本次变更如下: 新增接口组:租户管理。 2024-08-20 第十次正式发布
语音驱动时的动作配置。 audio_drive_file_external_url String 语音驱动音频文件外部下载URL。 说明: 需要先申请开通白名单后,才允许通过外部URL的音频文件来驱动分身数字人视频。 background_config Array of BackgroundConfigInfo
reply_audios 否 Array of ReplyAudioInfo objects 参数解释: 回复音频集。填写audio_url。 约束限制: 不涉及 取值范围: 最大支持5条预置音频。 默认取值: 不涉及 reply_order 否 String 参数解释: 回复话术选择次序。 约束限制:
签,导入使用。 请注意:视频中PPT每页播放的时间如果与对应音频的时长不匹配,需要将完整的PPT视频按页切割成独立的子视频,一一上传至视频制作界面,按场景依次添加使用。添加后的视频支持仅播放一次,或者循环播放,直至音频播报结束。 父主题: 视频制作
界面操作详情,如表1所示。 表1 界面操作说明 区域 说明 声音制作方式 选择“出门问问声音制作”。音频时长为0.5~180分钟,建议5分钟。音频格式为WAV或MP3文件,支持19种语言的声音制作。 音频总时长,建议5分钟;单段不低于5秒 如果剩余次数为0,可单击“立即购买”,参考购买出门问
调整段落在场景中的位置。 :新增1个空白段落。 图3 开播界面 音频驱动 单击“上传音频”,从本地上传已录制好的音频,如图4所示。 每个音频不能超过100M,支持WAV、M4A和MP3格式,每个场景的音频总时长不能低于1分钟。 开播后会直接播放音频,声音是音频原有声音。用户也可以设置主播和助播的声音,
动解析输入内容。 直播剧本包含下述设置: 剧本驱动 支持下述三种方式任选其一: 文本驱动:输入文本,通过文本驱动数字人说话。 音频驱动:上传音频,通过音频驱动数字人说话。 即兴直播:无需设置剧本,直接开播。开播后数字人是不说话的,需要发送互动内容,或者开启真人接管,驱动数字人说话。
Flexus分身数字人制作任务会同时生成一个Flexus形象和一个Flexus声音,所以也需要提供音频。 单独上传语料包:单独录制音频文件,需要单击下方的“点击上传音频文件”,上传音频。 音频格式支持WAV、MP3,单段音频时长1~5分钟,建议1分钟。语料中的语言仅支持中文和英文。 视频中提取声音:直