检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
String 自我介绍驱动方式。 TEXT: 文本驱动,即通过TTS合成语音。文本驱动需要填写introduction_text和voice_asset_id参数。 AUDIO: 语音驱动,需要在资产库中先上传语音资产。语音驱动需要填写introduction_audio_asset_id参数。
String 自我介绍驱动方式。 TEXT: 文本驱动,即通过TTS合成语音。文本驱动需要填写introduction_text和voice_asset_id参数。 AUDIO: 语音驱动,需要在资产库中先上传语音资产。语音驱动需要填写introduction_audio_asset_id参数。
用于制作数字人名片的图片下载URL。 introduction_type String 自我介绍驱动方式。 TEXT: 文本驱动,即通过TTS合成语音 AUDIO: 语音驱动,需要在资产库中先上传语音资产 默认取值: TEXT introduction_text String 自我介绍文本,用于驱动数字人口型。 voice_asset_id
去之后AI自动生成了一大段文字,基本不用修改,直接复制出来使用就可以。 下一个功能是文字语音互转,在新版本中我们新增很多音色。 基本上市面上听到的解说声音都可以在喵影找到,以刚刚AI生成的文案为例。 我们只需要复制这个文案添加到字幕轨道中,找到文字转语音的按钮,选择“电影解说”
条新返回了“饭了么”,则第二条text值为“饭了么”,需要将两条通知的text值拼接在一起才是完整的内容。 文本问答的用法 智能交互默认是语音问答,如需使用文本问答,需要切换模式。可以通过下述2种方式处理: 在开始对话时设置。使用startChat接口开启对话时,设置成文本问答模式,如下所示:
文本驱动,即通过TTS合成语音 AUDIO: 语音驱动 默认取值: TEXT text_config TextConfig object 讲解词配置。 audio_drive_action_config Array of AudioDriveActionConfig objects 语音驱动时的动作配置。
购买出门问问语音合成套餐包。 标准版视频制作:必须使用标准版形象,声音不支持使用Flexus声音。 按视频制作时长计费,计费项为“分身数字人视频制作”,详见计费说明。 系统声音免费使用。第三方声音的计费方式,详见购买出门问问语音合成套餐包。 画布制作完成后,再制作语音。 支持下述
TextLayerConfig 参数 是否必选 参数类型 描述 text_context 否 String 参数解释: 文字图层的文本,内容需做Base64编码。 示例:若想添加文字水印“测试文字水印”,那么text_context的值为:5rWL6K+V5paH5a2X5rC05Y2w 约束限制:
Promise<void> 【功能说明】 初始化语音唤醒资源,不使用语音唤醒能力则忽略该接口。 3.0.1之后的websdk包里面有如下两个资源文件,如果不使用语音唤醒,可忽略这两个文件。 wasmData.js:语音唤醒的算法资源文件。 modelData.js:语音唤醒的模型资源文件。 SDK内
的功能申请对应的系统权限并向用户告知征得其同意。 权限 权限描述 使用目的 获取麦克风权限 获取浏览器的麦克风设备权限 开始语音交互时,用于进行语音识别文字,获取交互答案 四、延迟初始化要求 为了避免您的应用在未获取用户的同意前SDK提前处理用户的个人信息。我们提供了智能交互任务
选择“分身名片”页签,如图1所示。 在“分身名片”页面,可以看到已生成的名片列表,以卡片形式排列展示。 支持对名片进行如下操作: 单击,查看分身数字人的语音表达形态。 单击“下载”,将名片下载至本地查看。下载后的文件为mp4格式。 单击,在弹出的下拉框中,可查看名片详情、重命名或删除名片。 图1
VDS_3D:3D视觉驱动 TTSA_3D:3D语音驱动 FLEXUS_2D:flexus版本资源 sub_resource_type String 子资源类型。当前只有flexus套餐包存在该字段 voice_clone_flexus: 语音克隆Flexus版 modeling_co
TextLayerConfig 参数 是否必选 参数类型 描述 text_context 否 String 参数解释: 文字图层的文本,内容需做Base64编码。 示例:若想添加文字水印“测试文字水印”,那么text_context的值为:5rWL6K+V5paH5a2X5rC05Y2w 约束限制:
分身数字人费用:包括分身数字人形象制作、声音制作、分身数字人视频制作、分身数字人视频直播、照片数字人视频制作和分身数字人名片制作的费用。 3D数字人费用:包括照片建模、语音驱动和视觉驱动的费用。 资产管理费用:即服务资产管理的费用。 父主题: 计费咨询
直播间限制 直播间配置 限制 文本驱动 每个单场景中所有段落输入文字的总量需大于200字。 每个段落的文本字符数量需小于2000,如果包含语音合成标记语言SSML标签,需小于3000。 整个直播间所有段落的文本总字符数,如果包含语音合成标记语言SSML标签时,需小于30万。 音频驱动 每
单击“确认”,头像上传完成。 性别 选择性别“男生”或“女生”。 声音 提供下述种方式,生成名片预览语音片段。 播报内容生成后,单击右侧的“试听”,可以试听播报效果。 语音上传:本地录制音频后上传。音频格式需要为WAV或MP3格式,音频大小不超过20MB,时长不超过5分钟。
文本驱动,即通过TTS合成语音 AUDIO: 语音驱动 默认取值: TEXT text_config TextConfig object 讲解词配置。 audio_drive_action_config Array of AudioDriveActionConfig objects 语音驱动时的动作配置。
TextLayerConfig 参数 是否必选 参数类型 描述 text_context 否 String 参数解释: 文字图层的文本,内容需做Base64编码。 示例:若想添加文字水印“测试文字水印”,那么text_context的值为:5rWL6K+V5paH5a2X5rC05Y2w 约束限制:
一个视频制作剧本,仅支持使用一个数字人模型和一个音色模型。 文本驱动 每个单场景输入文字的数量不超过1万字。 所有场景输入文字的数量不超过10万字。 每个单场景如果包含语音合成标记语言SSML标签,文字数量需小于128K。 音频驱动 每个单场景上传音频的大小不超过100M。 视频格式
声音制作任务管理 查询用户配置的个性化音频时长 创建基础版语音训练任务 创建进阶版语音训练任务 创建高级版语音训练任务 查询语音训练任务列表 提交语音训练任务 查询语音训练任务详情 删除语音训练任务 查询任务操作日志 获取语音文件上传地址 获取语音训练任务审核结果 设置任务批次 确认在线录音结果