检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
它们能够回答您的问题、提供天气预报、播放音乐等各种娱乐功能。 无论您身处何地,只需一声令下,机器人将立即响应,提供真正个性化的服务。 智慧管家可以通过语音识别和自然语言处理技术,与您或家人进行交互和对话。 您只需对它说出您的需求,它就会立刻执行。 无论是预约洗衣服务、订餐、调节家居温度还是其他家务,智慧管家都能轻松胜任。
目前仅视频制作支持数字人插入动作,如图1所示。在数字人卡片上有标识,说明当前数字人支持添加动作。 添加动作时需要注意,动作生效需要有足够的音频时间,如果音频太短,数字人可能来不及做动作。 图1 视频制作 父主题: 数字人
获取TTS试听文件 功能介绍 该接口用于获取TTS试听文件下载链接,返回List中包含当前已生产的试听文件。 调用方法 请参见如何调用API。 URI GET /v1/{project_id}/ttsc/audition-file/{job_id} 表1 路径参数 参数 是否必选
户体验的每一个细节。 21. 它采用了简洁、时尚的外观设计,不仅美观大方,而且易于使用和操作。 22. 同时,它还拥有一些独特的功能,如语音识别和手势控制等,使您可以更加方便地与它进行交互。 23. 此外,家用机器人还注重打造一个完整的生态系统,与其他智能设备进行无缝连接和协同工作。
复展示。 音频驱动 需从本地上传已录制好的音频。音频文件格式需要为WAV、MP3或M4A,大小不能超过100M。 可单击“导入”上传音频,也可以直接拖拽本地音频文件至提示区域中,完成上传。单击左侧的图标,可试听音频效果。如果音频效果不佳,可以单击“导入”,覆盖更新音频。 图2 音频驱动
创建TTS试听任务 功能介绍 该接口用于创建生成播报内容的语音试听文件任务。 第三方音色试听需要收费,收费标准参考:https://marketplace.huaweicloud.com/product/OFFI919400645308506112#productid=OFFI919400645308506112
3D数字人语音驱动 创建语音驱动任务 获取语音驱动任务列表 创建语音驱动表情动画任务 获取语音驱动表情数据 获取语音驱动数据 父主题: 3D数字人
第三方声音的费用均不同,详见语音合成界面下方的声音价格表。如魔郎朗声音的价格为30元/百万字符,那么使用魔郎朗声音进行视频制作合成时,生成音频的费用会从上面购买的套餐包中扣除。 图1 云商店 选择“语音合成体验套餐”,单击“立即购买”,进入购买页面。 下面以购买“语音合成体验套餐”为例,进行操作说明。
播报内容生成后,单击右侧的“试听”,可以试听播报效果。 语音上传:本地录制音频后上传。音频格式需要为WAV或MP3格式,音频大小不超过20MB,时长不超过5分钟。 在线录音:在线录制音频。录音时长不能超过5分钟,为保证音频生成的效果,请保持录音环境安静无噪音。支持试听录制生成的语音。 文
声音制作任务管理 查询用户配置的个性化音频时长 创建基础版语音训练任务 创建进阶版语音训练任务 创建高级版语音训练任务 查询语音训练任务列表 提交语音训练任务 查询语音训练任务详情 删除语音训练任务 查询任务操作日志 获取语音文件上传地址 获取语音训练任务审核结果 设置任务批次 确认在线录音结果
音乐:各类音乐列表,可本地导入音频文件。支持添加为背景音乐。 文本:用于在画布中添加文本。 2 画面布局区域 视频画面制作区域,可以制作和预览视频画面。 3 音频制作区域 音频制作区域,可选择下述1种方式生成音频。 文本驱动:通过输入文本的方式生成音频。文本支持插入停顿、调整语速,
声音制作方式 选择“基础版声音制作”,音频格式为WAV或MP3文件。需整段录制,每句之间有2~3秒的停顿。音频时长3~10分钟,建议5分钟。 请完善声音信息 输入声音名称,示例:欢快女声。 请制作声音 使用“语料上传”的方式,直接上传一个已录制好的长音频WAV或MP3文件,无需压缩,无需携带文案txt文件。
具设置的桌面音频设备与Windows系统的声音输出设备不一致导致。 检查方法如下所示: 检查OBS桌面音频设备 检查Windows系统的声音输出设备 检查OBS桌面音频设备 本地打开OBS视频采集工具。 在界面下方,选择“混音器”。 图1 OBS工具 单击“桌面音频”区域的图标,
数字人说话是文本驱动还是语音驱动? 数字人视频制作、视频直播、分身数字人名片和照片数字人都支持文本驱动和语音驱动的方式说话。 父主题: 数字人
查询语音训练任务列表 功能介绍 查询语音训练任务列表 调用方法 请参见如何调用API。 URI GET /v1/{project_id}/voice-training-manage/user/jobs 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String
视频采样格式为YUV420。 视频素材总大小小于1GB。 同时叠加的视频总数量为3,包含互动时配置的视频。 音频格式 音频支持的格式为:MP3、M4A、WAV。 音频要求如下所示: 仅提取单声道音频。 音频素材总大小小于500MB。 图片格式 图片支持的格式为:PNG、JPG、JPEG。 图片要求如下所示:
设置TTS租户级自定义读法配置 功能介绍 该接口用于设置TTS租户级自定义读法配置。 调用方法 请参见如何调用API。 URI POST /v1/{project_id}/ttsc/vocabulary-configs 表1 路径参数 参数 是否必选 参数类型 描述 project_id
获取TTS租户级自定义读法配置 功能介绍 该接口用于获取TTS租户级自定义读法配置。 调用方法 请参见如何调用API。 URI GET /v1/{project_id}/ttsc/vocabulary-configs 表1 路径参数 参数 是否必选 参数类型 描述 project_id
停止说话(注:接口已重命名为stopUserSpeak,请直接切换至新接口)。 × √ stopUserSpeak 用户停止提问(注:此处只是停止ASR接收用户语音,对话仍处于激活态)。 × √ unmuteRemoteAudio 数字人取消静音。 √ √ activeInteractionMode
zip,下载如表1所示的音频文件。 mos分是从音色相似度、情感表达效果和声音音质方面,进行整体效果综合评分的结果。 表1 音频文件 版本 类别 原音文件 合成音文件 版本差异 适用场景 基础版声音制作 女声 基础版媒体1.wav 基础版媒体2.wav 支持手机录制20条语料音频(5分钟),