检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
尾静音时长 云端对音频进行VAD检测,发现一句话末尾的静音时长超过500ms,会结束语音识别。建议该值大于500ms。 委托语言交互服务(SIS) 如需使用热词功能,请开启委托授权。SIS服务用于将用户口述音频转换为文本。
声音模型可实现文本转语音,应用于数字人视频制作、直播、交互问答等场景中。不同版本录制规格如下: 基础版:整段录制生成一个WAV或MP3格式音频,总时长3~10分钟,建议5分钟。 进阶版:整段录制生成一个WAV或MP3格式音频,总时长10~30分钟,建议15分钟。
其基本情况包括: 输入数据:真人语音音频 。 算法原理:通过深度学习算法,学习真人语音音频生成数字人声音模型,通过该模型,输入文本生成数字人语音。 输出结果:接近真人音色的数字人语音。 应用领域:分身数字人声音制作算法可以应用于数字人视频合成时的语音配音。
已支持TTS(文本转语音),详见创建TTS异步任务。MetaStudio不提供ASR(语音转文本),用户如有ASR需求,可以查看语音交互服务或其他ASR服务。 图1 视频制作 父主题: 产品咨询
已支持TTS(文本转语音),详见创建TTS异步任务。MetaStudio不提供ASR(语音转文本),用户如有ASR需求,可以查看语音交互服务或其他ASR服务。 图1 视频制作 父主题: FAQ
应用示例 示例1:上传资产 示例2:资产管理 示例3:分身形象制作管理 示例4:声音制作任务管理 示例5:语音合成管理 示例6:语音同步合成WebSocket接口(Android SDK) 示例7:语音同步合成WebSocket接口(iOS SDK) 示例8:视频制作 示例9:视频制作剧本管理
尾静音时长 云端对音频进行VAD检测,发现一句话末尾的静音时长超过500ms,会结束语音识别。建议该值大于500ms。 委托语言交互服务(SIS) 如需使用热词功能,请开启委托授权。SIS服务用于将用户口述音频转换为文本。
表1 停售产品 类别 商品名称 计费模式 3D数字人 风格化单照片建模 按需 按需 单目视觉驱动路数 包月 包周期 语音驱动时长 按需 按需 单目视觉驱动时长 按需 按需 风格化单照片建模10000次套餐包 按需套餐包 语音驱动10小时套餐包 按需套餐包 语音驱动100小时套餐包
使用Web语音唤醒能力唤醒数字人时。 【回调参数】 无。 enterSleep 【事件说明】 数字人自动休眠事件。 【回调参数】 无。 jobInfoChange 【事件说明】 变更交互任务信息的事件。交互任务状态发生变化时,会通知使用方。
文本问答的用法 智能交互默认是语音问答,如需使用文本问答,需要切换模式。可以通过下述2种方式处理: 在开始对话时设置。
次/秒 3次/秒 确认在线录音结果 10次/秒 3次/秒 3次/秒 获取在线录音确认结果 20次/秒 10次/秒 10次/秒 语音合成管理 创建TTS试听任务 5次/秒 3次/秒 3次/秒 获取TTS试听文件 20次/秒 10次/秒 10次/秒 创建TTS异步任务 5次/秒 3次/
尾静音时长 云端对音频进行VAD检测,发现一句话末尾的静音时长超过500ms,会结束语音识别。建议该值大于500ms。 委托语言交互服务(SIS) 如需使用热词功能,请开启委托授权。SIS服务用于将用户口述音频转换为文本。
次/秒 3次/秒 确认在线录音结果 10次/秒 3次/秒 3次/秒 获取在线录音确认结果 20次/秒 10次/秒 10次/秒 语音合成管理 创建TTS试听任务 5次/秒 3次/秒 3次/秒 获取TTS试听文件 20次/秒 10次/秒 10次/秒 创建TTS异步任务 5次/秒 3次/
外观定制:您可以选择机器人的颜色、形状、材质等,甚至可以更换外壳,以适应不同场景和氛围。 182. 例如,您可以将机器人定制为可爱的卡通外形,或是设计成简约时尚的现代风格。 183. 语音助手设置:您可以根据自己的偏好选择机器人的语音助手角色和声音风格。 184.
可以单击画布区域上方的图标,切换视频画面比例为横屏“16:9”或竖屏“9:16”。 Flexus分身数字人左上角会有标识。未带有标识的数字人均为标准版形象。 需注意Flexus视频制作和标准版视频制作分开计费,从各自的套餐包中扣除费用。
接口参考 主入口(HwICSUiSdk) 事件通知(EventMap) 错误码(ICSError) 授权浏览器麦克风的访问权限 Web语音唤醒 父主题: Web SDK
获取在线录音确认结果 语音合成管理 表27 语音合成管理接口 接口 说明 POST /v1/{project_id}/ttsc/audition 创建TTS试听任务 GET /v1/{project_id}/ttsc/audition-file/{job_id} 获取TTS试听文件
购买语音包后试听一直转圈圈是为什么? 多语言的计费规则? 如何查看已购声音套餐明细? 分身形象或声音制作的不好,可以使用原有资源重新制作吗? 形象制作和声音制作支持退订吗? 制作好数字人后,可以不购买路数进行直播吗? 已购买包年/包月直播套餐,未到期为啥扣费? 为什么会欠费?
voice_start:启动数字人实时语音播放。 voice_end:结束数字人实时语音播放。 “timing”为直播控制指令执行的时间,取值如下所示: NOW:立即执行指令。 SENTENCE_END:等待数字人播放至句末后,再执行当前指令。 父主题: 附录
权限 权限描述 使用目的 获取麦克风权限 获取浏览器的麦克风设备权限 开始语音交互时,用于进行语音识别文字,获取交互答案 四、延迟初始化要求 为了避免您的应用在未获取用户的同意前SDK提前处理用户的个人信息。