检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
获取在线录音确认结果 功能介绍 获取在线录音确认结果。 调用方法 请参见如何调用API。
确认在线录音结果 功能介绍 确认在线录音结果。 调用方法 请参见如何调用API。
在线录音:在线录制音频。录音时长不能超过5分钟,为保证音频生成的效果,请保持录音环境安静无噪音。支持试听录制生成的语音。 文本驱动:通过输入文本,选择声音的方式,生成播报内容。不能超过2000字。 单击声音图标,会弹出声音对话框,可以选择需要使用的声音。
如有多个字,需单击“+”号图标,依次输入各文字的拼音。 图2 新建词表 单击新增特殊词右侧的“确定”,新增成功。 如有更多特殊词,可参考上述步骤依次添加完成。添加完成后,将全局生效,无需在视频草稿中重复设置。 支持在“特殊词表”界面执行下述操作。
获取在线录音确认结果
备注 1 <prosody rate="50">大家好,我是MetaStudio数字人</prosody> word标签 描述 <word></word>:设置选中文字为连读模式。选中文字只能包含文字,不能有标点符号或者空格等字符。
在线录音:在线录制音频。录音时长不能超过5分钟,为保证音频生成的效果,请保持录音环境安静无噪音。支持试听录制生成的语音。 文本驱动:通过输入文本,选择声音的方式,生成播报内容。不能超过2000字。 单击声音图标,会弹出声音对话框,可以选择需要使用的声音。
示例:若想添加文字水印“测试文字水印”,那么text_context的值为:5rWL6K+V5paH5a2X5rC05Y2w 约束限制: 不涉及。 取值范围: 字符长度0-1024位。 默认取值: 不涉及。 font_name 否 String 字体。
选择“开发者 > 开发支持”,进入“开发者在线提单”界面。 单击“开发业务”区域的“数字内容生产线MetaStudio”,进入“开发者在线提单”页面。 请根据界面,输入相应的问题描述和个人联系方式等信息。 单击“提交问题”。 服务会在收到问题单后,联系您处理。 父主题: FAQ
选择“开发者 > 开发支持”,进入“开发者在线提单”界面。 单击“开发业务”区域的“数字内容生产线MetaStudio”,进入“开发者在线提单”页面。 请根据界面,输入相应的问题描述和个人联系方式等信息。 单击“提交问题”。 服务会在收到问题单后,联系您处理。 父主题: 产品咨询
只需要上传文案就可以生成一条真人模特出镜,多语言的口播讲解介绍视频,还支持上传图片、产品视频、企业logo、添加文字贴图背景音乐等编辑功能。 目前已经支持桌面端、移动端安卓iOS都可以直接下载使用。 在九月,还将上线在线端,到时候只需要打开浏览器就可以制作数字人视频。
图5 文档清洗 表1 参数说明 参数 说明 分段设置 选择文字分段的方式。 包含如下选项: 自动分段:自动对文档进行分段处理。单击“自动分段”,“分段预览”区域会展示自动分段后的文本效果。 手动分段:自定义分隔符和分隔长度的方式,对文档进行分段处理。 索引配置 配置索引的类型。
MetaStudio分身数字人声音制作算法 表2 声音制作算法 算法项 描述 算法名称 华为云MetaStudio分身数字人声音制作算法 备案编号 网信算备520111252474601240079号 算法基本原理 分身数字人声音制作算法是指使用深度学习算法生成数字人声音模型,再使用该模型通过输入文字生成数字人语音的一种技术
文本驱动 每个单场景输入文字的数量不超过1万字。 所有场景输入文字的数量不超过10万字。 每个单场景如果包含语音合成标记语言SSML标签,文字数量需小于128K。 音频驱动 每个单场景上传音频的大小不超过100M。
在线生成SDK代码 API Explorer能根据需要动态生成SDK代码功能,降低您使用SDK的难度,推荐使用。 您可以在API Explorer中,具体API页面的“代码示例”页签查看对应编程语言类型的SDK代码,如图1 获取SDK代码示例所示。
表1 直播间限制 直播间配置 限制 文本驱动 每个单场景中所有段落输入文字的总量需大于200字。 每个段落的文本字符数量需小于2000,如果包含语音合成标记语言SSML标签,需小于3000。
单击“在线演示”,可以在界面右侧演示模型对话效果,如图4所示。 图4 在线演示 单击界面右上角的“保存”,在弹出的“保存成功”提示框中,单击“确定”。 角色创建完成。
多模型数字人大脑 华为云智能问答机器人CBS 华为云盘古大模型 科大讯飞星火交互大模型及AIUI 能力开放可集成 智能交互端侧Web SDK 形象驱动API 数字人大脑API 数字人能力开放,多种合作模式灵活选择 实名安全认证后,可使用控制台在线自助完成内容制作。
权限 权限描述 使用目的 获取麦克风权限 获取浏览器的麦克风设备权限 开始语音交互时,用于进行语音识别文字,获取交互答案 四、延迟初始化要求 为了避免您的应用在未获取用户的同意前SDK提前处理用户的个人信息。
取值范围: 只能使用中英文字符,字符长度0-256位。 默认取值: 不涉及。 asset_description 否 String 参数解释: 资产描述。 约束限制: 不涉及。 取值范围: 只能使用中英文字符,字符长度0-4096位。 默认取值: 不涉及。