检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
文本驱动:通过输入文本的方式生成音频。文本支持插入停顿、调整语速,如果是多音字可设置正确的发音,还可以选择不同的声音,试听生成的音频效果。支持开启字幕展示功能。 音频驱动:从本地上传音频文件,作为视频的语音。音频驱动方式,仅支持中文普通话的场景下能开启字幕。 还可以设置音频的音量,和调整画布的横竖屏展示。
用户Token。通过调用IAM服务获取用户Token接口获取,响应消息头中X-Subject-Token的值。 请求参数 表5、表6和表7中的请求参数为WebSocket建连成功后,用户与数字人对话的请求参数。 表5 请求Message参数 参数 是否必选 参数类型 描述 request_id
用于生成WHOLE_MODEL的模型file_id 约束限制: 如果当前记录的信息与MAIN文件的file_id一致,那就认为已经生成过,无需再进行全模型导出 取值范围: 字符长度0-64位。 默认取值: 不涉及。 load_model_file_id String 参数解释: 当前用于渲染加载的模型file_id
句之间有2~3秒的停顿。音频时长3~10分钟,建议5分钟。 请完善声音信息 输入声音名称,示例:欢快女声。 请选择声音性别 选择声音的性别,示例:女生。 原始输入语言 选择声音的原始输入语言,示例:中文。 选择声音标签 声音的标签。请根据所选文案样例,选择相应的标签,如下所示: 营销:营销宣传风格文案
问答机器人ID CBS控制台的“智能问题机器人”页面中,问题机器人列表中“问题机器人名称/ID”列的ID值。界面详情请参见图3。 委托站点 从下拉框中选择用户购买CBS服务的问答机器人所在Region。 委托 需要授予MetaStudio服务CBS服务的访问权限。 首次委托的站点,需要开启委托开关。详细操作如下所示:
与科大讯飞平台应用的“APPKEY”保持一致,如查看应用信息-APPKEY所示。 APISECRET 与科大讯飞平台应用的“APISECRET”保持一致,如查看应用信息-APISECRET所示。 对接生产环境 对接科大讯飞现网的自然语言模型,具体以“第三方应用”配置的模型为准,可提升应用运行的稳定性。
角色名称 输入分身数字人的角色名称。 示例:云笙。 训练视频 从本地上传已录制好,且符合拍摄要求的人像视频。 录制的视频要求4K,时长建议5~6分钟,分辨率≥1080P,宽高比16:9(横屏)或9:16(竖屏),建议优先使用竖屏拍摄。支持MP4、MOV格式的视频。 背景替换 选择“
用户也可以使用批量导入的方式,一次性添加完成问题类别及其所有问答对。操作方式如下所示: 在左侧导航栏中,选择“知识库 > 问答管理”。 单击界面右侧的“导入”,弹出“导入训练语料”对话框。 图7 导入训练语料 单击“下载模板”,将语料模板下载至本地。 请按照模板文件的格式,填充完成所有问题分类及其全量语料对,保存文件。
问答机器人ID CBS控制台的“智能问题机器人”页面中,问题机器人列表中“问题机器人名称/ID”列的ID值。界面详情请参见图3。 委托站点 从下拉框中选择用户购买CBS服务的问答机器人所在Region。 委托 需要授予MetaStudio服务CBS服务的访问权限。 首次委托的站点,需要开启委托开关。详细操作如下所示:
720P的视频输出。 4K:4K。支持4K、1080P及720P的视频输出。 默认取值: 1080P device_names 否 Array of strings 参数解释: 已执行编译任务设备类型列表。 约束限制: 支持走动的数字人,当前仅用于视频制作,不能用于直播和智能交互
API使用限制 使用API调用声音的限制说明 用户使用视频直播或智能交互接口调用音色时,需要先确认能否在MetaStudio控制台的视频直播间编辑界面或智能交互对话设置页面,选到当前音色。 如果界面正常展示且可以选择此音色使用,说明接口可以正常调用此音色,否则接口无法调用。 API流控
txt~19.txt。 语音文件和文本文件逐句上传:每次上传一句语料的语音文件和文本文件,再调用“确认在线录音结果”接口确认语音和文本内容是否一致。确认成功后再上传和确认下一句。 文件上传后,调用“提交语音训练任务”接口,启动审核和训练。 调用方法 请参见如何调用API。 URI POST
txt~99.txt。 语音文件和文本文件逐句上传:每次上传一句语料的语音文件和文本文件,再调用“确认在线录音结果”接口确认语音和文本内容是否一致。确认成功后再上传和确认下一句。 文件上传后,调用“提交语音训练任务”接口,启动审核和训练。 调用方法 请参见如何调用API。 URI POST
开启卡片区域右上角的开关。 单击卡片区域右下角的开关,在弹出的“技能设置”对话框中选择需要使用的技能版本。 此时,应用已具备基础的对话能力,可以回答已配置的语料内容。 图4 配置应用需要的技能 单击右上方的“保存配置”。界面提示“保存成功”,回到“应用配置”页面。 单击界面右上方的“保存修
API概览 华为云MetaStudio服务对应的接口列表如下所示,在调用API前,您需要先获取用户Token,Token可以用于调用其他API时鉴权,具体如何调用API请参考应用示例。 数字资产管理 表1 数字资产管理接口 接口 说明 POST /v1/{project_id}/digital-assets
字体。当前支持的字体请参考服务支持的字体 约束限制: 不涉及。 取值范围: 字符长度0-64位 默认取值: HarmonyOS_Sans_SC_Black font_size Integer 参数解释: 字体大小(像素)。接口的取值范围为0-120,实际业务使用的取值范围要求为4-120,请以业务实际使用要求为准。
获取。 响应消息头中X-Subject-Token的值。 Authorization 否 String 使用AK/SK方式认证时必选,携带的鉴权信息。 X-Sdk-Date 否 String 使用AK/SK方式认证时必选,请求的发生时间。 格式为(YYYYMMDD'T'HHMMSS'Z')。
template_own_type 否 String 按照自己拥有的和别人分享以及公共的模板进行查询 OWNED 自己拥有且暂未共享的 SHARED_TO_OHTERS 分享给别人的 SHARED_FROM_OHTERS 别人分享给我的 PUBLIC 公共模板 请求参数 表3 请求Header参数
分身数字人X轴位置,即分身数字图片底边中心点像素的X轴的像素值。 横屏(16:9)背景图片像素为1920x1080;竖屏(9:16)背景图片像素为1080x1920。 取值范围: -1920-3840 position_y 否 Integer 分身数字Y轴位置,即分身数字图片底边中心点像素的Y轴的像素值。 横屏(
参数解释: 字体。当前支持的字体请参考服务支持的字体 约束限制: 不涉及。 取值范围: 字符长度0-64位 默认取值: HarmonyOS_Sans_SC_Black font_size Integer 参数解释: 字体大小。接口的取值范围为0-120,实际业务使用的取值范围要求为24-120,请以业务实际使用要求为准。