检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
常用概念 数字人 数字人是一种以数字形式存在于数字空间中的虚拟人物,它具有拟人或真人的外貌、行为特点,并具备一定的智能和情感,可以进行交互和表达。数字人也可以被称之为虚拟形象、数字虚拟人、虚拟数字人等。数字人的核心技术主要包括计算机视觉、计算机图形学、动作捕捉和驱动、图像渲染和人工智能等。
zh_CN:简体中文(已下线,请使用CN) en_US:英语(已下线,请使用EN) CN:中文 EN:英文 tail_silence_time 否 Integer 语音识别后端点静音时长默认500ms 取值范围: 0-3000 enable_question_audit 否 Boolean 提问文本审核开关 huawei_ei_cbs
-manage/user/training-segment 确认在线录音结果 GET /v1/{project_id}/voice-training-manage/user/training-segment 获取在线录音确认结果 语音合成管理 表27 语音合成管理接口 接口 说明
wav~19.wav;文本文件命名规则:0.txt~19.txt。 语音文件和文本文件逐句上传:每次上传一句语料的语音文件和文本文件,再调用“确认在线录音结果”接口确认语音和文本内容是否一致。确认成功后再上传和确认下一句。 文件上传后,调用“提交语音训练任务”接口,启动审核和训练。 调用方法
wav~99.wav;文本文件命名规则:0.txt~99.txt。 语音文件和文本文件逐句上传:每次上传一句语料的语音文件和文本文件,再调用“确认在线录音结果”接口确认语音和文本内容是否一致。确认成功后再上传和确认下一句。 文件上传后,调用“提交语音训练任务”接口,启动审核和训练。 调用方法
上一轮文本驱动未结束请等待 上一轮文本驱动未结束请等待 上一轮文本驱动未结束请等待 403 MSS.47015015 语音识别服务欠费不可用,请联系管理员检查 语音识别服务欠费不可用,请联系管理员检查 语音识别服务欠费不可用,请联系管理员检查 403 MSS.47015017 第三方驱动不支持此操作请通过驱动接口控制
图片、产品视频、企业logo、添加文字贴图背景音乐等编辑功能。 目前已经支持桌面端、移动端安卓iOS都可以直接下载使用。 在九月,还将上线在线端,到时候只需要打开浏览器就可以制作数字人视频。 我们可以看一些视频案例,以下这是视频都是利用万兴播爆数字人生成的营销视频,大家可以看看,整体效果还是蛮不错的,我们边看边聊~
视频制作 用户可以使用MetaStudio控制台首页的“分身视频制作”功能,制作数字人视频。 操作前准备 如果系统预置形象不满足要求,请参考形象制作,提前定制符合要求的分身数字人形象。 操作限制 MetaStudio控制台预置形象的有效使用期为3年,在2027年的年中前可放心使用
视频直播 用户可以使用分身数字人,创建直播间。 操作前准备 如果系统预置的数字人形象不满足要求,请参考形象制作,提前定制符合要求的分身数字人形象。 推荐使用Chrome浏览器访问MetaStudio控制台。 操作限制 MetaStudio控制台预置形象的有效使用期为3年,在202
视频制作限制 分身数字人视频制作限制说明,如表1所示。 表1 视频制作限制 视频制作配置 限制 场景 一个视频草稿的场景数量不能超过50个。 文本驱动 每个单场景输入文字的数量不超过1万字。 所有场景输入文字的数量不超过10万字。 每个单场景如果包含语音合成标记语言SSML标签,文字数量需小于128K。
照片数字人限制 照片数字人视频制作限制说明,如表1所示。 表1 照片数字人视频制作限制 照片数字人视频制作配置 限制 人像照片 制作照片数字人的人像照片拍摄要求,如下所示: 真人正面照,不支持动漫卡通形象;面部占比50%以上,侧脸俯仰角度不超过15度。 五官清晰无遮挡,目视前方。
直播控制HTTP Command命令说明 分身数字人直播过程中,支持通过HTTP API的方式人工接管直播。人工接管以后,支持通过下述方式驱动数字人说话: 文本驱动方式:对应Command命令为“INSERT_PLAY_SCRIPT”,即插入表演脚本,用于互动回复。数字人不变时,
视频制作界面说明 用户启动制作视频时,可以先了解下视频制作界面详情。 视频制作界面如图1所示。各区域详细说明,如表1所示。 用户使用数字人形象创作的视频,都会自动保存在MetaStudio控制台首页“最近项目”区域的“视频项目”页签中。用户可以根据实际情况,进行二次创作。 图1 视频制作界面
资源类型 MetaStudio计费中涉及的资源类型,包括商用资源类型、POC测试用需管理员分配的资源类型。 表1 商用资源类型(租户订购) 类别 资源名称 单位 计费模式 资源类型编码 备注 分身数字人 形象制作 个 一次性 hws.resource.type.metastudio
视频直播限制 分身数字人直播限制,如下所示: 直播间配置约束 直播任务退出说明 直播播放说明 直播内容审核说明 直播间配置约束 直播间配置限制,如表1所示。 表1 直播间限制 直播间配置 限制 文本驱动 每个单场景中所有段落输入文字的总量需大于200字。 每个段落的文本字符数量需
查询智能交互对话列表 功能介绍 该接口用于智能交互对话列表。 调用方法 请参见如何调用API。 URI GET /v1/{project_id}/smart-chat-rooms 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 项目ID,获取方法请参考获取项目ID。
语音同步合成WebSocket接口 前提条件 本接口目前仅支持“华北-北京四”和“华东-上海一”区域使用,且必须提交工单申请开通后才能使用。 使用本接口前,需要在MetaStudio控制台服务概览页面,开通“声音合成”的按需计费。 详细操作为:单击“声音合成”卡片中的“去开通”,
更新资产 功能介绍 该接口用于更新资产库中的媒体资产信息。 调用方法 请参见如何调用API。 URI PUT /v1/{project_id}/digital-assets/{asset_id} 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String
更新智能交互对话信息 功能介绍 该接口用于智能交互对话信息。 调用方法 请参见如何调用API。 URI PUT /v1/{project_id}/smart-chat-rooms/{room_id} 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String
查询商品详情 功能介绍 Show product 调用方法 请参见如何调用API。 URI GET /v1/{project_id}/products/{product_id} 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 项目ID,获取方法请参考获取项目ID。