检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
文本驱动SSML定义 MetaStudio语音驱动采用语音合成标记语言(SSML,Speech Synthesis Markup Language)来控制数字人的行为,包括动作、情绪以及TTS语音合成的多音字、停顿等。 SSML基础定义可参考语音合成标记语言版本 1.0。Meta
智能交互驱动 前提条件 智能交互驱动流程 智能交互驱动WebSocket接口 父主题: 智能交互
智能交互驱动WebSocket接口 终端节点获取方式 智能交互驱动WebSocket接口终端节点的获取方式,如表1所示。 表1 终端节点获取方式 场景 获取方式 未通过WEB SDK调用场景 终端节点地址从接口启动数字人智能交互任务的响应参数chat_access_address中获取。
智能交互驱动停止对话流程图,如图4所示。 智能交互驱动心跳保活流程图,如图 智能交互驱动心跳保活流程图所示。 智能交互驱动超时流程图,如图6所示。 智能交互驱动任务结束流程图,如图7所示。 智能交互驱动WebSocket接口说明,如智能交互驱动WebSocket接口所示。 图1 智能交互非流式驱动流程图 图2 智能交互流式驱动流程图
务,通过高效的训练和推理服务,重塑千行百业的电商直播。 数字人模型生成和驱动:基于一张照片或者一段3-5分钟视频,可以生成分身数字人模型,生成效率相比业界提升3倍以上。在数字人模型生成以后,可以通过模型驱动推理服务,让数字人动起来,包括声音、表情、口型、肢体动作等,口型匹配准确率>95%,表情、动作更自然。
前提条件 需要申请开通智能交互权限后,才可集成智能交互SDK,并使用Websocket接口驱动数字人。 父主题: 智能交互驱动
47010114 第三方文本驱动失败,文本长度超过最大值 第三方文本驱动失败,文本长度超过最大值 第三方文本驱动请携带正确长度的文本数据 400 MSS.47010115 第三方文本驱动失败,seq参数小于最小值 第三方文本驱动失败,seq参数小于最小值 第三方文本驱动请携带正确的seq参数信息
图1 创建应用 表1 创建应用 参数 说明 第三方应用 从下拉框中选择“第三方驱动”。 应用名称 输入自定义的应用名称。 “互动问答”页签配置完成后,还需执行下述操作,对应的操作流程图,如图2所示。 下载并集成智能交互Web SDK,操作请参考智能交互SDK。 在Web SDK的c
完整性校验 操作说明 对下载的SDK安装包进行完整性校验,判断下载过程是否存在篡改和丢包现象。 操作步骤 参考下载SDK安装包,下载SDK安装包至本地。 打开本地命令运行程序,输入如下命令,在本地生成SDK安装包的SHA256值。 其中,“D:\HwICSUiSdk-1.0.0.
AudioDriveActionConfig objects 语音驱动时的动作配置。 audio_drive_file_external_url String 语音驱动音频文件外部下载URL。 说明: 需要先申请开通白名单后,才允许通过外部URL的音频文件来驱动分身数字人视频。 background_config
BusinessCardImageUrl object 用于制作数字人名片的图片下载URL。 introduction_type String 自我介绍驱动方式。 TEXT: 文本驱动,即通过TTS合成语音 AUDIO: 语音驱动,需要在资产库中先上传语音资产 默认取值: TEXT introduction_text
制作好数字人后,可以不购买路数进行直播吗? 数字人模型只能通过MetaStudio服务驱动,不与其他第三方服务兼容。数字人形象制作与视频直播是两个独立的功能,需各自计费。可通过包周期或按需计费方式购买路数。 视频直播间的场景布置好之后,可以通过捕捉网页画面或RTMP推流的方式向第
使用要求 WebSDK版本为3.0.1及以上。 仅支持数字人平台配置或内置ASR(语音转文本)能力的方案。不支持WebSocket接口驱动数字人方案,即文本驱动方案。 在调用create接口之前,必须要有用户点击集成WebSDK的页面的行为。 浏览器通过有上述点击的行为,才能获取采集声音
API的方式人工接管直播。人工接管以后,支持通过下述方式驱动数字人说话: 文本驱动方式:对应Command命令为“INSERT_PLAY_SCRIPT”,即插入表演脚本,用于互动回复。数字人不变时,背景不变。其参数结构定义为“PlayTextInfo”。 音频驱动方式:对应Command命令为“IN
画布制作完成后,再制作语音。 选择“文本驱动”的方式。在文本输入框中,输入文本内容,以生成音频,如图2所示。 文本示例:今天是9月26日,星期二,天气晴朗,欢迎大家到访。我们精心布置了现场,室内摆放了各类植物和鲜花,场地宽敞明亮,足够大家在室内共同交流和活动。 图2 文本驱动 音频制作完成后,可单击音量图标,调整音频的音量。
图3所示。 用户可以执行如下操作: 单击视频,预览视频播放效果。 单击“再次制作”,可再次制作照片数字人视频。 单击“下载至本地”,下载照片数字人视频至本地。下载后的文件为mp4格式。 图3 照片数字人视频生成成功 父主题: 照片数字人
单目视觉驱动路数 包月 包周期 语音驱动时长 按需 按需 单目视觉驱动时长 按需 按需 风格化单照片建模10000次套餐包 按需套餐包 语音驱动10小时套餐包 按需套餐包 语音驱动100小时套餐包 按需套餐包 语音驱动500小时套餐包 按需套餐包 单目视觉驱动免费试用套餐包 按需套餐包
画布左侧展示字幕内容,支持修改字幕内容、调整字幕样式。 须知:“音频驱动”方式目前仅支持中文普通话的场景开启字幕。 图标 展示当前视频的宽高比。 图标 第一次单击可折叠“文本驱动/视频驱动”,第二次单击后恢复展示。 音频驱动 需从本地上传已录制好的音频。音频文件格式需要为WAV、MP3或M4A,大小不能超过100M。
华为云MetaStudio分身数字人驱动算法 表1 分身数字人驱动算法 算法项 描述 算法名称 华为云MetaStudio分身数字人驱动算法 备案编号 网信算备520111252474601240045号 算法基本原理 分身数字人驱动算法是指通过深度学习生成数字人驱动模型,模型生成后,输入音频来合成数字人视频的一种技术。
务、陪练等场景任务。 1.5秒超低时延交互 实时驱动极低延时,保障用户真实体验。 多模型数字人大脑 华为云智能问答机器人CBS 华为云盘古大模型 科大讯飞星火交互大模型及AIUI 能力开放可集成 智能交互端侧Web SDK 形象驱动API 数字人大脑API 数字人能力开放,多种合作模式灵活选择