检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
应用示例 示例1:上传资产 示例2:分身形象制作管理 示例3:声音制作任务管理 示例4:语音合成管理 示例5:视频制作 示例6:视频制作剧本管理 示例7:视频直播 示例8:视频直播对接实时音视频客户端SDK 示例9:资产管理 示例10:数字人名片制作 示例11:智能交互
3D数字人 3D数字人风格管理 3D数字人风格化照片建模 3D数字人语音驱动 3D数字人视频驱动
接口参考 主入口(HwICSUiSdk) 事件通知(EventMap) 错误码(ICSError) 授权浏览器麦克风的访问权限 Web语音唤醒 父主题: Web SDK
表30 3D数字人语音驱动接口 接口 说明 POST /v1/{project_id}/ttsa-jobs 创建语音驱动任务 GET /v1/{project_id}/ttsa-jobs 获取语音驱动任务列表 POST /v1/{project_id}/ttsa/fas 创建语音驱动表情动画任务
数字人说话是文本驱动还是语音驱动? 数字人支持提供语义理解知识库吗? 数字人支持TTS和ASR吗?
如果提示信息为“自动审核不通过-人证不匹配”,可能原因如下所示: 人证校验时识别不到人脸,确保身份证照片无反光导致的内容或人像不清晰。 确保视频中的人脸清晰且与提交身份证中的人像保持一致。 视频方向可能不对,竖屏横拍的素材需要旋转,确保被拍摄对象为竖向。
画布制作完成后,再制作语音。 支持下述2种方式生成语音。每个场景仅支持选择一种音频生成方式。 文本驱动 在文本输入框中,输入文本内容,以生成音频,如图1所示。 文本示例:今天是9月26日,星期二,天气晴朗,欢迎大家到访。
购买语音包后试听一直转圈圈是为什么? 多语言的计费规则? 如何查看已购声音套餐明细? 分身形象或声音制作的不好,可以使用原有资源重新制作吗? 形象制作和声音制作支持退订吗? 制作好数字人后,可以不购买路数进行直播吗? 已购买包年/包月直播套餐,未到期为啥扣费? 为什么会欠费?
语音上传:本地录制音频后上传。音频格式需要为WAV或MP3格式,音频大小不超过20MB,时长不超过5分钟。 在线录音:在线录制音频。录音时长不能超过5分钟,为保证音频生成的效果,请保持录音环境安静无噪音。支持试听录制生成的语音。
voice_start:启动数字人实时语音播放。 voice_end:结束数字人实时语音播放。 “timing”为直播控制指令执行的时间,取值如下所示: NOW:立即执行指令。 SENTENCE_END:等待数字人播放至句末后,再执行当前指令。 父主题: 附录
TEXT: 文本驱动,即通过TTS合成语音。文本驱动需要填写introduction_text和voice_asset_id参数。 AUDIO: 语音驱动,需要在资产库中先上传语音资产。语音驱动需要填写introduction_audio_asset_id参数。
说明: SIS:使用的语音识别服务为SIS时选此类型 robot_id 是 String 应用ID。
说明: SIS:使用的语音识别服务为SIS时选此类型 vocabulary_id String 热词ID(sis中配置)。 sis_project_id String SIS服务所在区域projectId region Integer 对接SIS服务的区域。
TEXT: 文本驱动,即通过TTS合成语音。文本驱动需要填写introduction_text和voice_asset_id参数。 AUDIO: 语音驱动,需要在资产库中先上传语音资产。语音驱动需要填写introduction_audio_asset_id参数。
TEXT: 文本驱动,即通过TTS合成语音 AUDIO: 语音驱动,需要在资产库中先上传语音资产 默认取值: TEXT introduction_text String 自我介绍文本,用于驱动数字人口型。
请联系管理员检查 语音识别服务欠费不可用,请联系管理员检查 语音识别服务欠费不可用,请联系管理员检查 403 MSS.47015017 第三方驱动不支持此操作请通过驱动接口控制 第三方驱动不支持此操作请通过驱动接口控制 第三方驱动不支持此操作请通过驱动接口控制 500 MSS.47010002
显示时长规则为,若携带reply_texts、reply_audios,则与播放语音内容时长保持一致。若未携带,则与匹配的关键词语音内容时长保持一致。
画布制作完成后,再制作语音。 选择“文本驱动”的方式。在文本输入框中,输入文本内容,以生成音频,如图2所示。 文本示例:今天是9月26日,星期二,天气晴朗,欢迎大家到访。我们精心布置了现场,室内摆放了各类植物和鲜花,场地宽敞明亮,足够大家在室内共同交流和活动。
每个段落的文本字符数量需小于2000,如果包含语音合成标记语言SSML标签,需小于3000。 整个直播间所有段落的文本总字符数,如果包含语音合成标记语言SSML标签时,需小于30万。 音频驱动 每个单场景上传音频的时长需大于1分钟,大小不超过100M。
显示时长规则为,若携带reply_texts、reply_audios,则与播放语音内容时长保持一致。若未携带,则与匹配的关键词语音内容时长保持一致。