检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
闻播报、课件制作等场景模拟真人配音,提升数字内容生产效率。 算法运行机制 训练阶段: 用户上传一段真人语音音频及授权书作为输入。 音频经过人工安全审核和授权认证后,由训练人员标注用于训练的音频数据,使用深度学习算法训练生成数字人声音模型。 推理阶段: 用户上传一段文本作为输入文本内容,由系统自动审核。
更新分身数字人模型训练任务 功能介绍 该接口用于更新分身数字人模型训练任务。用于在自动审核或者人工审核不通过情况下,更新训练视频、身份证照片等。 该接口只能在AUTO_VERIFY_FAILED或者MANUAL_VERIFY_FAILED状态下调用 调用方法 请参见如何调用API。
一个视频草稿的场景数量不能超过50个。 文本驱动 每个单场景输入文字的数量不超过1万字。 所有场景输入文字的数量不超过10万字。 每个单场景如果包含语音合成标记语言SSML标签,文字数量需小于128K。 音频驱动 每个单场景上传音频的大小不超过100M。 视频格式 插入的视频素材支持的格式为
表达。数字人也可以被称之为虚拟形象、数字虚拟人、虚拟数字人等。数字人的核心技术主要包括计算机视觉、计算机图形学、动作捕捉和驱动、图像渲染和人工智能等。 服务型数字人:利用深度神经网络进行图像合成、高度拟真的虚拟人。 具备如下特点: 2D模型,通过拍摄真人视频训练生成 无表情&骨骼数据
r/training-segment 确认在线录音结果 GET /v1/{project_id}/voice-training-manage/user/training-segment 获取在线录音确认结果 语音合成管理 表27 语音合成管理接口 接口 说明 POST /v1/{
3次/秒 3次/秒 确认在线录音结果 10次/秒 3次/秒 3次/秒 获取在线录音确认结果 20次/秒 10次/秒 10次/秒 语音合成管理 创建TTS试听任务 5次/秒 3次/秒 3次/秒 获取TTS试听文件 20次/秒 10次/秒 10次/秒 创建TTS异步任务 5次/秒 3次/秒
3次/秒 3次/秒 确认在线录音结果 10次/秒 3次/秒 3次/秒 获取在线录音确认结果 20次/秒 10次/秒 10次/秒 语音合成管理 创建TTS试听任务 5次/秒 3次/秒 3次/秒 获取TTS试听文件 20次/秒 10次/秒 10次/秒 创建TTS异步任务 5次/秒 3次/秒
接口从资产库查出。 script_type 否 String 脚本类型,即视频制作的驱动方式。默认TEXT TEXT: 文本驱动,即通过TTS合成语音 AUDIO: 语音驱动 默认取值: TEXT text 否 String HTML格式的台词,可包含动作。最多2048个字符。 说明:
语言。 state String 任务状态。 CREATING: 创建中 SYSTEM_AUDITING: 系统审核中 AUDITING: 人工审核中 WAITING_SPLIT: 等待切割 SPLITTING: 切割中 SPLIT_FAILED: 切割失败 ANNOTATING:
取值范围: 90-240 默认取值: 140 provider String 第三方TTS供应商类型。 XIMALAYA:喜马拉雅TTS HUAWEI_EI:EI TTS MOBVOI:出门问问TTS language String 语言类型。默认值CN。 CN:简体中文。 EN:英语。
直播、培训视频、智能交互 高级版声音制作 女声 高级版媒体1.wav 高级版媒体2.wav 录音棚专业设备录制60分钟音频,3-5天制作,支持多轮人工调整,获得现场级高品质音色,mos分4.2。 父主题: 附录
视频合成失败如何处理? 视频合成失败时,请您根据界面提示信息进行问题定位及修改。 提示“视频名称包含非法字符” 请您根据要求修改导出文件名称中的敏感字符。 提示“资产名称重复” 请您根据要求重新修改导出文件的名称。 视频任务合成状态一直显示“待合成” 可能是由于当前视频任务正在等待队列中,请您耐心等待。
Web语音唤醒 产品预置了唤醒能力,详见预制唤醒能力,如果用户需要更新唤醒词,需要参考定制唤醒能力处理。唤醒模型定制完成后,产品会提供给用户,用户需要参考更新唤醒模型,将模型更新至本地模型路径中。 使用要求 WebSDK版本为3.0.1及以上。 仅支持数字人平台配置或内置ASR(
取值范围: 90-240 默认取值: 140 provider String 第三方TTS供应商类型。 XIMALAYA:喜马拉雅TTS HUAWEI_EI:EI TTS MOBVOI:出门问问TTS language String 语言类型。默认值CN。 CN:中文。 EN:英文。
语言。 state String 任务状态。 CREATING: 创建中 SYSTEM_AUDITING: 系统审核中 AUDITING: 人工审核中 WAITING_SPLIT: 等待切割 SPLITTING: 切割中 SPLIT_FAILED: 切割失败 ANNOTATING:
ATA_PREPROCESS:人工中止训练 ADMIN_STOP_BEAUTY_PREPROCESS:人工中止美白 ADMIN_STOP_INFERENCE_DATA_PREPROCESS:人工中止推理预处理 ADMIN_STOP_TRAIN:人工终止训练 SYSTEM_TRAIN_FAILED:训练失败
获取语音驱动数据 功能介绍 该接口用于获取生成的数字人驱动数据,包括语音、表情、动作等。 调用方法 请参见如何调用API。 URI GET /v1/{project_id}/ttsa-jobs/{job_id} 表1 路径参数 参数 是否必选 参数类型 描述 project_id
取值范围: 90-240 默认取值: 140 provider String 第三方TTS供应商类型。 XIMALAYA:喜马拉雅TTS HUAWEI_EI:EI TTS MOBVOI:出门问问TTS language String 语言类型。默认值CN。 CN:中文。 EN:英文。
政府和学校推广这种教育方式,希望能够培养出更多有创新思维和实践能力的人才。 一些学校也在增加艺术的要素,让学生得到更全面的教育。 人工智能在教育领域的应用越来越多。 虚拟现实、增强现实等技术正在被尝试和应用。 人工智能可以提供个性化的学习支持、智能评估等,帮助教师更好地理解学生的需求。 中国政府努力让更多人接受公平的教育,让更多人共享优质教育资源。
String 第三方TTS供应商类型。 XIMALAYA:喜马拉雅TTS HUAWEI_EI:华为云EI TTS MOBVOI:出门问问 TTS AUDIOX:逻辑智能 TTS SINOVOICE:捷通华声 TTS DATABAKER:标贝 TTS AISPEECH:思必驰 TTS 表12 PPTAssetMeta