检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
画布制作完成后,再制作语音。 支持下述2种方式生成语音。每个场景仅支持选择一种音频生成方式。 文本驱动 在文本输入框中,输入文本内容,以生成音频,如图1所示。 文本示例:今天是9月26日,星期二,天气晴朗,欢迎大家到访。
文本问答的用法 智能交互默认是语音问答,如需使用文本问答,需要切换模式。可以通过下述2种方式处理: 在开始对话时设置。
应用示例 示例1:上传资产 示例2:分身形象制作管理 示例3:声音制作任务管理 示例4:语音合成管理 示例5:视频制作 示例6:视频制作剧本管理 示例7:视频直播 示例8:视频直播对接实时音视频客户端SDK 示例9:资产管理 示例10:数字人名片制作 示例11:智能交互
数字人与用户进行智能交互对话时,语音识别不准确的专业词汇,可以作为热词反馈到语音模型,以提高语音识别的准确率。这里仅开启热词功能,实际的热词配置,请参见对话配置。 SIS委托站点 仅开启“委托语言交互服务(SIS)”后,才会展示“SIS委托站点”配置。
× √ speechRecognized ASR对提问进行语音识别后输出为文本的事件。 × √ semanticRecognized LLM对提问进行语义识别后输出回复文本的事件。
voice_start:启动数字人实时语音播放。 voice_end:结束数字人实时语音播放。 “timing”为直播控制指令执行的时间,取值如下所示: NOW:立即执行指令。 SENTENCE_END:等待数字人播放至句末后,再执行当前指令。 父主题: 附录
购买语音包后试听一直转圈圈是为什么? 多语言的计费规则? 如何查看已购声音套餐明细? 分身形象或声音制作的不好,可以使用原有资源重新制作吗? 形象制作和声音制作支持退订吗? 制作好数字人后,可以不购买路数进行直播吗? 已购买包年/包月直播套餐,未到期为啥扣费? 为什么会欠费?
语音上传:本地录制音频后上传。音频格式需要为WAV或MP3格式,音频大小不超过20MB,时长不超过5分钟。 在线录音:在线录制音频。录音时长不能超过5分钟,为保证音频生成的效果,请保持录音环境安静无噪音。支持试听录制生成的语音。
权限 权限描述 使用目的 获取麦克风权限 获取浏览器的麦克风设备权限 开始语音交互时,用于进行语音识别文字,获取交互答案 四、延迟初始化要求 为了避免您的应用在未获取用户的同意前SDK提前处理用户的个人信息。
TEXT: 文本驱动,即通过TTS合成语音。文本驱动需要填写introduction_text和voice_asset_id参数。 AUDIO: 语音驱动,需要在资产库中先上传语音资产。语音驱动需要填写introduction_audio_asset_id参数。
权限 权限描述 使用目的 获取麦克风权限 获取浏览器的麦克风设备权限 开始语音交互时,用于进行语音识别文字,获取交互答案 对未成年人的保护 您承诺在您开始使用本服务时是成年人。如您是未成年人,则需要您的父母或监护人同意您使用本服务并同意相关服务条款。
TEXT: 文本驱动,即通过TTS合成语音。文本驱动需要填写introduction_text和voice_asset_id参数。 AUDIO: 语音驱动,需要在资产库中先上传语音资产。语音驱动需要填写introduction_audio_asset_id参数。
TEXT: 文本驱动,即通过TTS合成语音 AUDIO: 语音驱动,需要在资产库中先上传语音资产 默认取值: TEXT introduction_text String 自我介绍文本,用于驱动数字人口型。
显示时长规则为,若携带reply_texts、reply_audios,则与播放语音内容时长保持一致。若未携带,则与匹配的关键词语音内容时长保持一致。
按需计费 按需预付费套餐包 语音驱动 按照输入文本或语音驱动数字人口型、表情等动作的时长进行计费。 计费时优先使用套餐包中的额度,该额度使用完后,转按需付费。 语音驱动的含义:根据输入文本或语音驱动数字人口型、表情等动作。
它可以与您的家居设备无缝对接,让您通过语音控制,轻松完成各种家务活动。 家用机器人是您生活中的最佳助手,它为您带来了更为智能、便捷和舒适的生活体验。 这样的智能生活体验,不仅让您的生活变得更加便利,也让您的家庭更加温馨和谐。
画布制作完成后,再制作语音。 选择“文本驱动”的方式。在文本输入框中,输入文本内容,以生成音频,如图2所示。 文本示例:今天是9月26日,星期二,天气晴朗,欢迎大家到访。我们精心布置了现场,室内摆放了各类植物和鲜花,场地宽敞明亮,足够大家在室内共同交流和活动。
每个段落的文本字符数量需小于2000,如果包含语音合成标记语言SSML标签,需小于3000。 整个直播间所有段落的文本总字符数,如果包含语音合成标记语言SSML标签时,需小于30万。 音频驱动 每个单场景上传音频的时长需大于1分钟,大小不超过100M。
LIVE_2D:分身数字人视频直播 VIDEO_2D:分身数字人视频制作 CHAT_2D:分身数字人智能交互 BUSINESS_CARD_2D:分身数字人名片 PICTURE_2D:照片数字人视频 MODELING_3D:3D照片建模 VDS_3D:3D视觉驱动 TTSA_3D:3D语音驱动
audio_drive_action_config Array of AudioDriveActionConfig objects 语音驱动时的动作配置。 audio_drive_file_external_url String 语音驱动音频文件外部下载URL。