检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数字人与用户进行智能交互对话时,语音识别不准确的专业词汇,可以作为热词反馈到语音模型,以提高语音识别的准确率。这里仅开启热词功能,实际的热词配置,请参见对话配置。 SIS委托站点 仅开启“委托语言交互服务(SIS)”后,才会展示“SIS委托站点”配置。
文本问答的用法 智能交互默认是语音问答,如需使用文本问答,需要切换模式。可以通过下述2种方式处理: 在开始对话时设置。
显示时长规则为,若携带reply_texts、reply_audios,则与播放语音内容时长保持一致。若未携带,则与匹配的关键词语音内容时长保持一致。
显示时长规则为,若携带reply_texts、reply_audios,则与播放语音内容时长保持一致。若未携带,则与匹配的关键词语音内容时长保持一致。
显示时长规则为,若携带reply_texts、reply_audios,则与播放语音内容时长保持一致。若未携带,则与匹配的关键词语音内容时长保持一致。
× √ speechRecognized ASR对提问进行语音识别后输出为文本的事件。 × √ semanticRecognized LLM对提问进行语义识别后输出回复文本的事件。
应用示例 示例1:上传资产 示例2:分身形象制作管理 示例3:声音制作任务管理 示例4:语音合成管理 示例5:视频制作 示例6:视频制作剧本管理 示例7:视频直播 示例8:视频直播对接实时音视频客户端SDK 示例9:资产管理 示例10:数字人名片制作 示例11:智能交互
voice_start:启动数字人实时语音播放。 voice_end:结束数字人实时语音播放。 “timing”为直播控制指令执行的时间,取值如下所示: NOW:立即执行指令。 SENTENCE_END:等待数字人播放至句末后,再执行当前指令。 父主题: 附录
具体下线时间请关注MetaStudio服务,会提前3个月在现网开放下线公告。 视频直播限制,如视频直播限制所示。 操作步骤 登录MetaStudio控制台。 在“工作台”界面,单击“分身视频直播”下方的“开始创建”。 进入分身数字人直播首页面,如图1所示。
购买语音包后试听一直转圈圈是为什么? 多语言的计费规则? 如何查看已购声音套餐明细? 分身形象或声音制作的不好,可以使用原有资源重新制作吗? 形象制作和声音制作支持退订吗? 制作好数字人后,可以不购买路数进行直播吗? 已购买包年/包月直播套餐,未到期为啥扣费? 为什么会欠费?
此功能暂未对外开放,如需使用,需提交工单申请。 支持删除资产。 数字人名片 支持为分身数字人制作形象名片。通过名片可以查看数字人形象和说话效果。 照片数字人 支持通过静态的人脸照片生成视频。 SP用户 MetaStudio支持SP模式,此模式对大客户开放,用于分销场景。
显示时长规则为,若携带reply_texts、reply_audios,则与播放语音内容时长保持一致。若未携带,则与匹配的关键词语音内容时长保持一致。
语音上传:本地录制音频后上传。音频格式需要为WAV或MP3格式,音频大小不超过20MB,时长不超过5分钟。 在线录音:在线录制音频。录音时长不能超过5分钟,为保证音频生成的效果,请保持录音环境安静无噪音。支持试听录制生成的语音。
TEXT: 文本驱动,即通过TTS合成语音。文本驱动需要填写introduction_text和voice_asset_id参数。 AUDIO: 语音驱动,需要在资产库中先上传语音资产。语音驱动需要填写introduction_audio_asset_id参数。
操作步骤 在AIUI开放平台界面上方的主菜单中,选择“产品接入 > 我的应用”。 单击新增应用所在行的图标,进入“应用配置”页面。 在左侧导航栏中,选择“应用数据统计 > 服务统计”,进入“服务统计”页面,如图1所示。 通过下图可以看出,科大讯飞免费赠送500次/天的问答交互。
TEXT: 文本驱动,即通过TTS合成语音。文本驱动需要填写introduction_text和voice_asset_id参数。 AUDIO: 语音驱动,需要在资产库中先上传语音资产。语音驱动需要填写introduction_audio_asset_id参数。
权限 权限描述 使用目的 获取麦克风权限 获取浏览器的麦克风设备权限 开始语音交互时,用于进行语音识别文字,获取交互答案 四、延迟初始化要求 为了避免您的应用在未获取用户的同意前SDK提前处理用户的个人信息。
TEXT: 文本驱动,即通过TTS合成语音 AUDIO: 语音驱动,需要在资产库中先上传语音资产 默认取值: TEXT introduction_text String 自我介绍文本,用于驱动数字人口型。
显示时长规则为,若携带reply_texts、reply_audios,则与播放语音内容时长保持一致。若未携带,则与匹配的关键词语音内容时长保持一致。
智能交互提供了如下主流平台SDK供开发者使用。 表1 客户端SDK 客户端 集成SDK 接口参考 Web Web SDK 接口参考 父主题: 智能交互客户端SDK