检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
系统会对用户的提问音频进行检测,如果一句话末尾的静音时长超过500ms,会结束语音识别。 建议取值大于500ms。 热词 数字人与用户进行智能交互对话时,语音识别不准确的专业词汇,可以作为热词反馈到语音模型,以提高语音识别的准确率。 单击热词后面的问号图标,在提示框中单击“查看教程”,可以查看配置视频。
播报内容生成后,单击右侧的“试听”,可以试听播报效果。 语音上传:本地录制音频后上传。音频格式需要为WAV或MP3格式,音频大小不超过20MB,时长不超过5分钟。 在线录音:在线录制音频。录音时长不能超过5分钟,为保证音频生成的效果,请保持录音环境安静无噪音。支持试听录制生成的语音。 文本驱动:通过输入文本,
script_type String 参数解释: 脚本类型,即视频制作的驱动方式 约束限制: 不涉及 取值范围 TEXT: 文本驱动,即通过TTS合成语音 AUDIO: 语音驱动 默认取值: TEXT text_config TextConfig object 讲解词配置。 audio_drive_action_config
使用的功能申请对应的系统权限并向用户告知征得其同意。 权限 权限描述 使用目的 获取麦克风权限 获取浏览器的麦克风设备权限 开始语音交互时,用于进行语音识别文字,获取交互答案 四、延迟初始化要求 为了避免您的应用在未获取用户的同意前SDK提前处理用户的个人信息。我们提供了智能交互
play_mode 否 String 参数解释: 驱动方式。 约束限制: 不涉及。 取值范围: TEXT:文本驱动,即通过TTS合成语音。 AUDIO:语音驱动。 NO_PRESET:无预置剧本,人工控制模式。 默认取值: TEXT random_play_mode 否 String
speakingStart 数字人开始讲话事件。 speakingStop 数字人结束讲话事件。 speechRecognized ASR对提问进行语音识别后输出为文本的事件。 semanticRecognized LLM对提问进行语义识别后输出回复文本的事件。speechRecogniz
true play_mode String 参数解释: 驱动方式。 约束限制: 不涉及。 取值范围: TEXT:文本驱动,即通过TTS合成语音。 AUDIO:语音驱动。 NO_PRESET:无预置剧本,人工控制模式。 默认取值: TEXT random_play_mode String
startChat新增入参,参考表14,用来设置交互模式(语音问答/文本问答)。 新增接口activeInteractionMode、interactionModeSwitch、sendTextQuestion,用来获取和设置当前交互模式(语音问答或文本问答),以及发送问题文本。 2024-10-08
47000016 join room preprocess task fail 请重试,如果失败请联系技术支持 MSS.47000017 tts preheat task fail 请重试,如果失败请联系技术支持 MSS.47000018 package is not a valid
与数字人对话场景。 智能导购、文旅导览、智能问答、营业厅客服、智能陪练等。 数字人名片 支持为分身数字人制作形象名片,且支持通过名片来试听语音效果。 - 照片数字人 支持上传正面清晰的人像照片,生成会说话的照片数字人视频。 -
参数解释: 图片显示时长,单位s。 显示时长规则为,若携带reply_texts、reply_audios,则与播放语音内容时长保持一致。若未携带,则与匹配的关键词语音内容时长保持一致。 取值范围: 0-3600 默认取值: 0 表12 SmartVideoLayerConfig 参数
它可以帮助您更轻松地完成各种任务,为您带来更便捷、舒适和智能的生活体验。 家用机器人内置了丰富的功能和应用,能够满足您多样化的需求。 它可以与您的家居设备无缝对接,让您通过语音控制,轻松完成各种家务活动。 家用机器人是您生活中的最佳助手,它为您带来了更为智能、便捷和舒适的生活体验。 这样的智能生活体验,不仅让您的
play_mode 否 String 参数解释: 驱动方式。 约束限制: 不涉及。 取值范围: TEXT:文本驱动,即通过TTS合成语音。 AUDIO:语音驱动。 NO_PRESET:无预置剧本,人工控制模式。 默认取值: TEXT random_play_mode 否 String
照片建模的含义:根据单张照片自动生成3D风格化基础模型。 按需计费 按需预付费套餐包 语音驱动 按照输入文本或语音驱动数字人口型、表情等动作的时长进行计费。 计费时优先使用套餐包中的额度,该额度使用完后,转按需付费。 语音驱动的含义:根据输入文本或语音驱动数字人口型、表情等动作。 按需计费 按需预付费套餐包 视觉驱动
play_mode 否 String 参数解释: 驱动方式。 约束限制: 不涉及。 取值范围: TEXT:文本驱动,即通过TTS合成语音。 AUDIO:语音驱动。 NO_PRESET:无预置剧本,人工控制模式。 默认取值: TEXT random_play_mode 否 String
script_type String 参数解释: 脚本类型,即视频制作的驱动方式 约束限制: 不涉及 取值范围 TEXT: 文本驱动,即通过TTS合成语音 AUDIO: 语音驱动 默认取值: TEXT text_config TextConfig object 讲解词配置。 audio_drive_action_config
会影响此前基于您授权所进行的个人信息处理活动的效力。 权限 权限描述 使用目的 获取麦克风权限 获取浏览器的麦克风设备权限 开始语音交互时,用于进行语音识别文字,获取交互答案 对未成年人的保护 您承诺在您开始使用本服务时是成年人。如您是未成年人,则需要您的父母或监护人同意您使用本服务并同意相关服务条款。
进入视频制作界面,界面详情如图1所示。 图1 视频制作界面 在画布区域,设置角色、背景、贴图、视频等内容。 详细操作请参见视频制作素材操作详情。 画布制作完成后,再制作语音。 选择“文本驱动”的方式。在文本输入框中,输入文本内容,以生成音频,如图2所示。 文本示例:今天是9月26日,星期二,天气晴朗,欢迎大家
VDS_3D:3D视觉驱动 TTSA_3D:3D语音驱动 FLEXUS_2D:flexus版本资源 sub_resource_type String 子资源类型。当前只有flexus套餐包存在该字段 voice_clone_flexus: 语音克隆Flexus版 modeling_co
参数配置说明,如下所示: 情景模式名称:必须配置为“English”。 保持“语音语义”不变。 图17 新增情景模式 单击“确定”,English情景模式新增成功。 界面参数配置说明,如下所示: 语音识别:从下拉框中选择“通用-英文-进场”。 自然语言模型:保持默认值“AIUI通用语义模型”。