检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
接口参考 主入口(HwICSUiSdk) 事件通知(EventMap) 错误码(ICSError) 授权浏览器麦克风的访问权限 Web语音唤醒 父主题: Web SDK
应用示例 示例1:上传资产 示例2:分身形象制作管理 示例3:声音制作任务管理 示例4:语音合成管理 示例5:视频制作 示例6:视频制作剧本管理 示例7:视频直播 示例8:视频直播对接实时音视频客户端SDK 示例9:资产管理 示例10:数字人名片制作 示例11:智能交互
照片建模的含义:根据单张照片自动生成3D风格化基础模型。 按需计费 按需预付费套餐包 语音驱动 按照输入文本或语音驱动数字人口型、表情等动作的时长进行计费。 计费时优先使用套餐包中的额度,该额度使用完后,转按需付费。 语音驱动的含义:根据输入文本或语音驱动数字人口型、表情等动作。 按需计费 按需预付费套餐包 视觉驱动
数字人 数字人支持换脸吗? 数字人支持换衣服吗? 数字人支持添加动作吗? 数字人说话是文本驱动还是语音驱动? 数字人支持提供语义理解知识库吗? 数字人支持TTS和ASR吗?
参数解释: 图片显示时长,单位s。 显示时长规则为,若携带reply_texts、reply_audios,则与播放语音内容时长保持一致。若未携带,则与匹配的关键词语音内容时长保持一致。 取值范围: 0-3600 默认取值: 0 表12 SmartVideoLayerConfig 参数
String 自我介绍驱动方式。 TEXT: 文本驱动,即通过TTS合成语音。文本驱动需要填写introduction_text和voice_asset_id参数。 AUDIO: 语音驱动,需要在资产库中先上传语音资产。语音驱动需要填写introduction_audio_asset_id参数。
is_inheritance_platform_callback 否 Boolean 参数解释: 是否继承直播平台回调配置,默认true 约束限制: 不涉及。 取值范围: true:继承直播平台callback配置 false:不继承直播平台callback配置 默认取值: false 默认取值: false 表30
00ms,会结束语音识别。建议该值大于500ms。 委托语言交互服务(SIS) 如需使用热词功能,请开启委托授权。SIS服务用于将用户口述音频转换为文本。 热词 仅开启“委托语言交互服务(SIS)”后,才会展示“热词”配置。 数字人与用户进行智能交互对话时,语音识别不准确的专业词
条新返回了“饭了么”,则第二条text值为“饭了么”,需要将两条通知的text值拼接在一起才是完整的内容。 文本问答的用法 智能交互默认是语音问答,如需使用文本问答,需要切换模式。可以通过下述2种方式处理: 在开始对话时设置。使用startChat接口开启对话时,设置成文本问答模式,如下所示:
String 自我介绍驱动方式。 TEXT: 文本驱动,即通过TTS合成语音。文本驱动需要填写introduction_text和voice_asset_id参数。 AUDIO: 语音驱动,需要在资产库中先上传语音资产。语音驱动需要填写introduction_audio_asset_id参数。
is_inheritance_platform_callback Boolean 参数解释: 是否继承直播平台回调配置,默认true 约束限制: 不涉及。 取值范围: true:继承直播平台callback配置 false:不继承直播平台callback配置 默认取值: false 默认取值: false 表31
购买出门问问语音合成套餐包。 标准版视频制作:必须使用标准版形象,声音不支持使用Flexus声音。 按视频制作时长计费,计费项为“分身数字人视频制作”,详见计费说明。 系统声音免费使用。第三方声音的计费方式,详见购买出门问问语音合成套餐包。 画布制作完成后,再制作语音。 支持下述
计费咨询 MetaStudio有哪些计费项? 如何购买第三方音色? 第三方声音AK/SK如何填写? 购买语音包后试听一直转圈圈是为什么? 多语言的计费规则? 如何查看已购声音套餐明细? 分身形象或声音制作的不好,可以使用原有资源重新制作吗? 形象制作和声音制作支持退订吗? 制作好数字人后,可以不购买路数进行直播吗?
用于制作数字人名片的图片下载URL。 introduction_type String 自我介绍驱动方式。 TEXT: 文本驱动,即通过TTS合成语音 AUDIO: 语音驱动,需要在资产库中先上传语音资产 默认取值: TEXT introduction_text String 自我介绍文本,用于驱动数字人口型。 voice_asset_id
Not Implemented 服务器不支持请求的功能,无法完成请求。 502 Bad Gateway 充当网关或代理的服务器,从远端服务器接收到了一个无效的请求。 503 Service Unavailable 被请求的服务无效。 建议直接修改该请求,不要重试该请求。 504 Gateway
play_pause:数字人暂停剧本播放,并保持静默状态。 play_resume:数字人恢复剧本播放。 voice_start:启动数字人实时语音播放。 voice_end:结束数字人实时语音播放。 “timing”为直播控制指令执行的时间,取值如下所示: NOW:立即执行指令。 SENTENCE_END:
播报内容生成后,单击右侧的“试听”,可以试听播报效果。 语音上传:本地录制音频后上传。音频格式需要为WAV或MP3格式,音频大小不超过20MB,时长不超过5分钟。 在线录音:在线录制音频。录音时长不能超过5分钟,为保证音频生成的效果,请保持录音环境安静无噪音。支持试听录制生成的语音。 文本驱动:通过输入文本,
参数解释: 图片显示时长,单位s。 显示时长规则为,若携带reply_texts、reply_audios,则与播放语音内容时长保持一致。若未携带,则与匹配的关键词语音内容时长保持一致。 取值范围: 0-3600 默认取值: 0 表12 SmartVideoLayerConfig 参数
使用的功能申请对应的系统权限并向用户告知征得其同意。 权限 权限描述 使用目的 获取麦克风权限 获取浏览器的麦克风设备权限 开始语音交互时,用于进行语音识别文字,获取交互答案 四、延迟初始化要求 为了避免您的应用在未获取用户的同意前SDK提前处理用户的个人信息。我们提供了智能交互
参数解释: 图片显示时长,单位s。 显示时长规则为,若携带reply_texts、reply_audios,则与播放语音内容时长保持一致。若未携带,则与匹配的关键词语音内容时长保持一致。 取值范围: 0-3600 默认取值: 0 表15 SmartVideoLayerConfig 参数