检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
图中标识“2”处为声音切换入口。单击图标,弹出如图3所示的对话框,选择需要切换的声音。 请注意,切换后的声音必须与前面切换后的语言保持一致。如果语言选择英文,声音选择中文声音,那么界面交互时数字人会没有声音。 图2 配置对话 图3 选择声音 语言和声音设置完成后,单击对话编辑界面右上角的“保存”,如图4所示。 请
图中标识“2”处为声音切换入口。单击图标,弹出如图3所示的对话框,选择需要切换的声音。 请注意,切换后的声音必须与前面切换后的语言保持一致。如果语言选择英文,声音选择中文声音,那么界面交互时数字人会没有声音。 图2 配置对话 图3 选择声音 语言和声音设置完成后,单击对话编辑界面右上角的“保存”,如图4所示。 请
示例7:视频直播对接实时音视频客户端SDK 视频直播对接实时音视频客户端SDK应用示例代码,请参考MetaStudio数字人直播对接实时音视频客户端SDK。 父主题: 应用示例
speakingStart 【事件说明】 数字人开始讲话的事件。 【回调参数】 无。 speakingStop 【事件说明】 数字人结束讲话的事件。 【回调参数】 无。 speechRecognized 【事件说明】 ASR对提问进行语音识别后输出为文本的事件。 【回调参数】 question:
景模式。 尾静音时长 系统会对用户的提问音频进行检测,如果一句话末尾的静音时长超过500ms,会结束语音识别。 建议取值大于500ms。 热词 数字人与用户进行智能交互对话时,语音识别不准确的专业词汇,可以作为热词反馈到语音模型,以提高语音识别的准确率。 单击热词后面的问号图标,
推荐使用48bit采样位录制音频。 苹果手机的简易录音机的采集位默认为16bit,无需修改。 声道 推荐使用单声道录制音频。 苹果手机的简易录音机默认为单声道录制,无需修改。 音频格式 推荐使用无损音质格式保存音频,如WAV、MP3格式。 音频命名 所有语料录制生成一个长音频WAV或MP3文件,命名示例:Voice
当录制一个长音频文件时,每句之间需要有2~3秒的停顿。 重音位置 重音位置要合理,避免错误的重音。 阅读发音 按顺序读,确保音字一致。避免漏字多字、发音错误、阅读不流畅等问题。如有这些问题,需重新录制。 录制提交 表3 录音内容提交规范 声音类型 音频说明 音频命名 基础版 需
人位置及相机位置。由如下4组浮点数组成的字符:人位置的X/Y/Z值,人角度的Pitch/Yaw/Roll值;相机位置的X/Y/Z值,相机角度的Pitch/Yaw/Roll值。 job_type 否 String 任务类型。 REAL_JOB:实时任务。如数字人交互。 UNREAL_JOB:非实时任务。如数字人视频制作
PREPROCESSING:MetaStudio直播服务启动加载形象模型的状态。 PLAY_READY:形象模型加载完成的状态。此时数字人处于静默状态,等待开始播放剧本的指令。 PROCESSING:数字人的工作状态。数字人会根据直播任务中预置的文本或音频进行直播。 PLAY_PAUSE:数字人直播暂停
audio_uploading_url Array of strings 音频上传的地址。 通过该obs地址上传时,需设置content-type为audio/wav txt_uploading_url Array of strings 文本上传的地址。 通过该obs地址上传时需设置content-type为text/plain
集合了众多顶尖科技的全新智能设备。 6. 它凝聚了我们对科技的热爱和对未来的追求,以人性化的设计、出色的性能和前所未有的创新,为您带来前所未有的使用体验。 7. 无论您是面对繁忙的工作,还是处理繁琐的家务,亦或是希望能有更多时间陪伴亲人,家用机器人都可以成为您的得力助手。 8.
智能机器人可以根据您的口味和需求,自动烹饪美食。 智能机器人可以通过识别您所使用的食材,提供有关这些食材的营养信息和食谱建议。 它们还能根据您想要的口味和菜谱,自动添加所需的配料和调味品。 他们还可以根据您的个人偏好和历史记录,推荐适合您的菜肴和食谱。 智慧厨房的出现不仅提高了烹饪的效率和质量,还提供了一个新的健康饮食的理念。
上述信息将会传输并保存至中华人民共和国境内的服务器。 2. 存储期限 我们仅在实现本声明所述目的所必需的时间内保留您的个人信息,并在超出下述保留时间后删除或匿名化处理您的个人信息,除非法律法规另有要求。 用于智能交互获取的您的音频数据或文本数据,将在进行中的智能交互任务结束后删除。 用于产品运营和维护收集的应用信息(浏览器User
实时智能交互,提升客户满意度和品牌形象 开放的Web SDK及API可快速集成到第三方业务系统,实现AI数字员工问答、服务、陪练等场景任务。 1.5秒超低时延交互 实时驱动极低延时,保障用户真实体验。 多模型数字人大脑 华为云智能问答机器人CBS 华为云盘古大模型 科大讯飞星火交互大模型及AIUI 能力开放可集成
获取。 响应消息头中X-Subject-Token的值。 Authorization 否 String 使用AK/SK方式认证时必选,携带的鉴权信息。 X-Sdk-Date 否 String 使用AK/SK方式认证时必选,请求的发生时间。 格式为(YYYYMMDD'T'HHMMSS'Z')。
提升内容生成的效率。 算法运行机制 训练阶段输入预先获取的高质量语音及其表情基系数,通过学习获得语音特征与表情基系数的关系。 用户使用时,输入音频流或音频文件。 音频经过安全审核后,进入下一步操作,否则不返回结果。 对音频特征提取后,获取音频特征,再通过算法将音频特征转换为表情基系数。
开启卡片区域右上角的开关。 单击卡片区域右下角的开关,在弹出的“技能设置”对话框中选择需要使用的技能版本。 此时,应用已具备基础的对话能力,可以回答已配置的语料内容。 图4 配置应用需要的技能 单击右上方的“保存配置”。界面提示“保存成功”,回到“应用配置”页面。 单击界面右上方的“保存修
Boolean 是否为尾部(任务数据已全部生成,后续没有新的数据) 默认取值: false audio String 音频数据,Base64编码,1秒内的数据。 blendshapes Array of strings 语音驱动的表情基数据。 animations Array of AnimationItem
需要根据实际使用的功能申请对应的系统权限并向用户告知征得其同意。 权限 权限描述 使用目的 获取麦克风权限 获取浏览器的麦克风设备权限 开始语音交互时,用于进行语音识别文字,获取交互答案 四、延迟初始化要求 为了避免您的应用在未获取用户的同意前SDK提前处理用户的个人信息。我们提
segment_url object 分句上传任务的上传地址。 package_url package_url object 整包上传任务的url。 authorization_letter_uploading_url String 授权书的上传地址。 表3 segment_url 参数