检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
5分钟。 进阶版:整段录制生成一个WAV或MP3格式音频,总时长10~30分钟,建议15分钟。 高品质:整段录制生成一个WAV或MP3格式音频,总时长1小时以上,建议1小时。 原声录制音频和其对应生成的音色播报示例,如客户声音制作案例所示。 录音准备 表1 录音准备 声音类型 录制设备和软件
配置检查 单击“配置检查”,自动检查当前页签配置是否正确,如果有问题,会给出相应提示。 尾静音时长 云端对音频进行VAD检测,发现一句话末尾的静音时长超过500ms,会结束语音识别。建议该值大于500ms。 图2 获取访问权限 单击“确定”,创建应用,创建效果如图3所示。 可单击“修改”,修改配置。
配置检查 单击“配置检查”,自动检查当前页签配置是否正确,如果有问题,会给出相应提示。 尾静音时长 云端对音频进行VAD检测,发现一句话末尾的静音时长超过500ms,会结束语音识别。建议该值大于500ms。 单击“确定”,创建应用,创建效果如图2所示。 可单击“修改”,修改配置。 图2
time="300ms"/>是联合国宪章<break time="500ms"/>最重要的原则。 audio_file_download_url 否 String 语音驱动音频文件下载URL。 speed 否 Integer 语速。 取值范围[50,200] 默认值:100 取值范围: 50-200 默认取值: 100
授权书的上传地址。 表3 segment_url 参数 参数类型 描述 audio_uploading_url Array of strings 音频上传的地址。 说明: 通过该obs地址上传时需要设置content-type为audio/wav txt_uploading_url Array
请求参数 表2 请求Body参数 参数 是否必选 参数类型 描述 audio_file_download_url 是 String 语音驱动音频文件下载URL,格式为AAC或者MP3 frame_rate 是 Integer 期望的输出帧率 取值范围: 15-120 默认取值: 60
wav~19.wav;文本文件命名规则:0.txt~19.txt。 语音文件和文本文件逐句上传:每次上传一句语料的语音文件和文本文件,再调用“确认在线录音结果”接口确认语音和文本内容是否一致。确认成功后再上传和确认下一句。 文件上传后,调用“提交语音训练任务”接口,启动审核和训练。 调用方法
wav~99.wav;文本文件命名规则:0.txt~99.txt。 语音文件和文本文件逐句上传:每次上传一句语料的语音文件和文本文件,再调用“确认在线录音结果”接口确认语音和文本内容是否一致。确认成功后再上传和确认下一句。 文件上传后,调用“提交语音训练任务”接口,启动审核和训练。 调用方法
available audio input devices. 没有找到音频输入设备,请排查音频采集设备是否就绪。 90100006 no available audio output devices. 没有找到音频输出设备。 90100007 room status error. 房间状态不正确,请检查是否入会成功。
训练阶段输入预先获取的高质量语音及其表情基系数,通过学习获得语音特征与表情基系数的关系。 用户使用时,输入音频流或音频文件。 音频经过安全审核后,进入下一步操作,否则不返回结果。 对音频特征提取后,获取音频特征,再通过算法将音频特征转换为表情基系数。 返回结果数据。 算法应用场景 数字人语音驱动算法可用于短
语音合成管理 创建TTS试听任务 获取TTS试听文件 创建TTS异步任务 获取TTS异步任务 设置TTS租户级自定义读法配置 获取TTS租户级自定义读法配置 删除TTS租户级自定义读法配置 修改TTS租户级自定义读法配置 语音同步合成WebSocket接口
以文字方式向用户告知 第三方SDK名称:数字人智能交互Web SDK 第三方公司名称:华为云计算技术有限公司 收集个人信息类型:您或您的最终用户的音频数据或文本数据、应用信息(浏览器User Agent)、SDK接口调用记录。 使用目的:为华为云客户应用提供数字人智能交互服务,如果您只使
称“交互功能”)。为了提供交互功能,SDK会通过您主动点击聊天按钮申请客户应用或浏览器的麦克风权限,在您同意客户应用使用麦克风之后,将您的音频数据或文本数据上传到客户指定的第三方系统或模型,用于识别语义并做出应答,给您提供交互功能。 产品运营和维护 为了保障SDK稳定运行,改善产
Array of errors objects 错误列表。 表4 errors 参数 参数类型 描述 audio_name String 音频文件名。 text_name String 文本文件名。 error_code String 异常错误码。 error_message String
表3 请求Body参数 参数 是否必选 参数类型 描述 hot_words_type 是 String 热词类型。 说明: SIS:使用的语音识别服务为SIS时选此类型 robot_id 是 String 应用ID。 sis_hot_words 是 CreateSisHotWords
表3 请求Body参数 参数 是否必选 参数类型 描述 hot_words_type 是 String 热词类型。 说明: SIS:使用的语音识别服务为SIS时选此类型 sis_hot_words 是 UpdateSisHotWords object sis类型热词 表4 UpdateSisHotWords
服务处理。 详细操作如下所示: 访问华为云官网。 选择“开发者 > 开发支持”,进入“开发者在线提单”界面。 单击“开发业务”区域的“数字内容生产线MetaStudio”,进入“开发者在线提单”页面。 请根据界面,输入相应的问题描述和个人联系方式等信息。 单击“提交问题”。 服务会在收到问题单后,联系您处理。
获取语音驱动任务列表 功能介绍 该接口用于查询驱动数字人表情、动作及语音的任务列表。 调用方法 请参见如何调用API。 URI GET /v1/{project_id}/ttsa-jobs 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 项目ID,获取方法请参考获取项目ID。
服务处理。 详细操作如下所示: 访问华为云官网。 选择“开发者 > 开发支持”,进入“开发者在线提单”界面。 单击“开发业务”区域的“数字内容生产线MetaStudio”,进入“开发者在线提单”页面。 请根据界面,输入相应的问题描述和个人联系方式等信息。 单击“提交问题”。 服务会在收到问题单后,联系您处理。
获取语音驱动表情数据 功能介绍 该接口用于获取生成的数字人表情驱动数据 调用方法 请参见如何调用API。 URI GET /v1/{project_id}/fas-jobs/{job_id} 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 租户项目ID