检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
确认在线录音结果 功能介绍 确认在线录音结果。 调用方法 请参见如何调用API。 URI POST /v1/{project_id}/voice-training-manage/user/training-segment 表1 路径参数 参数 是否必选 参数类型 描述 project_id
获取在线录音确认结果 功能介绍 获取在线录音确认结果。 调用方法 请参见如何调用API。 URI GET /v1/{project_id}/voice-training-manage/user/training-segment 表1 路径参数 参数 是否必选 参数类型 描述 project_id
用户,用户需要参考更新唤醒模型,将模型更新至本地模型路径中。 使用要求 WebSDK版本为3.0.1及以上。 仅支持数字人平台配置或内置ASR(语音转文本)能力的方案。不支持WebSocket接口驱动数字人方案,即文本驱动方案。 在调用create接口之前,必须要有用户点击集成WebSDK的页面的行为。
支持19种语言:中文、英文、德语、法语、韩语、葡萄牙语、日语、西班牙语、意大利语、俄罗斯语、菲律宾语、荷兰语、印尼语、越南语、阿拉伯语、土耳其语、马来语、泰语、芬兰语 出门问问(克隆声音) 支持19种语言,如下所示: 支持语言泛化:中文、英文、德语、法语、土耳其语、菲律宾语、日语、意大利语、马来语、俄罗斯语
创建高级版语音训练任务 功能介绍 用户创建语音训练高级版任务,该接口会返回一个obs上传地址,用于上传语音文件。 语音文件为一段WAV格式的长音频文件,仅支持将语音文件打包成zip压缩格式上传。 文件上传后,调用“提交语音训练任务”接口,启动审核和训练。 调用方法 请参见如何调用API。
默认取值: false silence_flag 否 Boolean 异常时是否返回静默音频流 默认取值: false silence_time_ms 否 Integer 异常时返回的静默音频流时长,单位毫秒。 取值范围: 0-5000 默认取值: 2000 callback_config
sample_rate String body voice_data中音频的采样率。 取值示例:16000、24000。 voice_data String body 音频数据,为base64编码的pcm音频流。 pcm格式为16位单声道,采样率见sample_rate字段,默认16000。
state String 音频文件是否已生成完成。该标记为PROCESSING时,应该每隔3秒再次调用本接口获取音频文件(WAITING 等待中,PROCESSING 处理中,SUCCEED 成功,FAILED 失败) audio_file_url String 音频文件下载链接,有效期为1个小时。
宾语、日语、意大利语、马来语、俄罗斯语、韩语、芬兰语、荷兰语、西班牙语、印尼语、阿拉伯语、葡萄牙语、泰语)的声音制作,操作请参考创建声音制作任务(第三方模型)。 输出的语言受限制。使用自定义声音合成音频时,仅支持17种语言:中文、英文、德语、法语、土耳其语、菲律宾语、日语、意大利
查询用户配置的个性化音频时长 创建基础版语音训练任务 创建进阶版语音训练任务 创建高级版语音训练任务 查询语音训练任务列表 提交语音训练任务 查询语音训练任务详情 删除语音训练任务 查询任务操作日志 获取语音文件上传地址 获取语音训练任务审核结果 设置任务批次 确认在线录音结果 获取在线录音确认结果
图8 兜底设置 单击“应用配置”界面右上方的“保存修改”。 界面提示“保存成功”,说明应用配置页面的修改已生效。 配置热词。 展开“语音识别”下方的“高级设置”,如图9所示。 图9 应用配置 在“识别热词”区域,单击“下载热词模板”,将模板下载至本地。 本地打开模板文件,按照
推荐使用48bit采样位录制音频。 苹果手机的简易录音机的采集位默认为16bit,无需修改。 声道 推荐使用单声道录制音频。 苹果手机的简易录音机默认为单声道录制,无需修改。 音频格式 推荐使用无损音质格式保存音频,如WAV、MP3格式。 音频命名 所有语料录制生成一个长音频WAV或MP3文件,命名示例:Voice
支持的语言类型 Adelle_Sans_Global Adelle_Sans_Global_Bold 中文、英文、德语、法语、土耳其语、菲律宾语、日语、意大利语、马来语、俄罗斯语、越南语、芬兰语、荷兰语、西班牙语、印尼语、阿拉伯语、葡萄牙语 HarmonyOS_Sans_SC HarmonyOS_Sans_SC_Black
服务处理。 详细操作如下所示: 访问华为云官网。 选择“开发者 > 开发支持”,进入“开发者在线提单”界面。 单击“开发业务”区域的“数字内容生产线MetaStudio”,进入“开发者在线提单”页面。 请根据界面,输入相应的问题描述和个人联系方式等信息。 单击“提交问题”。 服务会在收到问题单后,联系您处理。
” is_tail Boolean 是否为尾部(任务数据已全部生成,后续没有新的数据) 默认取值: false audio String 音频数据,Base64编码,1秒内的数据。 blendshapes Array of strings 语音驱动的表情基数据。 animations
服务处理。 详细操作如下所示: 访问华为云官网。 选择“开发者 > 开发支持”,进入“开发者在线提单”界面。 单击“开发业务”区域的“数字内容生产线MetaStudio”,进入“开发者在线提单”页面。 请根据界面,输入相应的问题描述和个人联系方式等信息。 单击“提交问题”。 服务会在收到问题单后,联系您处理。
答案。 尾静音时长 系统会对用户的提问音频进行检测,如果一句话末尾的静音时长超过500ms,会结束语音识别。 建议取值大于500ms。 热词 数字人与用户进行智能交互对话时,语音识别不准确的专业词汇,可以作为热词反馈到语音模型,以提高语音识别的准确率。 单击热词后面的问号图标,在
speakingStart 数字人开始讲话事件。 speakingStop 数字人结束讲话事件。 speechRecognized ASR对提问进行语音识别后输出为文本的事件。 semanticRecognized LLM对提问进行语义识别后输出回复文本的事件。speechRecog
播报内容生成后,单击右侧的“试听”,可以试听播报效果。 语音上传:本地录制音频后上传。音频格式需要为WAV或MP3格式,音频大小不超过20MB,时长不超过5分钟。 在线录音:在线录制音频。录音时长不能超过5分钟,为保证音频生成的效果,请保持录音环境安静无噪音。支持试听录制生成的语音。 文
播报内容生成后,单击右侧的“试听”,可以试听播报效果。 语音上传:本地录制音频后上传。音频格式需要为WAV或MP3格式,音频大小不超过20MB,时长不超过5分钟。 在线录音:在线录制音频。录音时长不能超过5分钟,为保证音频生成的效果,请保持录音环境安静无噪音。支持试听录制生成的语音。 文