检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
iOS SDK 一句话识别 实时语音识别连续模式
录音文件识别接口 提交录音文件识别任务 获取录音文件识别结果
语音合成接口 语音合成 SSML标记语言介绍
实时语音合成响应 开始合成响应 语音合成结果响应 语音合成结束响应 语音合成错误响应 严重错误响应 父主题: 实时语音合成接口
时间戳数据 功能介绍 实时语音合成服务在生成音频流的同时,可以生成每个汉字/英文单词的时间戳信息。该信息可用于视频字幕和驱动数字人口型。 参数设置 设置请求参数subtitle为"word_level"或"phoneme_level"时,开启时间戳功能。 响应信息 表1 响应参数
请求body长度,单位为Byte。 3495 Upgrade 发送WebSocket握手请求时,包含该头域。 upgrade是HTTP1.1中用于定义转换协议的header域。 Websocket Connection 发送WebSocket握手请求时,包含该头域。 带有Upgrade头的HTTP1
”加到请求消息头即可,如下所示。 Content-Type: application/json X-Auth-Token: ABCDEFJ.... 您还可以通过这个视频教程了解如何使用Token认证:https://bbs.huaweicloud.com/videos/101333 。 父主题: API使用类
TtsCustomRequest 参数名称 是否必选 参数类型 描述 text 是 String 待合成的文本。 audio_format 否 String 待合成的音频格式,可选mp3,wav等,默认wav。具体信息请参见《API参考》语音合成章节。 pitch 否 Integer 音高,[-500,500]
托。 上传音频 在OBS“桶列表”页,单击创建的OBS桶。 图2 进入OBS桶 进入“对象”页面,将音频数据上传至OBS桶中。 图3 上传视频数据 获取音频URL 单击已上传的数据名称,进入数据详情页。 图4 进入数据详情页 复制链接,获取数据URL。 图5 获取数据URL 父主题:
Object 否 配置信息。请参考表2。 表2 config数据结构 名称 参数类型 是否必选 说明 audio_format String 否 语音格式头:pcm、alaw、ulaw、mp3。 默认:pcm sample_rate String 否 采样率:16000、8000赫兹。 默认:8000
热词长度上限32字节。 description 否 String 热词表描述,长度不超过255字节。 响应参数 创建热词响应参数为Json格式,详见表4。调用失败处理方法请参见错误码。 表4 创建热词响应 参数名称 是否必选 参数类型 描述 vocabulary_id 是 String
完一句话后,往往会等待后续的交互操作,例如聆听根据识别结果播报的相关内容,因而没有必要继续识别后续的音频。 wss-URI wss-URI格式: wss /v1/{project_id}/rasr/sentence-stream 参数说明 表1 参数说明 参数名 是否必选 说明 project_id
”加到请求消息头即可,如下所示。 Content-Type: application/json X-Auth-Token: ABCDEFJ.... 您还可以通过这个视频教程了解如何使用Token认证:https://bbs.huaweicloud.com/videos/101333 。 AK/SK认证 A
// 本地音频路径,如D:/test.wav, 也可将音频文件、音频流转换为byte数组后进行传送。 private String audioFormat = ""; // 音频格式,如pcm16k16bit private String property
获取Websocket握手请求wss-URI请参见Websocket握手请求。 获取实时语音识别请求消息格式信息请参见实时语音识别请求。 获取实时语音识别响应消息格式请参见实时语音识别响应。 客户端通过Websocket协议访问实时流转写接口时,连接时长不能超过5小时。超过5
有效地利用CPU。而流式识别通常和客户端的端点检测功能相结合,只将检测到的有效语音段上传到服务器进行识别。 wss-URI wss-URI格式 wss /v1/{project_id}/rasr/continue-stream 参数说明 表1 参数说明 参数名 是否必选 说明 project_id
为什么会出现识别结果非常差的情况 问题现象 调用语音识别接口,识别结果同真实结果差别很大,或者服务端报音频格式错误。 解决方案 检查音频采样率是否符合。 对于裸音频,可采用toolsoft Audio player等工具进行试听,通过设置不同的采样率,播放正常的即为音频正常采样率。
测试音频如表 示例音频所示,音频文件标题表示采样率和位宽。如8k16bit.pcm表示音频采样率为8k,位宽为16bit。 表1 示例音频 音频格式 下载链接 mp3 https://sis-sample-audio.obs.cn-north-1.myhuaweicloud.com/16k16bit
测试音频如表 示例音频所示,音频文件标题表示采样率和位宽。如8k16bit.pcm表示音频采样率为8k,位宽为16bit。 表1 示例音频 音频格式 下载链接 mp3 https://sis-sample-audio.obs.cn-north-1.myhuaweicloud.com/16k16bit
当前语音服务仅支持北京和上海区域,后续会陆续上线其他区域。 华北-北京四,推荐的区域。 华东-上海一,推荐的区域。 支持wav、mp3、m4a、acc、opus格式音频文件。 语音时长不超过120分钟,文件大小不超过100M。 支持从华为云对象存储服务(OBS)下载音频,需要用户提供OBS桶名和对象键值。