检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
音频流数据 功能介绍 分多段返回二进制语音数据流,如果用户未设置语音格式,则默认返回pcm格式语音。 父主题: 语音合成结果响应
alaw单通道录音数据。 mp3 mp3格式音频。目前仅支持单通道的音频。 aac aac格式音频。目前仅支持单通道的音频。 wav 带wav封装头的格式,从封装头中自动确定格式,目前仅支持8k/16k采样率、单通道、pcm, alaw, ulaw三种编码格式。 amr AMR窄带(8k)
获取AK/SK 如果已生成过AK/SK,则可跳过此步骤,找到原来已下载的AK/SK文件,文件名一般为:credentials.csv。 如下图所示,文件包含了租户名(User Name),AK(Access Key Id),SK(Secret Access Key)。 图1 credential
RttsRequest设置参数 表3 RttsRequest设置参数 方法名称 是否必选 参数类型 描述 SetAudioFormat 否 String 设置语音格式,默认pcm。 SetAudioProperty 否 String 设置语音合成特征字符串,{language}_{speaker}_{d
APIG.0301报错 如果在调用API时返回错误信息与错误码: "error_msg":"Incorrect IAM authentication information: decrypt token fail","error_code":"APIG.0301",是因为token解密失败。
一句话识别 前提条件 确保已经按照配置好iOS开发环境。 已经保存好1分钟内音频文件,建议使用16k16bit进行录音并保存为wav格式。 请参考SDK(websocket)获取最新版本SDK包。 初始化Client 初始化SASRClient,参数为AuthInfo,详见表1。
响应消息头无特殊用途,可用于定位问题使用。 响应消息体 响应消息体通常以结构化格式返回,与响应消息头中Content-type对应,传递除响应消息头之外的内容。 对于一句话识别接口,返回如下消息体。格式请具体参考一句话识别响应消息部分。 { "trace_id": "567e
表4 audio_format取值范围 audio_format取值 描述 wav wav格式音频 mp3 mp3格式音频 m4a m4a格式音频 aac aac格式音频 opus ops格式音频。 表5 property取值范围 property取值 描述 chinese_8k_common
表7 audio_format取值范围 audio_format取值 描述 auto 默认格式,系统自动判断,支持的音视频格式如下:WAV(内部支持pcm/ulaw/alaw/adpcm编码格式)、AMR、FLAC、M4A、MP3、OGG、WEBM、AAC、AC3、MOV、WMA、
配置信息。请参考表 config数据结构。 表4 Config 名称 参数类型 是否必选 说明 audio_format String 否 语音格式头:pcm、alaw、ulaw。 默认:pcm sample_rate String 否 采样率:16000、8000。 默认:8000 property
alaw单通道录音数据。 mp3 mp3格式音频。目前仅支持单通道的音频。 aac aac格式音频。目前仅支持单通道的音频。 wav 带wav封装头的格式,从封装头中自动确定格式,目前仅支持8k/16k采样率、单通道、pcm, alaw, ulaw三种编码格式。 amr AMR窄带(8k)
wav 表4 audio_format audio_format取值 描述 wav wav格式音频 mp3 mp3格式音频 m4a m4a格式音频 aac aac格式音频 opus ops格式音频。 表5 property property取值 描述 chinese_8k_common
audio_format取值范围 audio_format取值 描述 wav wav格式音频。 mp3 mp3格式音频。 m4a m4a格式音频。 acc acc格式音频。 opus opus格式音频。 表5 property取值范围 property取值 描述 chinese_8k_common
String 语音数据,以Base64编码格式返回。 用户如需生成音频,需要将Base64编码解码成byte数组,再保存为音频,音频格式同“audio_format”参数设置的值,默认为wav格式。 语音合成代码示例请参考SDK,SDK已对Base64转音频过程进行封装,可以直接获取音频文件。
on、IOS等编程语言。 用户通过调用API接口,将语音文件识别成可编辑的文本,然后返回JSON格式的识别结果,用户需要通过编码将识别结果对接到业务系统或保存为TXT、Excel等格式。 首次使用SIS 如果您是首次使用SIS的用户,建议您学习并了解如下信息: 功能介绍 通过功能
如何查看SIS服务声明 华为云语音交互服务(SIS)服务声明获取连接: https://www.huaweicloud.com/declaration/sis.html 父主题: 服务声明类
SasrWebsocketRequest。 表3 SasrWebsocketRequest 参数名称 是否必选 参数类型 描述 audioFormat 是 String 音频格式,支持pcm,alaw,ulaw等,如pcm8k16bit,具体规格请参见《API参考》中开始识别章节。 property 是 String
实时语音识别工作流程 实时语音识别分为开始识别、发送音频数据、结束识别,断开连接四个阶段。 开始阶段需要发送开始指令,包含采样率,音频格式,是否返回中间结果等配置信息。服务端会返回一个开始响应。 发送音频阶段客户端会分片发送音频数据,服务会返回识别结果或者其他事件,如音频超时,静音部分过长等。
语音合成后能否返回播放时长 不能,当前语音合成无此参数。若需要知道语音时长,可以将返回语音数据解码转换成音频格式,播放后查看。 父主题: 产品咨询类
SDK支持哪些语言 目前union sdk(仅支持https接口)已支持java、python、.net、cpp、go。websocket接口支持Java、Python,cpp,后续根据需求考虑支持其他语言。 父主题: SDK使用类