检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
http接口 功能介绍 一句话识别接口,用于短语音的同步识别。一次性上传1min以内音频,能快速返回识别结果。该接口的使用限制请参见约束与限制,详细使用指导请参见SIS服务使用简介章节。 SIS服务控制台提供了一句话识别的在线使用页面,用户无需编程即可使用服务功能。 图1 在线使用
API概览 SIS服务提供了两种接口,包含REST(Representational State Transfer)API,支持您通过HTTPS请求调用,请参见表1。也包含WebSocket接口,支持Websocket协议,请参见表2。 表1 REST API功能 接口 功能 API
Token与Project ID不匹配报错 获取Token时,出现the parameters of requesting token are wrong or project_id doesn't match the token报错。 检查获取Token过程中,请求url中的区
调用说明 SIS服务提供了两种接口,包含REST(Representational State Transfer)API,支持您通过HTTPS请求调用,调用方法请参见如何调用REST API。也包含WebSocket接口,支持Websocket协议,调用方法请参见如何调用WebSocket
如何查看实时语音识别的中间结果 实时语音识别分为开始识别、发送音频数据、结束识别,断开连接四个阶段。在使用API或SDK时,可以通过将interim_results参数设置为yes,将识别过程的中间结果返回。如果设置为no,则会等每句话完毕才会返回识别结果。详细参数说明请见实时语音识别。
获取AK/SK 如果已生成过AK/SK,则可跳过此步骤,找到原来已下载的AK/SK文件,文件名一般为:credentials.csv。 如下图所示,文件包含了租户名(User Name),AK(Access Key Id),SK(Secret Access Key)。 图1 credential
与其他云服务的关系 SIS服务与周边其他服务的关系如图1所示。 图1 SIS与其他服务的关系图 统一身份认证服务 统一身份认证(Identity and Access Management,简称IAM)服务,IAM为语音交互服务提供了用户认证和鉴权功能。 对象存储服务 SIS服务接口支持从对象存储服务(Object
返回状态正常,但识别结果为空 一般由于格式不匹配造成的。请按照以下情况进行排查。 1. 请确保音频格式和请求格式参数保持一致,音频采样率和选择“property”参数中采样率保持一致。 2. 请确保音频位宽为16bit,目前仅支持16bit位宽的音频,如果低于该位宽的音频,则无法正常识别。
配置OBS访问权限 OBS服务 OBS全称Object Storage Service(对象存储服务),提供海量、安全、高可靠、低成本的数据存储能力,可供用户存储任意类型和大小的数据。 EI企业智能服务对于图片、语音等多媒体文件支持直接使用华为云OBS服务的数据处理方式,以减少服
语音交互服务需要申请什么权限 语音交互服务本身无权限限制,用户不需要额外添加任何权限,即可对语音交互服务执行操作。 但是如下场景除外: 当用户需要使用录音文件识别功能时,需要用户具有主账号或者Security Administrator的权限。 因为录音文件保存在用户的OBS(Object
语音合成错误响应 功能介绍 合成引擎处理合成请求时如果发生错误则返回该响应。 响应消息 表1 响应参数 名称 参数类型 说明 resp_type String 响应类型。参数值为ERROR,表示错误响应。 trace_id String 服务内部的令牌,可用于在日志中追溯具体流程。
严重错误响应 严重错误,通常指流程无法继续的情况。比如当出现客户端分片音频间隔超时(例如20s)。 出现严重错误响应时,流程不再继续,服务器端会主动断连。 响应消息 表1 响应参数 参数名 参数类型 说明 resp_type String 响应类型。参数值为FATAL_ERROR,表示开始识别响应。
严重错误响应 功能介绍 严重错误,通常指流程无法继续的情况。出现严重错误响应时,流程不再继续,服务器端会主动断连。 响应消息 表1 响应参数 名称 参数类型 说明 resp_type String 响应类型。参数值为FATAL_ERROR,表示此次合成发生不可恢复的错误。 trace_id
状态码 表1 状态码 状态码 说明 100 Continue 101 Switching Protocols 200 OK 201 Created 202 Accepted 203 Non-Authoritative Information 204 NO Content 205 Reset
错误码类 SIS.0304报错 SIS.0103报错 SIS.0032报错 SIS.0535报错 APIG.0101报错 APIG.0201报错 APIG.0301报错 账密报错“The username or password is wrong.” Token与Project ID不匹配报错
Websocket握手请求 功能介绍 本接口提供实时流式语音合成。用户每次建立连接,发送待合成文本,服务端将合成结果响应给用户。一次连接只能发送一次文本,如果有多段文本需要合成,需要多次建立连接。实时语音合成和语音合成均属于语音合成接口,采用完全相同的计费规则,两者价格梯度可互相叠加,可参考价格计算器。
错误响应 错误响应,通常是指不影响流程,但当前会话无法再进行下去的错误,包括如下情况: 配置串错误,包括存在不识别的配置串,或者配置串值的范围不合法。 时序不正确,比如连续发送两次“开始识别”指令。 识别过程中发生错误,比如音频解码发生错误。 出现错误响应时,如果已经在一个会话中
语音合成 功能介绍 语音合成,是一种将文本转换成逼真语音的服务。用户通过实时访问和调用API获取语音合成结果,将用户输入的文字合成为音频。通过音色选择、自定义音量、语速,为企业和个人提供个性化的发音服务。该接口的使用限制请参见约束与限制,详细使用指导请参见SIS服务使用简介章节。
开始语音合成请求 功能介绍 客户端与语音合成引擎建立Websocket连接后,可以发送开始语音合成请求进行语音合成。如果客户端基于该Websocket连接发送多次合成请求,需在每次请求重新建立websocket连接,一次连接只能处理一次合成请求。 请求消息 表1 参数说明 名称 参数类型
创建热词表 在一句话识别、录音文件识别、实时语音识别服务中,如果在您的业务领域有一些特有的词,默认识别效果差的时候可以考虑使用热词管理功能,将这些词添加到词表,改善识别效果。 热词可以是姓名、公司名、某个领域的专有名词,如人名"王晓茗”(通常会识别为"王小明”)、运输域的“高栏”