检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
语音识别是强制绑定使用OBS进行录音文件存储吗 不是,只有录音文件识别需要使用OBS服务,语音交互服务对用户存储在OBS的数据,具有只读权限,没有修改和删除的权限。所以用户是否删除上传至OBS服务的数据,需要用户根据自己的obs桶的使用情况或者容量大小确认,并在OBS服务上执行。
存放录音文件地址: 推荐使用华为云OBS:授权配置请参见OBS配置。 您也可以把录音文件放在自行搭建服务器上,提供下载文件的地址。URL不能使用IP地址,只能使用域名,请尽量避免中文 audio_format 是 String 音频格式,具体信息请参见《API参考》中录音文件识别章节。
一定要确保代理可用才启动此设置。 代理初始化也可用不加密的代理,new ProxyHostInfo(host, port); // ProxyHostInfo proxy = new ProxyHostInfo(host, port, username, password); // config
是否支持aac格式的语音文件转文字 一句话识别和录音文件识别以及实时语音识别均可实现语音转文字,一句话识别支持aac格式,录音文件识别和实时语音识别不支持aac格式。 父主题: 产品咨询类
目前语音交互服务一句话识别、录音文件识别支持以下地区和终端节点: 当前服务仅支持北京和上海区域,后续会陆续上线其他区域。 华北-北京四,推荐的区域,支持一句话识别、录音文件识别、实时语音识别、语音合成和热词等接口。 华东-上海一,推荐的区域,支持一句话识别、录音文件识别、实时语音识别、语音合成和热词等接口
录音文件识别 支持“华北-北京四”、“华东-上海一”区域。 当前语音服务仅支持北京和上海区域,后续会陆续上线其他区域。 华北-北京四,推荐的区域。 华东-上海一,推荐的区域。 支持pcm16k16bit、pcm8k16bit、ulaw16k8bit、ulaw8k8bit、alaw
录音文件识别接口 提交录音文件识别任务 获取录音文件识别结果
为什么录音文件识别出现重复转写结果 问题现象 调用录音文件识别接口,识别的结果出现两条完全一致的结果。 解决方案 由于声道设置的原因,单声道的音频按照双声道处理了。 在请求中将参数“channel”的值修改成“MONO”或者直接去掉请求参数中的“channel”项。 父主题: API使用类
连接超时,默认10,单位s。 read_timeout 否 Integer 读取超时,默认10,单位s。 proxy 否 List [host, port] 或 [host, port, username, password]。 请求参数 请求类为AsrCustomShortRequest,详见表3。
一定要确保代理可用才启动此设置。 代理初始化也可用不加密的代理,new ProxyHostInfo(host, port); // ProxyHostInfo proxy = new ProxyHostInfo(host, port, username, password); // config
然后用户通过调用录音文件识别状态查询接口来获得转写状态和结果。 功能介绍 该接口用于提交录音文件识别任务,其中录音文件保存在用户的OBS桶中或公网可访问的服务器上(需保证可使用域名访问)。用户开通录音识别服务时,如果录音文件存放在OBS桶中,需授权录音文件引擎读取用户OBS桶权
录音文件识别极速版接口 功能介绍 录音文件识别极速版接口,用于录音文件的同步识别。音频需要上传华为云OBS,提供华为云OBS对象地址,能快速返回识别结果。该接口的使用限制请参见约束与限制,详细使用指导请参见SIS服务使用简介章节。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API
录音文件识别多久可以返回结果 音频转写时长受音频时长和排队任务数量影响,音频时长和理论返回时间可参见表 音频转写时长参考表。如果转写耗时比理论时延长,大概率表示当前时间段出现转写高峰,请耐心等待,我们承诺最大转写时长不超过6小时。 表1 音频转写时长参考表 音频时长 参考返回时间
获取录音文件识别结果 功能介绍 该接口用于获取录音文件识别结果及识别状态。该接口的使用限制请参见约束与限制,详细使用指导请参见SIS服务使用简介章节。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。
一定要确保代理可用才启动此设置。 代理初始化也可用不加密的代理,new ProxyHostInfo(host, port); // ProxyHostInfo proxy = new ProxyHostInfo(host, port, username, password); // config
连接超时,默认10,单位s。 read_timeout 否 Integer 读取超时,默认10,单位s。 proxy 否 List [host, port] 或 [host, port, username, password]。 请求参数 请求类为FlashLasrRequest,详见表3。 表3 FlashLasrRequest
录音文件识别极速版 支持“华北-北京四”、“华东-上海一”区域。 当前语音服务仅支持北京和上海区域,后续会陆续上线其他区域。 华北-北京四,推荐的区域。 华东-上海一,推荐的区域。 支持wav、mp3、m4a、acc、opus格式音频文件。 语音时长不超过120分钟,文件大小不超过100M。
方法一:将参数设置中静默时间的参数vad_head 的值设置大一些,详细请参见API参考的实时语音识别的请求参数。 方法二:处理音频文件,将识别文件初始的静默音频剪切掉。 父主题: API使用类
下载并安装Postman,Postman建议使用7.24.0版本。 下载华为云SIS服务Postman的配置文件。 配置文件下载地址:sis-postman.json。 如果浏览器显示文件内容,鼠标右键另存为JSON文件。 导入配置文件。 打开并登录Postman。 单击左上角“File > Import > Import
找到原来已下载的AK/SK文件,文件名一般为:credentials.csv。 如下图所示,文件包含了租户名(User Name),AK(Access Key Id),SK(Secret Access Key)。 图1 credential.csv文件内容 AK/SK生成步骤: 登录管理控制台。