检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
确保已存在待识别的音频文件。如果需要请在下载的SDK压缩包中获取示例音频。 该功能为1.70及以上版本SDK新增功能,使用前请检查并更新SDK版本。 初始化Client 初始化SasrWebsocketClient详见表 SasrWebsocketClient初始化参数。
支持用户通过语音识别功能,将口述音频、普通话或者带有一定方言的语音文件识别成可编辑的文本,同时也支持通过语音合成功能将文本转换成逼真的语音等提升用户体验。适用场景如语音客服质检、会议记录、语音短消息、有声读物、电话回访等。
EI企业智能服务对于图片、语音等多媒体文件支持直接使用华为云OBS服务的数据处理方式,以减少服务使用成本,降低服务的响应时长,提升服务使用的体验。语音交互服务优先推荐使用同一region下OBS的音频链接作为传入音频的URL。
用户通过调用API接口,将语音文件识别成可编辑的文本,然后返回JSON格式的识别结果,用户需要通过编码将识别结果对接到业务系统或保存为TXT、Excel等格式。
data 是 String 本地音频文件经过Base64编码后的字符串,音频文件时长小于60s。 表3 Config 参数名称 是否必选 参数类型 描述 audioFormat 是 String 音频格式,具体信息请参见《API参考》中一句话识别章节。
调用热词表 一句话识别、录音文件识别、实时语音识别API均支持调用热词表,调用时,需传vocabulary_id参数(热词id)。 热词id可以通过控制台,或调用查询热词表信息接口获取。
创建热词表 在一句话识别、录音文件识别、实时语音识别服务中,如果在您的业务领域有一些特有的词,默认识别效果差的时候可以考虑使用热词管理功能,将这些词添加到词表,改善识别效果。
下载华为云SIS服务Postman的配置文件。 配置文件下载地址:sis-postman.json。 如果浏览器显示文件内容,鼠标右键另存为JSON文件。 导入配置文件。 打开并登录Postman。
录音文件识别支持的音频格式如表7所示。 确保待识别音频的格式和接口参数中设置的audio_format参数格式一致。 SIS.0536 录音文件识任务提交数量达到限制。 请稍后重试。 SIS.0537 录音文件太大。 请尝试减少文件大小,比如分割为多个。
约束与限制 实时语音识别 一句话识别 录音文件识别 语音合成 录音文件识别极速版
2022-02-15 新增: 录音文件识别输入参数兼容公网访问的url。
Java SDK 一句话识别Http接口 一句话识别Websocket接口 录音文件识别 实时语音识别 语音合成 热词管理 实时语音合成 录音文件极速版
Python SDK 一句话识别Http接口 一句话识别Websocket接口 录音文件识别 实时语音识别 语音合成 热词管理 实时语音合成 录音文件极速版
根据获取的AK/SK,修改Demo工程“AsrCustomizationDemo.java”文件中函数的“AK”和“SK”的值。 设置SDK中demo文件夹下的示例文件AsrCustomizationDemo.java相关参数,参数说明具体请参考表1、表2、表3参数说明。
一直连接不成功 为什么会出现识别结果非常差的情况 如何使用Websocket调用实时语音识别 有哪些途径可以使用语音交互的API 返回状态正常,但识别结果为空 Token消息体中user name,domain name和project name分别指的是什么 如何调整并发 为什么录音文件识别出现重复转写结果
表1 REST API功能 接口 功能 API URI 一句话识别接口 一句话识别 POST /v1/{project_id}/asr/short-audio 录音文件识别接 录音文件识别接口 识别接口:POST /v1/{project_id}/asr/transcriber/jobs
权限类 语音交互服务需要申请什么权限 如何通过主账号创建一个子账号 语音识别是强制绑定使用OBS进行录音文件存储吗
产品咨询类 什么是语音交互服务 支持哪些语言 语音合成后输出的音频格式是什么 是否支持离线使用 语音合成后能否返回播放时长 是否支持aac格式的语音文件转文字 如何查看当前接口是否免费调用
路径需具体到文件,如D:/test.wav。 响应参数 响应类为TtsCustomResponse,详见表3。调用失败处理方法请参见错误码。 表4 TtsResponse 参数名 是否必选 参数类型 说明 isSaved 否 String 是否将响应音频保存为本地文件。
访问密钥为credentials.csv文件,包含AK/SK信息。 region 部署区域,如:cn-north-4。具体请参考终端节点。 project_id 项目ID,同region一一对应,登录API凭证界面获取。 text 待合成的文本。 path 合成后音频保存路径。