检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
一句话识别接口,用于短语音的同步识别。一次性上传整个音频,响应中即返回识别结果。 表3 录音文件识别接口说明 接口类型 说明 录音文件识别 录音文件识别接口,用于转写不超过5小时的音频。由于录音文件转写需要较长的时间,因此转写是异步的。 表4 语音合成接口说明 接口类型 说明 语音合成/实时语音合成
实时语音识别 前提条件 确保已按照配置Python环境配置完毕,Python SDK仅支持Python3。 确保已存在待识别的音频文件。如果需要请在下载的SDK压缩包中获取示例音频。 请参考SDK(websocket)获取最新版本SDK包。 初始化Client 初始化RasrClient详见表
SIS服务接口支持从对象存储服务(Object Storage Service,OBS)上采用临时授权和匿名公开授权的方式获取数据并进行处理。录音文件识别支持从OBS上采用授权的方式获取数据并进行处理。OBS更多信息请参见《对象存储服务产品介绍》。
Programming Interface,应用程序编程接口)获取语音交互结果。例如用户通过语音识别功能,将口述音频、普通话或者带有一定方言的语音文件识别成可编辑的文本,同时也支持通过语音合成功能将文本转换成逼真的语音等提升用户体验。适用场景如语音客服质检、会议记录、语音短消息、有声读物、电话回访等。
示例音频 测试音频如表 示例音频所示,音频文件标题表示采样率和位宽。如8k16bit.pcm表示音频采样率为8k,位宽为16bit。 表1 示例音频 音频格式 下载链接 mp3 https://sis-sample-audio.obs.cn-north-1.myhuaweicloud
一句话识别Websocket接口 前提条件 确保已按照配置Python环境配置完毕,Python SDK仅支持Python3。 确保已存在待识别的音频文件。如果需要请在下载的SDK压缩包中获取示例音频。 该功能为1.70及以上版本SDK新增功能,使用前请检查并更新SDK版本。 请参考SDK(
示例音频 测试音频如表 示例音频所示,音频文件标题表示采样率和位宽。如8k16bit.pcm表示音频采样率为8k,位宽为16bit。 表1 示例音频 音频格式 下载链接 mp3 https://sis-sample-audio.obs.cn-north-1.myhuaweicloud
实时语音识别 前提条件 确保已按照配置Java环境配置完毕。 确保已存在待识别的音频文件。如果需要请在下载的SDK压缩包中获取示例音频。 请参考SDK(websocket)获取最新版本SDK包。 初始化Client 初始化RasrClient,其参数包括AuthInfo、RasrListener、SisConfig。
一句话识别Websocket接口 前提条件 确保已按照配置Java环境配置完毕。 确保已存在待识别的音频文件。如果需要请在下载的SDK压缩包中获取示例音频。 该功能为1.70及以上版本SDK新增功能,使用前请检查并更新SDK版本。 请参考SDK(websocket)获取最新版本SDK包。
er/jobs 录音文件识别-提交请求 AsrCustomLongResponse getAsrLongResponse(String jobId) GET /v1/{project_id}/asr/transcriber/jobs/{job_id} 录音文件识别-状态查询 Tt
Service,简称SIS)是一种人机交互方式,用户通过实时访问和调用API获取语音交互结果。例如用户通过语音识别功能,将口述音频或者语音文件识别成可编辑的文本,同时也支持通过语音合成功能将文本转换成逼真的语音等提升用户体验。适用场景如语音客服质检、会议记录、语音短消息、有声读物、电话回访等。
是否必选 参数类型 描述 config 是 Config object 配置信息。 data 是 String 本地音频文件经过Base64编码后的字符串,音频文件时长小于60s。 表3 Config 参数名称 是否必选 参数类型 描述 audioFormat 是 String 音
Service(对象存储服务),提供海量、安全、高可靠、低成本的数据存储能力,可供用户存储任意类型和大小的数据。 EI企业智能服务对于图片、语音等多媒体文件支持直接使用华为云OBS服务的数据处理方式,以减少服务使用成本,降低服务的响应时长,提升服务使用的体验。语音交互服务优先推荐使用同一reg
/** * 检测到句子开始事件 */ @Override public void onVoiceStart() { } /** * 检测到句子结束事件
该接口的使用限制请参见约束与限制,详细使用指导请参见SIS服务使用简介章节。 SIS服务控制台提供了语音合成的在线使用页面,用户无需编程即可使用服务功能。 图1 在线使用 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成
配置热词表(可选) 调用一句话识别、录音文件识别、实时语音识别API时,如果在您的业务领域有一些特有的词,默认识别效果差的时候可以考虑使用热词管理功能,将这些词添加到词表,改善识别效果。 创建热词表(1.0版本) 创建热词表有两种方式:控制台创建、调用API创建。本章节主要介绍通过控制台创建的方法。
创建热词表 在一句话识别、录音文件识别、实时语音识别服务中,如果在您的业务领域有一些特有的词,默认识别效果差的时候可以考虑使用热词管理功能,将这些词添加到词表,改善识别效果。 热词可以是姓名、公司名、某个领域的专有名词,如人名"王晓茗”(通常会识别为"王小明”)、运输域的“高栏”
一句的识别。 如果设置为0,表示不检测“长时间静音”情况。 取值范围:[0, 60000]的整数,单位为ms,默认为10000ms,即10s。 vad_tail 否 Integer 音频的结尾中的静音时间,正常情况下不应设成很小的值。 如果检测语音结尾的静音时长大于等于此值时,在
该接口的使用限制请参见约束与限制,详细使用指导请参见SIS服务使用简介章节。 SIS服务控制台提供了一句话识别的在线使用页面,用户无需编程即可使用服务功能。 图1 在线使用 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成
下载并安装Postman,Postman建议使用7.24.0版本。 下载华为云SIS服务Postman的配置文件。 配置文件下载地址:sis-postman.json。 如果浏览器显示文件内容,鼠标右键另存为JSON文件。 导入配置文件。 打开并登录Postman。 单击左上角“File > Import > Import