检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
String url = "wss://{{endpoint}}/v1/{{project_id}}/asr/short-audio"; String token = "对应region的token"; byte[] data = null; // 存放将要发送音频的
父主题: 实时语音识别响应
确保已存在待识别的音频文件并上传OBS或者有公网可访问服务器上(需保证可使用域名访问),示例音频可参考下载SDK压缩包文件。如果音频存放在OBS上,确保服务已授权访问OBS,可参考配置OBS服务。
# -*- coding: utf-8 -*- from huaweicloud_sis.client.asr_client import AsrCustomizationClient from huaweicloud_sis.bean.asr_request import AsrCustomLongRequest
vad_head 否 Integer 一段音频的开头,当它的静音持续时间大于等于此值时,在实时语音识别单句模式下将返回“长时间静音”事件并结束识别,在连续模式下将会断句并继续下一句的识别。 如果设置为0,表示不检测“长时间静音”情况。
父主题: 实时语音识别响应
调用所需示例音频参见示例音频。 调用接口的时候,无需开通服务,可直接调用。此时请按照实际需要选择计费方式,计费是按照调用接口的次数或者时长来计算费用,具体计费价格参见语音交互价格计算器。 支持两种计费方式: 按需计费,默认计费方式为“按需计费”。
确保已存在待识别的音频文件。如果需要请在下载的SDK压缩包中获取示例音频。 初始化Client 初始化AsrCustomizationClient,其参数包括AuthInfo和SisConfig。
华东-上海一,推荐的区域,支持一句话识别、录音文件识别、实时语音识别、语音合成和热词等接口。 音频采样率8KHz或者16KHz,采样位数8bit或者16bit。 支持中文普通话、方言和英语的语音识别,其中方言包括:四川话、粤语和上海话。 方言和英语仅支持“华北-北京四”区域。
用户通过调用语音识别类接口,将口述音频、普通话或者带有一定方言的语音文件识别成可编辑的文本,同时也支持通过调用语音合成接口将文本转换成逼真的语音等。适用场景有语音客服质检、会议记录、语音短消息、有声读物、电话回访等。
表5 property property取值 描述 chinese_8k_common 支持采样率为8k的中文普通话语音识别。 chinese_16k_conversation 支持采样率为16k的会议场景的中文普通话语音识别。
表5 property取值范围 property取值 描述 chinese_8k_common 支持采样率为8k的中文普通话语音识别。 chinese_16k_conversation 支持采样率为16k的会议场景的中文普通话语音识别。
音频格式一定要相匹配。 例如wav音频,格式是wav。具体参考api文档。 例如音频是pcm格式,并且采样率为8k,则格式填写pcm8k16bit。
mp3 mp3格式音频。目前仅支持单通道的音频。 aac aac格式音频。目前仅支持单通道的音频。 wav 带wav封装头的格式,从封装头中自动确定格式,目前仅支持8k/16k采样率、单通道、pcm, alaw, ulaw三种编码格式。 amr AMR窄带(8k) 压缩录音数据。
确保已存在待识别的音频文件。如果需要请在下载的SDK压缩包中获取示例音频。 该功能为1.70及以上版本SDK新增功能,使用前请检查并更新SDK版本。
若需要知道语音时长,可以将返回语音数据解码转换成音频格式,播放后查看。 父主题: 产品咨询类
实时语音识别连续模式 功能介绍 连续识别模式的语音总长度限制为五小时,适合于会议、演讲和直播等场景。 连续识别模式在流式识别的基础上,结合了语音的端点检测功能。
如何查看实时语音识别的中间结果 实时语音识别分为开始识别、发送音频数据、结束识别,断开连接四个阶段。在使用API或SDK时,可以通过将interim_results参数设置为yes,将识别过程的中间结果返回。如果设置为no,则会等每句话完毕才会返回识别结果。
# -*- coding: utf-8 -*- from huaweicloud_sis.client.asr_client import SasrWebsocketClient from huaweicloud_sis.bean.asr_request import SasrWebsocketRequest
实时语音识别请求 实时语音识别工作流程 开始识别 发送音频数据 结束识别 父主题: 实时语音识别接口