检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
/v1/{project_id}/asr/short-audio 录音文件识别接 录音文件识别接口 识别接口:POST /v1/{project_id}/asr/transcriber/jobs 状态查询:GET /v1/{project_id}/asr/transcriber/jobs/{job_id}
配置Java环境 配置环境 在使用语音交互SDK时,需要准备的环境请参见表 开发环境。 目前Java SDK不支持在android中使用。 表1 开发环境 准备项 说明 操作系统 Windows系统,推荐Windows 7及以上版本。 JDK Java开发环境的基本配置。版本要求:强烈推荐使用1
语音合成能不能支持返回立体音(双声道)格式的音频 如何解决“The silence time is too long, and the audio will not be recognized”报错 Token怎么获取 如何申请公测 如何修改发音人 实时语音识别多人同时使用,如何区分各自识别结果
AnalysisInfoResult 参数 是否必选 参数类型 描述 role 否 String 角色类型,目前对于8k音频以及16k双声道音频仅支持 AGENT(座席),USER(用户)。可用于电话质检等场景。对于16k单声道音频,支持多个说话人,取值范围是(speaker1 ~ speaker10),最多支持10个说话人,可用于会议场景。
请重试,或联系技术支持工程师。 SIS.0306 语音识别异常。 请重试,或联系技术支持工程师。 SIS.0307 语音识别异常。 请重试,或联系技术支持工程师。 SIS.0309 实时语音识别音频时长超过最大值。 请注意音频的时长限制,流式一句话(short-stream)和单句模式(sentence
约束与限制 实时语音识别 一句话识别 录音文件识别 语音合成 录音文件识别极速版
AsrCustomShortRequest 参数名称 是否必选 参数类型 描述 data 是 String 本地音频文件经过Base64编码后的字符串,音频文件时长不超过1min。 audioFormat 是 String 音频格式,具体信息请参见《API参考》中一句话识别章节。 property 是 String
iOS SDK 一句话识别 实时语音识别连续模式
CPP SDK(Windows) 使用实时语音识别 使用实时语音合成
CPP SDK(Linux) 使用实时语音识别 使用实时语音合成
权限类 语音交互服务需要申请什么权限 如何通过主账号创建一个子账号 语音识别是强制绑定使用OBS进行录音文件存储吗
前提条件 确保已按照配置Python环境配置完毕,Python SDK仅支持Python3。 确保已存在待识别的音频文件。如果需要请在下载的SDK压缩包中获取示例音频。 该功能为1.70及以上版本SDK新增功能,使用前请检查并更新SDK版本。 请参考SDK(websocket)获取最新版本SDK包。
准备环境 配置Java环境 配置Python环境 配置Android 环境 配置CPP环境(Windows) 配置CPP环境(Linux)
华北-北京四,推荐的区域。 华东-上海一,推荐的区域。 支持wav、mp3、m4a、acc、opus格式音频文件。 语音时长不超过120分钟,文件大小不超过100M。 支持从华为云对象存储服务(OBS)下载音频,需要用户提供OBS桶名和对象键值。 父主题: 约束与限制
Java SDK 一句话识别Http接口 一句话识别Websocket接口 录音文件识别 实时语音识别 语音合成 热词管理 实时语音合成 录音文件极速版
Python SDK 一句话识别Http接口 一句话识别Websocket接口 录音文件识别 实时语音识别 语音合成 热词管理 实时语音合成 录音文件极速版
为什么录音文件识别出现重复转写结果 问题现象 调用录音文件识别接口,识别的结果出现两条完全一致的结果。 解决方案 由于声道设置的原因,单声道的音频按照双声道处理了。 在请求中将参数“channel”的值修改成“MONO”或者直接去掉请求参数中的“channel”项。 父主题: API使用类
描述 wav wav格式音频 mp3 mp3格式音频 m4a m4a格式音频 aac aac格式音频 opus ops格式音频。 表5 property property取值 描述 chinese_8k_common 支持采样率为8k的中文普通话语音识别。 chinese_16k_conversation
描述 wav wav格式音频 mp3 mp3格式音频 m4a m4a格式音频 aac aac格式音频 opus ops格式音频。 表5 property取值范围 property取值 描述 chinese_8k_common 支持采样率为8k的中文普通话语音识别。 chinese_16k_conversation