检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
结束识别 功能介绍 对于识别中的对话,需要在Websocket上发送“结束识别”的请求来取消或结束识别。 "结束识别"请求使用文本类型的数据帧(text message)发送,命令和参数以json字符串的形式提供。 请求消息 表1 参数说明 参数名 是否必选 参数类型 说明 command
流式一句话 功能介绍 流式一句话模式的语音长度限制为一分钟,适合于对话聊天等识别场景。 该接口支持用户将一整段语音分段,以流式输入,最后得到识别结果。实时语音识别引擎在获得分段的输入语音的同时,就可以同步地对这段数据进行特征提取和解码工作,而不用等到所有数据都获得后再开始工作。因
果,支持的语言包含中文普通话、方言和英语,方言当前支持四川话、粤语和上海话。 文本时间戳 为音频转换结果生成特定的时间戳,从而通过搜索文本即可快速找到对应的原始音频。 智能断句 通过提取上下文相关语义特征,并结合语音特征,智能划分断句及添加标点符号,提升输出文本的可阅读性。 中英文混合识别
在使用语音交互服务过程中委托我们处理的语音音频和文本等数据,您完全拥有上述数据所有权及控制权,您应自行对上述数据来源和获取的合法性负责,华为云受托处理您的数据,以实现本服务功能或目的: (1)将语音音频数据识别转换成文本。 (2)将文本数据合成语音。 您的上述数据将在中华人民共和国
8bit、wav、amr、amrwb等多种格式,详见API参考文档中的“audio_format取值范围”。 音频时长不超过1分钟。 支持中文普通话、方言和英语的语音识别,其中方言包括:四川话、粤语和上海话。 方言仅支持“华北-北京四”区域,英语仅支持“华东-上海一”区域。 父主题:
识别和语音合成和热词等接口。 华东-上海一,推荐的区域,支持一句话识别、录音文件识别、实时语音识别、语音合成和热词等接口。 支持中文、英文、中英文,文本不长于500个字符。 支持合成采样率8kHz、16kHz。 父主题: 约束与限制
应用场景 语音客服质检 识别客服、客户的语音,转换为文本。进一步通过文本检索,检查有没有违规、敏感词、电话号码等信息。 会议记录 对会议记录的音频文件,进行快速的识别,转化成文字,方便进行会议记录。 语音短消息 通过语音发送或者接收短消息时,将音频短消息转文字,提升阅读效率和交互体验。
-cn4,obs_object_key值为abc/16k_pcm.wav。如果上传至OBS桶中的文件或OBS路径为中文,obs_object_key的值需要采用中文形式。 obs_object_key 是 String 表示OBS对象桶中的对象的键值,长度小于1024个字符,需要进行urlencode编码。
在控制台中,鼠标移动至右上角的用户名处,在下拉列表中单击“我的凭证”。 单击“访问密钥”页签,在页签中,单击“新增访问密钥”。 在“身份验证”对话框中,输入当前用户的登录密码,通过邮箱或者手机进行验证,输入对应的验证码。 单击“确定”,下载认证账号的AK/SK,请妥善保管AK/SK信息。
<say-as> 标签闭合嵌套于文本之中,如: { "text": "<speak>文本<break time=\"15ms\"/>本文, <say-as interpret-as=\"money\">15.55 RMB</say-as></speak>" } 将带标签的文本作为text的参数值,上传至语音服务进行调用,以Java
chinese_8k_common 支持采样率为8k的中文普通话语音识别。 chinese_16k_common 支持采样率为16k的中文普通话语音识别。 sichuan_16k_common 支持采样率为16k的中文普通话与四川话方言语音识别。区域仅支持cn-north-4
不携带ID,正常使用SIS服务,账单的企业项目会被分类为“default”。 表3 请求Body参数 参数 是否必选 参数类型 描述 text 是 String 待合成的文本,文本长度限制不大于500字符。 config 否 TtsConfig object 语音合成配置信息。 表4 TtsConfig 参数 是否必选
是 待合成的文本,chinese_huaxiaomei_common,chinese_huaxiaofei_common,chinese_huaxiaolong_common,chinese_huaxiaorui_common发音人支持长度不大于10000字符的文本,其他发音人支持长度不大于500字符的文本。
持cn-north-4,cn-east-3,强烈推荐使用) chinese_8k_common(中文普通话语音识别) chinese_16k_conversation(会议场景的中文普通话语音识别) sichuan_8k_common(四川话识别,区域支持cn-north-4,cn-east-3)
start_time Integer 文本对应的合成音频的开始时间戳,单位是ms。 end_time Integer 文本对应的合成音频的结束时间戳,单位是ms。 text String 文本信息。 word_index Integer 文本在整句中的位置,从0开始计数。 phonemes
chinese_16k_general 支持采样率为16k的中文普通话语音识别,采用新一代端到端识别算法,识别准确率更高。 区域支持cn-east-3和cn-north-4(强烈推荐使用)。 chinese_16k_travel 支持采样率为16k的中文普通话语音识别,采用新一代端到端识别算法,并针对网约车质检场景进行了优化。
支持哪些语言 录音文件识别、语音合成支持中文普通话。 一句话识别和实时语音识别支持中文普通话,带方言口音的普通话和方言(四川话、粤语和上海话)。 父主题: 产品咨询类
选中新建的工程,单击右键,下拉选择“Build Path -> Configure Build Path”,在“ Java Build Path” 对话框中,单击“Libraries ”页签,选择“Add JARs”。在打开的窗口中,选择刚放进lib的jar包。单击“OK”,导入完成。 Idea导入SDK。
Websocket握手请求 功能介绍 本接口提供实时流式语音合成。用户每次建立连接,发送待合成文本,服务端将合成结果响应给用户。一次连接只能发送一次文本,如果有多段文本需要合成,需要多次建立连接。实时语音合成和语音合成均属于语音合成接口,采用完全相同的计费规则,两者价格梯度可互相叠加,可参考价格计算器。
请求类为TtsCustomRequest,详见表3。 表3 TtsCustomRequest 参数名称 是否必选 参数类型 描述 text 是 String 待合成的文本。 audio_format 否 String 待合成的音频格式,可选mp3,wav等,默认wav。具体信息请参见《API参考》语音合成章节。