检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
property取值范围。 addPunc 否 String 表示是否在识别结果中添加标点,取值为“yes”和“no”,默认为“no”。 digitNorm 否 String 表示是否将语音中的数字识别为阿拉伯数字,取值为“yes” 和 “no”,默认为“yes”。 vocabularyId
为什么录音文件识别出现重复转写结果 问题现象 调用录音文件识别接口,识别的结果出现两条完全一致的结果。 解决方案 由于声道设置的原因,单声道的音频按照双声道处理了。 在请求中将参数“channel”的值修改成“MONO”或者直接去掉请求参数中的“channel”项。 父主题: API使用类
onExceededAudio(); 识别时长超过一分钟时,响应,后续录入音频不在识别。 void onResponseError(AsrResponse response); 识别过程中出现异常,调用。 void onResponseEnd(AsrResponse response); 识别结束时回调。
语音合成 前提条件 确保已按照配置Python环境配置完毕,Python SDK仅支持Python3。 请参考SDK(websocket)获取最新版本SDK包。 初始化Client 初始化TtsCustomizationClient详见表 TtsCustomizationClient初始化参数。
语音合成后输出的音频格式是什么 语音合成后返回一组Base64编码格式的语音数据,用户需要用编程语言或者sdk将返回的Base64编码格式的数据解码成byte数组,再保存为wav格式的音频。 语音合成(Text To Speech ,TTS服务)服务的音频格式则根据接口中audi
音频流数据 功能介绍 分多段返回二进制语音数据流,如果用户未设置语音格式,则默认返回pcm格式语音。 父主题: 语音合成结果响应
语音合成结果响应 音频流数据 时间戳数据 父主题: 实时语音合成响应
语音合成结束响应 功能介绍 当合成引擎处理完合成请求后,会发送合成结束响应。客户端收到该响应后关闭当前Websocket链接即可。 响应消息 表1 响应参数 名称 参数类型 说明 resp_type String 响应类型。参数值为END,表示语音合成结束。 trace_id String
语音合成错误响应 功能介绍 合成引擎处理合成请求时如果发生错误则返回该响应。 响应消息 表1 响应参数 名称 参数类型 说明 resp_type String 响应类型。参数值为ERROR,表示错误响应。 trace_id String 服务内部的令牌,可用于在日志中追溯具体流程。
应用场景 语音客服质检 识别客服、客户的语音,转换为文本。进一步通过文本检索,检查有没有违规、敏感词、电话号码等信息。 会议记录 对会议记录的音频文件,进行快速的识别,转化成文字,方便进行会议记录。 语音短消息 通过语音发送或者接收短消息时,将音频短消息转文字,提升阅读效率和交互体验。
计费说明 计费项 一句话识别、语音合成按调用次数计费;实时语音识别、录音文件识别按音频时长计费;录音文件识别极速版按照“音频时长×需要识别的音频声道数“计费,时长计算精确到秒。 按音频时长计费的,累加每次调用的音频时长。 按调用次数计费的,返回失败的调用不计入次数。 调用热词接口,不单独计费。
目前语音交互服务一句话识别、录音文件识别支持以下地区和终端节点: 当前服务仅支持北京和上海区域,后续会陆续上线其他区域。 华北-北京四,推荐的区域,支持一句话识别、录音文件识别、实时语音识别、语音合成和热词等接口。 华东-上海一,推荐的区域,支持一句话识别、录音文件识别、实时语音识别、语音合成和热词等接口
时间戳数据 功能介绍 实时语音合成服务在生成音频流的同时,可以生成每个汉字/英文单词的时间戳信息。该信息可用于视频字幕和驱动数字人口型。 参数设置 设置请求参数subtitle为"word_level"或"phoneme_level"时,开启时间戳功能。 响应信息 表1 响应参数
开始合成响应 功能介绍 语音合成引擎收到实时语音合成请求时,首先向客户端发送合成开始响应,表示开始处理语音合成请求。 响应消息 表1 响应参数 名称 参数类型 说明 resp_type String 响应类型。参数值为START,表示开始语音合成。 trace_id String
实时语音合成响应 开始合成响应 语音合成结果响应 语音合成结束响应 语音合成错误响应 严重错误响应 父主题: 实时语音合成接口
频、普通话或者带有一定方言的语音文件识别成可编辑的文本,同时也支持通过语音合成功能将文本转换成逼真的语音等提升用户体验。适用场景如语音客服质检、会议记录、语音短消息、有声读物、电话回访等。 语音交互(实时语音识别、一句话识别、录音文件识别、语音合成)服务所提供的API为自研API。
实时语音合成请求 开始语音合成请求 父主题: 实时语音合成接口
、实时语音识别、语音合成和热词等接口。 华东-上海一,推荐的区域,支持一句话识别、录音文件识别、实时语音识别、语音合成和热词等接口。 父主题: 区域与可用区
SDK简介 语音交互概述 语音交互服务(Speech Interaction Service,简称SIS)是一种人机交互方式,用户通过实时访问和调用API获取语音交互结果。支持用户通过语音识别功能,将口述音频、普通话或者带有一定方言的语音文件识别成可编辑的文本,同时也支持通过语音合成功
支持哪些语言 录音文件识别、语音合成支持中文普通话。 一句话识别和实时语音识别支持中文普通话,带方言口音的普通话和方言(四川话、粤语和上海话)。 父主题: 产品咨询类