检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
SDK)是对语音交互服务提供的REST API进行的封装,用户直接调用语音交互SDK提供的接口函数即可实现使用语音交互业务能力的目的,以简化用户的开发工作。SIS SDK目前支持Java和Python。 本章节提供了通过Java SDK调用一句话识别服务的样例,帮助用户快速了解如何使用Java SDK调用华为云SIS服务。具体操作如下所示:
chinese_8k_general 支持采样率为8k的中文普通话语音识别,采用新一代端到端识别算法,识别准确率更高。 格式支持pcm8k16bit/alaw8k8bit/ulaw8k8bit,区域支持cn-east-3和cn-north-4(强烈推荐使用)。 chinese_16k_general 支持采样率
Analysisinfo 参数名 是否必选 参数类型 说明 role 否 String 角色类型,目前仅支持 AGENT(座席),USER(用户)。 emotion 否 String 情绪类型,目前仅支持NORMAL(正常),ANGRY(愤怒)。 在识别配置中emotion为true时存在。 speed
配置Python环境 前提条件 确保已安装Python3,目前Python SDK仅支持Python3。 确保已安装setuptools、requests、websocket-client。 操作步骤 下载SDK,通过pip-list命令查看安装包。若未安装,则执行以下命令: pip
表3 SasrWebsocketRequest 参数名称 是否必选 参数类型 描述 audioFormat 是 String 音频格式,支持pcm,alaw,ulaw等,如pcm8k16bit,具体规格请参见《API参考》中开始识别章节。 property 是 String 属
如何通过主账号创建一个子账号 语音交互服务服务不支持IAM细粒度划分策略,IAM账号与主账号具备相同的操作权限。 您可以使用IAM的用户管理功能,给员工或应用程序创建IAM用户,可避免分享自己的账号密码。详细创建步骤请参见创建IAM用户。 父主题: 权限类
WebSocket API 是 HTML5 提供的一种在 TCP 连接上进行全双工通讯协议的 API, 但 WebSocket API 不支持设置 Headers,如需设置 Headers, 建议通过 Nginx 配置反向代理设置 Header; 或者由后端发起 Websocket
页面单击“创建热词表”。 创建成功后,可对热词表内容进行编辑。支持中英混编,最多可添加10000个热词,热词之间用逗号分隔。 热词表支持英文和中文语言类型。中文语言类型的热词最长支持32字符,英文语言类型的热词最长支持64字符。 前端热词创建过程中,具备热词规则校验能力,会将不符合规则的热词返回给用户。
产品暂时不开放购买,请联系技术支持工程师。 SIS.0023 产品购买失败。 产品购买失败,请联系技术支持工程师。 SIS.0024 不允许更新限制。 产品暂时不允许更新限制,请联系技术支持工程师。 SIS.0033 引擎响应超时。 请联系技术支持工程师。 SIS.0201 热词表未找到。
rui_common,支持16k采样率。 华小闽(闽南女生):chinese_huaxiaomin_common,支持8k/16k采样率。 使用方式 语音合成服务支持的SSML标签请参见标签。详情请参考文档下方各标签的介绍和示例。语音合成的SSML功能支持多个 <say-as> 标签闭合嵌套于文本之中,如:
例如音频是pcm格式,并且采样率为8k,则格式填写pcm8k16bit。 如果返回audio_format is invalid 说明该文件格式不支持。具体支持哪些音频格式,需要参考一些api文档。 2. 音频采样率要与属性字符串的采样率要匹配。 例如格式选择pcm1
表5 property取值范围 property取值 描述 chinese_8k_common 支持采样率为8k的中文普通话语音识别。 chinese_16k_conversation 支持采样率为16k的会议场景的中文普通话语音识别。 响应参数 响应类为FlashLasrResponse
arin,表示汉语普通话。 contents 是 Array of strings 支持中英混编热词,单个热词只能由英文字母和unicode编码的汉字组成,不能有其他符号,包括空格。 单词库支持热词数上限10000。 单个热词长度上限32字节。 响应参数 状态码: 200 表4 响应Body参数
流式一句话 功能介绍 流式一句话模式的语音长度限制为一分钟,适合于对话聊天等识别场景。 该接口支持用户将一整段语音分段,以流式输入,最后得到识别结果。实时语音识别引擎在获得分段的输入语音的同时,就可以同步地对这段数据进行特征提取和解码工作,而不用等到所有数据都获得后再开始工作。因
mp3格式音频。目前仅支持单通道的音频。 aac aac格式音频。目前仅支持单通道的音频。 wav 带wav封装头的格式,从封装头中自动确定格式,目前仅支持8k/16k采样率、单通道、pcm, alaw, ulaw三种编码格式。 amr AMR窄带(8k) 压缩录音数据。目前仅支持单通道的音频。
功能介绍 通过热词表id查询热词表的信息和内容。详细使用指导请参见SIS服务使用简介章节。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v1/{project
删除热词表 功能介绍 通过热词表id删除热词表。详细使用指导请参见SIS服务使用简介章节。 查询 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI DELETE /v1/{proj
查询热词表列表 功能介绍 查询用户所有热词表列表。详细使用指导请参见SIS服务使用简介章节。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v1/{project
如何收费 语音服务收费是按照调用接口的次数或者时长来计算费用,详细收费明细请参见价格计算器。 支持两种计费方式: 按需计费,默认计费方式为“按需计费”。 折扣套餐包方式,是用户可以购买套餐包,扣费时调用次数会先在套餐包内进行抵扣,抵扣完后的剩余调用量默认转回按需计费方式。 父主题:
Interface,应用程序编程接口)获取语音交互结果。例如用户通过语音识别功能,将口述音频、普通话或者带有一定方言的语音文件识别成可编辑的文本,同时也支持通过语音合成功能将文本转换成逼真的语音等提升用户体验。适用场景如语音客服质检、会议记录、语音短消息、有声读物、电话回访等。 父主题: 产品咨询类