检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
语音交互服务提供了用户认证和鉴权功能。 对象存储服务 SIS服务接口支持从对象存储服务(Object Storage Service,OBS)上采用临时授权和匿名公开授权的方式获取数据并进行处理。录音文件识别支持从OBS上采用授权的方式获取数据并进行处理。OBS更多信息请参见《对象存储服务产品介绍》。
Service,简称SIS)是一种人机交互方式,用户通过实时访问和调用API获取语音交互结果。支持用户通过语音识别功能,将口述音频、普通话或者带有一定方言的语音文件识别成可编辑的文本,同时也支持通过语音合成功能将文本转换成逼真的语音等提升用户体验。适用场景如语音客服质检、会议记录、语音短消息、有声读物、电话回访等。
对于8k单声道音频,8k双声道音频以及16k双声道音频仅支持两个说话人分离;对于16k单声道音频,自动识别说话人个数,返回结果最多支持10个说话人,并且property仅支持chinese_16k_media,区域仅支持cn-east-3。 channel 否 String 语
一句话识别 支持“华北-北京四”、“华东-上海一”区域。 当前服务仅支持北京和上海区域,后续会陆续上线其他区域。 华北-北京四,推荐的区域,支持一句话识别、录音文件识别、实时语音识别和语音合成和热词等接口。 华东-上海一,推荐的区域,支持一句话识别、录音文件识别、实时语音识别、语音合成和热词等接口。
角色类型,目前对于8k音频以及16k双声道音频仅支持 AGENT(座席),USER(用户)。可用于电话质检等场景。对于16k单声道音频,支持多个说话人,取值范围是(speaker1 ~ speaker10),最多支持10个说话人,可用于会议场景。 emotion 否 String 情绪类型,目前仅支持NORMAL(
chinese_8k_general 支持采样率为8k的中文普通话语音识别,采用新一代端到端识别算法,识别准确率更高。 格式支持pcm8k16bit/alaw8k8bit/ulaw8k8bit,区域支持cn-east-3和cn-north-4(强烈推荐使用)。 chinese_16k_general 支持采样率
l输入是否正确。 2. 检查Token是否可用,检查Token的方法参考调用语音交互的API显示auth failed 3. 检查协议是否支持,目前Websocket使用tls1.2协议,Websocket库使用tls1协议就无法连接。 4. 可使用Java SDK和Python
如何修改发音人 修改代码中property的取值即可,支持的发音人如表1和表2所示。 POST https://{endpoint}/v1/{project_id}/tts Request Header: Content-Type: application/json X-Auth-Token:
目前语音交互服务一句话识别、录音文件识别支持以下地区和终端节点: 当前服务仅支持北京和上海区域,后续会陆续上线其他区域。 华北-北京四,推荐的区域,支持一句话识别、录音文件识别、实时语音识别、语音合成和热词等接口。 华东-上海一,推荐的区域,支持一句话识别、录音文件识别、实时语音识别、语音合成和热词等接口
common、chinese_huaxiaofei_common支持该功能,其他property暂不支持 表3 普通发音人property取值范围 名称 property取值 类型 使用场景 支持采样率(Hz) 支持audio_format 小琪 chinese_xiaoqi_common
功能介绍 通过热词表id查询热词表的信息和内容。详细使用指导请参见SIS服务使用简介章节。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v1/{project
删除热词表 功能介绍 通过热词表id删除热词表。详细使用指导请参见SIS服务使用简介章节。 查询 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI DELETE /v1/{proj
查询热词表列表 功能介绍 查询用户所有热词表列表。详细使用指导请参见SIS服务使用简介章节。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v1/{project
arin,表示汉语普通话。 contents 是 Array of strings 支持中英混编热词,单个热词只能由英文字母和unicode编码的汉字组成,不能有其他符号,包括空格。 单词库支持热词数上限10000。 单个热词长度上限32字节。 响应参数 状态码: 200 表4 响应Body参数
如果调用成功表示服务接口没有问题,请执行如下步骤1和步骤2进行检查: 请检查原调用请求是否过于频繁,如果是并发过大,可以通过重试机制解决,在代码里检查返回值,碰到这个并发错误可以延时一小段时间(如2-5s)重试请求;也可以后端检查上一个请求结果,上一个请求返回之后再发送下一个请求,避免请求过于频繁。
Interface,应用程序编程接口)获取语音交互结果。例如用户通过语音识别功能,将口述音频、普通话或者带有一定方言的语音文件识别成可编辑的文本,同时也支持通过语音合成功能将文本转换成逼真的语音等提升用户体验。适用场景如语音客服质检、会议记录、语音短消息、有声读物、电话回访等。 父主题: 产品咨询类
实时语音识别 支持“华北-北京四”、“华东-上海一”区域。 当前服务仅支持北京和上海区域,后续会陆续上线其他区域。 华北-北京四,推荐的区域,支持一句话识别、录音文件识别、实时语音识别和语音合成和热词等接口。 华东-上海一,推荐的区域,支持一句话识别、录音文件识别、实时语音识别、语音合成和热词等接口。
息。cURL适用于接口调试。关于cURL详细信息请参见https://curl.haxx.se/。 编码 通过编码调用接口,组装请求消息,并发送处理请求消息。 REST客户端 Mozilla、Google都为REST提供了图形化的浏览器插件,发送处理请求消息。下载postman请参见https://www
优先推荐使用新版SDK语音交互服务SDK,该SDK基于统一规范开发,支持Java/Python/C++/.NET/Go/NodeJs/PHP,使用方法可参考api-explorer。该SDK暂不支持websocket方法。 如果需要使用实时语音识别,可考虑使用替代SDK,当前支持Java SDK、Python SDK、CPP
录音文件识别极速版 支持“华北-北京四”、“华东-上海一”区域。 当前语音服务仅支持北京和上海区域,后续会陆续上线其他区域。 华北-北京四,推荐的区域。 华东-上海一,推荐的区域。 支持wav、mp3、m4a、acc、opus格式音频文件。 语音时长不超过120分钟,文件大小不超过100M。