检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
调用说明 SIS服务提供了两种接口,包含REST(Representational State Transfer)API,支持您通过HTTPS请求调用,调用方法请参见如何调用REST API。也包含WebSocket接口,支持Websocket协议,调用方法请参见如何调用WebSocket
认证鉴权 调用接口有如下两种认证方式,您可以选择其中一种进行认证鉴权。 Token认证:通过Token认证通用请求。 AK/SK认证:通过AK(Access Key ID)/SK(Secret Access Key)加密调用请求。 Token认证 Token的有效期为24小时,需
实时语音识别 支持“华北-北京四”、“华东-上海一”区域。 当前服务仅支持北京和上海区域,后续会陆续上线其他区域。 华北-北京四,推荐的区域,支持一句话识别、录音文件识别、实时语音识别和语音合成和热词等接口。 华东-上海一,推荐的区域,支持一句话识别、录音文件识别、实时语音识别、语音合成和热词等接口。
身份认证与访问控制 身份认证 用户访问SIS的方式有多种,包括SIS控制台、API、SDK,无论访问方式封装成何种形式,其本质都是通过SIS提供的API接口进行请求。 SIS的接口有如下两种认证方式,您可以选择其中一种进行认证鉴权。 Token认证:通过Token认证调用请求。 AK/SK认证:通过AK(Access
权限类 语音交互服务需要申请什么权限 如何通过主账号创建一个子账号 语音识别是强制绑定使用OBS进行录音文件存储吗
登录访问密钥界面,选择“管理访问密钥 > 新增访问密钥”获取。访问密钥为credentials.csv文件,包含AK/SK信息。 region 部署区域,如:cn-north-4。具体请参考终端节点。 project_id 项目ID,同region一一对应,登录API凭证界面获取。 text
账密报错“The username or password is wrong.” 问题现象 获取Token时出现“The username or password is wrong.”。 请确认近期华为云账号是否有升级为华为账号。当前,如果您通过华为账号入口登录华为云账号,就会指
SSML标记语言介绍 本文为您介绍SSML(Speech Synthesis Markup Language)标记语言的功能、标签使用及示例。 概述 SSML 是一种基于 XML 的语音合成标记语言。使用 SSML 可以更加准确、具体的定义合成音频的效果,包括控制断句分词方式、发
Token怎么获取 Token接口请求构造如下所示: username、domainname、project name可登录控制台“我的凭证”页面获取。password为用户密码。 如果您的华为云账号已升级为华为账号,将不支持获取Token。建议为您自己创建一个IAM用户,获取I
发送音频数据 在收到“开始识别”的响应之后,可以开始发送音频数据。为节省流量,音频以二进制数据帧形式(binary message)的方式发送。 音频数据将分片发送,也即在获得一定量音频数据的同时就可以发送一个binary message,每个分片建议在50ms~1000ms之间
语音合成结束响应 功能介绍 当合成引擎处理完合成请求后,会发送合成结束响应。客户端收到该响应后关闭当前Websocket链接即可。 响应消息 表1 响应参数 名称 参数类型 说明 resp_type String 响应类型。参数值为END,表示语音合成结束。 trace_id String
如何修改发音人 修改代码中property的取值即可,支持的发音人如表1和表2所示。 POST https://{endpoint}/v1/{project_id}/tts Request Header: Content-Type: application/json X-Auth-Token:
终端节点 终端节点即调用API的请求地址,不同服务不同区域的终端节点不同。 目前语音交互服务一句话识别、录音文件识别支持以下地区和终端节点: 当前服务仅支持北京和上海区域,后续会陆续上线其他区域。 华北-北京四,推荐的区域,支持一句话识别、录音文件识别、实时语音识别、语音合成和热词等接口。
时间戳数据 功能介绍 实时语音合成服务在生成音频流的同时,可以生成每个汉字/英文单词的时间戳信息。该信息可用于视频字幕和驱动数字人口型。 参数设置 设置请求参数subtitle为"word_level"或"phoneme_level"时,开启时间戳功能。 响应信息 表1 响应参数
SDK简介 语音交互概述 语音交互服务(Speech Interaction Service,简称SIS)是一种人机交互方式,用户通过实时访问和调用API获取语音交互结果。支持用户通过语音识别功能,将口述音频、普通话或者带有一定方言的语音文件识别成可编辑的文本,同时也支持通过语音