语音交互服务 SIS-华为云

语音交互服务 SIS-识别结果响应:示例

示例 { "resp_type": "RESULT", "trace_id": "567e8537-a89c-13c3-a882-826321939651", "segments": [ { "start_time": 100, "end_time": 1500, "is_final": false, "result": { "text": "第一句中间结果", "word_info": [ { "start_time": 100, "end_time": 800, "word": "第一" }, { "start_time": 800, "end_time": 1000, "word": "句" }, { "start_time": 1000, "end_time": 1500, "word": "结果" } ], "score": 0.0 }, }, ] }

语音交互服务 SIS 实时语音识别响应

语音交互服务 SIS-识别结果响应:响应消息

响应消息表1 响应参数参数名参数类型说明 resp_type String 响应类型。参数值为RESULT，表示识别结果响应。 trace_id String 服务内部的令牌，可用于在日志中追溯具体流程。 segments Array of objects 多句结果。请参考表 segment 数据结构。表2 segment 数据结构参数名参数类型说明 start_time Integer 相对时间戳，表示一句的起始，单位为ms。 end_time Integer 相对时间戳，表示一句的结束，单位为ms。 is_final Boolen 输出是否为最终结果。 true表示是最终结果， false表示为中间临时结果。 result Object 调用成功表示识别结果，调用失败时无此字段。请参考表 result数据结构。表3 result数据结构参数名参数类型说明 text String 识别结果。 score Float 识别结果的置信度，取值范围：0~1。此值仅会在最终结果时被赋值，在中间结果时统一置为“0.0”。说明：目前置信度作用不是太大，请勿过多依赖此值。 word_info Array of Object 分词输出列表。表4 word_info 数据结构参数名是否必选参数类型说明 start_time 否 Integer 起始时间 end_time 否 Integer 结束时间 word 否 String 分词

语音交互服务 SIS 实时语音识别响应

语音交互服务 SIS-SSML标记语言介绍:概述

概述 SSML 是一种基于 XML 的语音合成标记语言。使用 SSML 可以更加准确、具体的定义合成音频的效果，包括控制断句分词方式、发音、速度、停顿、声调和音量等特征。相比文本输入进行合成，有更好的操作灵活性。华为云语音合成服务的SSML实现，基于W3C的语音合成标记语言版本1.1，但并不支持W3C包含的所有的标记类型。目前仅华小飞，华小美，华小龙，华小蕊，华小闽合成支持 SSML功能。该特性与语言无关。发音人property取值详见语音合成。华小飞（朝气男声）：chinese_huaxiaofei_common，支持8k/16k采样率。华小美（温柔女声）：chinese_huaxiaomei_common，支持8k/16k采样率。华小龙（朝气男声）：chinese_huaxiaolong_common，支持16k采样率。华小蕊（知性女声）：chinese_huaxiaorui_common，支持16k采样率。华小闽（闽南女生）：chinese_huaxiaomin_common，支持8k/16k采样率。

语音交互服务 SIS 语音合成接口

语音交互服务 SIS-基本概念

基本概念账号用户注册华为云时的账号，账号对其所拥有的资源及云服务具有完全的访问权限，可以重置用户密码、分配用户权限等。由于账号是付费主体，为了确保账号安全，建议您不要直接使用账号进行日常管理工作，而是创建用户并使用他们进行日常管理工作。用户由账号在 IAM 中创建的用户，是云服务的使用人员，具有身份凭证（密码和访问密钥）。在我的凭证下，您可以查看账号ID和用户ID。通常在调用API的鉴权过程中，您需要用到账号、用户和密码等信息。区域（Region）从地理位置和网络时延维度划分，同一个Region内共享弹性计算、块存储、对象存储、VPC网络、弹性公网IP、镜像等公共服务。Region分为通用Region和专属Region，通用Region指面向公共租户提供通用云服务的Region；专属Region指只承载同一类业务或只面向特定租户提供业务服务的专用Region。详情请参见区域和可用区。可用区（AZ，Availability Zone）一个AZ是一个或多个物理数据中心的集合，有独立的风火水电，AZ内逻辑上再将计算、网络、存储等资源划分成多个集群。一个Region中的多个AZ间通过高速光纤相连，以满足用户跨AZ构建高可用性系统的需求。项目华为云的区域默认对应一个项目，这个项目由系统预置，用来隔离物理区域间的资源（计算资源、存储资源和网络资源），以默认项目为单位进行授权，用户可以访问您账号中该区域的所有资源。如果您希望进行更加精细的权限控制，可以在区域默认的项目中创建子项目，并在子项目中购买资源，然后以子项目为单位进行授权，使得用户仅能访问特定子项目中资源，使得资源的权限控制更加精确。图1 项目隔离模型父主题：使用前必读

语音交互服务 SIS

语音交互服务 SIS-时间戳数据:响应信息

响应信息表1 响应参数名称参数类型说明 resp_type String 响应类型。参数值为RESULT。 trace_id String 服务内部的令牌，可用于在日志中追溯具体流程。 result List 时间戳信息表2 result数据结构名称参数类型说明 start_time Integer 文本对应的合成音频的开始时间戳，单位是ms。 end_time Integer 文本对应的合成音频的结束时间戳，单位是ms。 text String 文本信息。 word_index Integer 文本在整句中的位置，从0开始计数。 phonemes List 音素时间戳信息，当subtitle取值为phoneme_level时，返回该信息。表3 phonemes数据结构名称参数类型说明 phoneme String 音素文本信息。 start_time Integer 音素对应的合成音频的开始时间戳，单位是ms。 end_time Integer 音素对应的合成音频的结束时间戳，单位是ms。 phoneme_index Integer 音素位置信息，从0开始。

语音交互服务 SIS 语音合成结果响应

语音交互服务 SIS-语音合成:响应参数

响应参数状态码： 200 表7 响应Body参数参数是否必选参数类型描述 trace_id 否 String 服务内部的令牌，可用于在日志中追溯具体流程。在某些错误情况下可能没有此令牌字符串。 result 否 CustomResult object 调用成功表示合成结果，调用失败时无此字段。表8 CustomResult 参数是否必选参数类型描述 data 否 String 语音数据，以Base64编码格式返回。用户如需生成音频，需要将Base64编码解码成byte数组，再保存为音频，音频格式同“audio_format”参数设置的值，默认为wav格式。语音合成代码示例请参考SDK，SDK已对Base64转音频过程进行封装，可以直接获取音频文件。状态码： 400 表9 响应Body参数参数参数类型描述 error_code String 调用失败时的错误码。调用成功时无此字段。 error_msg String 调用失败时的错误信息。调用成功时无此字段。

语音交互服务 SIS 语音合成接口

语音交互服务 SIS-语音合成:请求示例

请求示例 “endpoint”即调用API的请求地址，不同服务不同区域的“endpoint”不同，具体请参见终端节点。调用语音合成API，将文本合称为语音，并调整语音的音色、语速、音高、音量 POST https://{endpoint}/v1/{project_id}/ttsRequest Header:Content-Type: application/json X-Auth-Token: MIINRwYJKoZIhvcNAQcCoIINODCCDTQCAQExDTALBglghkgBZQMEAgEwgguVBgkqhkiG... Request Body: { "text": "欢迎使用语音云服务。", "config": { "audio_format": "wav", "sample_rate": "8000", "property": "chinese_xiaoyan_common", "speed": 10, "pitch": 10, "volume": 60 } } 使用Python3语言调用语音合成API，将文本合称为语音，并调整语音的音色、语速、音高、音量 # -*- coding: utf-8 -*-# 此demo仅供测试使用，强烈建议使用sdk。需提前安装requests，执行pip install requestsimport requestsimport jsondef stts_demo(): url = 'https://{{endpoint}}/v1/{{project_id}}/tts' # endpoint和project_id需替换 token = '用户对应region的token' text = '待识别的文本' header = { 'Content-Type': 'application/json', 'X-Auth-Token': token } body = {'text': text} resp = requests.post(url, data=json.dumps(body), headers=header) print(resp.text)if __name__ == '__main__': stts_demo() 使用Java语言调用语音合成API，将文本合称为语音，并调整语音的音色、语速、音高、音量 import java.io.BufferedReader;import java.io.InputStream;import java.io.InputStreamReader;import java.io.OutputStreamWriter;import java.net.HttpURLConnection;import java.net.URL;/** * 此demo仅供测试使用，强烈建议使用SDK */public class SttsDemo { public void sttsDemo() { try { // endpoint和projectId需要替换成实际信息。 URL url = new URL("https://{{endpoint}}/v1/{{project_id}}/tts"); String token = "对应region的token"; HttpURLConnection connection = (HttpURLConnection)url.openConnection(); connection.setRequestMethod("POST"); connection.setDoInput(true); connection.setDoOutput(true); connection.addRequestProperty("Content-Type", "application/json"); connection.addRequestProperty("X-Auth-Token", token); OutputStreamWriter osw = new OutputStreamWriter(connection.getOutputStream(), "UTF-8"); String body = "{\"text\": \"123\"}"; osw.append(body); osw.flush(); InputStream is = connection.getInputStream(); BufferedReader br = new BufferedReader(new InputStreamReader(is, "UTF-8")); while (br.ready()) { System.out.println(br.readLine()); } } catch (Exception e) { e.printStackTrace(); } } public static void main(String[] args) { SttsDemo sttsDemo = new SttsDemo(); sttsDemo.sttsDemo(); }}

语音交互服务 SIS 语音合成接口

语音交互服务 SIS-语音合成:响应示例

响应示例状态码：200 成功响应示例 { "trace_id": "567e8537-a89c-13c3-a882-826321939651", "result":{ "data": "/+MgxAAUeHpMAUkQAANhuRAC..." } } 状态码：400 失败响应示例 { "error_code": "SIS.0032", "error_msg": "'audio_format' is invalid" }

语音交互服务 SIS 语音合成接口

语音交互服务 SIS-语音合成:请求参数

请求参数表2 请求Header参数参数是否必选参数类型描述 X-Auth-Token 是 String 用户Token。用于获取操作API的权限。获取方法请参见认证鉴权。响应消息头中X-Subject-Token的值即为Token。 Enterprise-Project-Id 否 String 企业项目ID。SIS支持通过企业项目管理（EPS）对不同用户组和用户的资源使用，进行分账。获取方法：进入“企业项目管理”页面，单击企业项目名称，在企业项目详情页获取Enterprise-Project-Id（企业项目ID）。企业项目创建步骤请参见用户指南。说明：账户创建企业项目后，在传参时，有以下三类场景。携带正确的ID，正常使用SIS服务，账单归到企业ID对应的企业项目中。携带错误的ID，正常使用SIS服务，账单的企业项目会被分类为“default”。不携带ID，正常使用SIS服务，账单的企业项目会被分类为“default”。表3 请求Body参数参数是否必选参数类型描述 text 是 String 待合成的文本，文本长度限制不大于500字符。 config 否 TtsConfig object 语音合成配置信息。表4 TtsConfig 参数是否必选参数类型描述 audio_format 否 String 语音格式头：wav、mp3、pcm 默认：wav 父节点：config sample_rate 否 String 采样率：16000、8000赫兹默认：8000 父节点：config property 否 String 语音合成特征字符串，组成形式为{language}_{speaker}_{domain}，即“语种_人员标识_领域”。发音人分为普通发音人和精品发音人，每次调用价格相同，针对精品发音人，每50字计一次调用，不足50字按一次计；普通发音人每100字计一次调用，不足100字按一次计。其中1个汉字、1个英文字母或1个标点均算作1个字符，具体费用请参考价格计算器。普通发音人：取值范围请参考表普通发音人property取值范围。精品发音人：区域仅支持cn-north-4、cn-east-3，暂时不支持音高调节，取值范围请参考表精品发音人property取值范围。使用精品发音人如果报错SIS.0411，请检查是否符合使用约束。默认：chinese_xiaoyan_common，中文发音，小燕，温柔女声发音人。父节点：config speed 否 Integer 语速。取值范围：-500~500 默认值：0 父节点：config 说明：当取值为“0”时，表示一个成年人正常的语速，约为250字/分钟。设置该值时，语速和数值没有绝对的映射关系。 pitch 否 Integer 音高。取值范围： -500~500 默认值：0 父节点：config volume 否 Integer 音量。取值范围：0~100 默认值：50 父节点：config 表5 普通发音人property取值范围名称 property取值类型使用场景支持采样率（Hz）小琪 chinese_xiaoqi_common 标准女声客服 8k/16k 小雯 chinese_xiaowen_common 柔美女声客服 8k/16k 小宇 chinese_xiaoyu_common 标准男声电销 8k/16k 小夏 chinese_xiaoxia_common 热情女声电销 8k/16k 小燕 chinese_xiaoyan_common 温柔女声文学 8k/16k 小倩 chinese_xiaoqian_common 成熟女声文学 8k/16k 小王 chinese_xiaowang_common 童声童声 8k/16k 小呆 chinese_xiaodai_common 呆萌童声童声 8k/16k 小婧 chinese_xiaojing_common 俏皮女声新闻播报 8k/16k 小宋 chinese_xiaosong_common 激昂男声新闻播报 8k/16k cameal english_cameal_common 英文女声英文 8k/16k 表6 精品发音人property取值范围名称 property取值类型使用场景支持采样率（Hz）华小夏 chinese_huaxiaoxia_common 热情女声电销 8k/16k 华小唯 chinese_huaxiaowei_common 嗲柔女声电销 8k/16k 华小颜 chinese_huaxiaoyan_common 严厉女声电销 8k/16k 华晓阳 chinese_huaxiaoyang_common 朝气男声电销 8k/16k 华晓刚 chinese_huaxiaogang_common 利落男声客服 8k/16k 华小雯 chinese_huaxiaowen_common 柔美女声客服 8k/16k 华小美 chinese_huaxiaomei_common 温柔女声客服 8k/16k 华小飞 chinese_huaxiaofei_common 朝气男声客服 8k/16k 华小璐 chinese_huaxiaolu_common 知性女声新闻播报 8k/16k 华小靓 chinese_huaxiaoliang_common 嘹亮女声新闻播报 8k/16k 华晓东 chinese_huaxiaodong_common 成熟男声新闻播报 8k/16k 华小蕊 chinese_huaxiaorui_common 知性女声中英混合 16k 华小萱 chinese_huaxiaoxuan_common 台湾女声方言 8k/16k 华小闽 chinese_huaxiaomin_common 闽南女声方言 8k/16k 华小舒 chinese_huaxiaoshu_common 舒缓女声文学 8k/16k 华女侠 chinese_huanvxia_literature 武侠女生（只支持http形式调用）文学 16k 华晓悬 chinese_huaxiaoxuan_literature 悬疑男声（只支持http形式调用）文学 16k 华小龙 chinese_huaxiaolong_common 朝气男声中英混合 16k 华小汝 chinese_huaxiaoru_common 柔美女声中英混合 8k/16k 华小涵 chinese_huaxiaohan_common 知性女声中英混合 8k/16k 华小宁 chinese_huaxiaoning_common 沉稳男声中英混合 8k/16k 华小珍 chinese_huaxiaozhen_common 温柔女声中英混合 8k/16k 华小曼 chinese_huaxiaoman_common 温柔女声中英混合 16k 华小芳 chinese_huaxiaofang_common 朝气女声中英混合 16k 华小筠 chinese_huaxiaojun_common 成熟女声中英混合 16k alvin english_alvin_common 成熟男声纯英文 8k/16k amy english_amy_common 成熟女声纯英文 8k/16k

语音交互服务 SIS 语音合成接口

语音交互服务 SIS-获取项目ID:调用API获取项目ID

调用API获取项目ID 获取项目ID的接口为“GET https://{Endpoint}/v3/projects”，其中{Endpoint}为IAM的终端节点。接口的认证鉴权请参见认证鉴权。响应示例如下，例如，语音交互服务部署的区域为“cn-north-4”，响应消息体中查找“name”为“cn-north-4”，其中projects下的“id”即为项目ID。 { "projects": [ { "domain_id": "65382450e8f64ac0870cd180d14e684b", "is_domain": false, "parent_id": "65382450e8f64ac0870cd180d14e684b", "name": "project_name", "description": "", "links": { "next": null, "previous": null, "self": "https://support-intl.huaweicloud.com/zh-cn/devg-apisign/api-sign-provide.htmlcd05f897d6b99" }, "id": "a4a5d4098fb4474fa22cd05f897d6b99", "enabled": true } ], "links": { "next": null, "previous": null, "self": "https://www.example.com/v3/projects" } }

语音交互服务 SIS

语音交互服务 SIS-更新热词表:请求参数

请求参数表2 请求Header参数参数是否必选参数类型描述 X-Auth-Token 是 String 用户Token。用于获取操作API的权限。获取方法请参见认证鉴权。响应消息头中X-Subject-Token的值即为Token。表3 请求Body参数参数是否必选参数类型描述 name 是 String 热词表名，不可重复。内容限制为字母，数字，下中划线和井号，长度不超过32字节。 description 否 String 热词表描述，长度不超过255字节。 language 是 String 热词表语言类型。 language取值：chinese_mandarin，表示汉语普通话。 contents 是 Array of strings 支持中英混编热词，单个热词只能由英文字母和unicode编码的汉字组成，不能有其他符号，包括空格。单词库支持热词数上限10000。单个热词长度上限32字节。

语音交互服务 SIS

语音交互服务 SIS-更新热词表:请求示例

请求示例 “endpoint”即调用API的请求地址，不同服务不同区域的“endpoint”不同，具体请参见终端节点。更新热词表 PUT https://{endpoint}/v1/{project_id}/asr/vocabularies/{vocabulary_id}Request Header:Content-Type: application/jsonX-Auth-Token: MIINRwYJKoZIhvcNAQcCoIINODCCDTQCAQExDTALBglghkgBZQMEAgEwgguVBgkqhkiG... Request Body:{ "name": "telepower", "description": "telepower 具体描述", "language": "chinese_mandarin", "contents": ["示例"]}

语音交互服务 SIS

语音交互服务 SIS-流式一句话:功能介绍

功能介绍流式一句话模式的语音长度限制为一分钟，适合于对话聊天等识别场景。该接口支持用户将一整段语音分段，以流式输入，最后得到识别结果。实时语音识别引擎在获得分段的输入语音的同时，就可以同步地对这段数据进行特征提取和解码工作，而不用等到所有数据都获得后再开始工作。因此这样就可以在最后一段语音结束后，仅延迟很短的时间（也即等待处理最后一段语音数据以及获取最终结果的时间）即可返回最终识别结果。这种流式输入方式能缩短整体上获得最终结果的时间，极大地提升用户体验。

语音交互服务 SIS

语音交互服务 SIS-终端节点

终端节点终端节点即调用API的请求地址，不同服务不同区域的终端节点不同。目前语音交互服务一句话识别、录音文件识别支持以下地区和终端节点：当前服务仅支持北京和上海区域，后续会陆续上线其他区域。华北-北京四，推荐的区域，支持一句话识别、录音文件识别、实时语音识别、语音合成和热词等接口。华东-上海一，推荐的区域，支持一句话识别、录音文件识别、实时语音识别、语音合成和热词等接口。一句话识别，录音文件识别支持的终端节点：表1 一句话识别、录音文件识别区域名称区域终端节点（Endpoint）协议类型华北-北京四 cn-north-4 sis-ext.cn-north-4.myhuaweicloud.com sis-ext.cn-north-4.myhuaweicloud.cn https 华东-上海一 cn-east-3 sis-ext.cn-east-3.myhuaweicloud.com sis-ext.cn-east-3.myhuaweicloud.cn https 实时语音识别( RASR)支持的终端节点：表2 实时语音识别区域名称区域终端节点（Endpoint）协议类型华北-北京四 cn-north-4 sis-ext.cn-north-4.myhuaweicloud.com sis-ext.cn-north-4.myhuaweicloud.cn Websocket 华东-上海一 cn-east-3 sis-ext.cn-east-3.myhuaweicloud.com sis-ext.cn-east-3.myhuaweicloud.cn Websocket 语音合成支持的终端节点：表3 语音合成区域名称区域终端节点（Endpoint）协议类型华北-北京四 cn-north-4 sis-ext.cn-north-4.myhuaweicloud.com sis-ext.cn-north-4.myhuaweicloud.cn https 华东-上海一 cn-east-3 sis-ext.cn-east-3.myhuaweicloud.com sis-ext.cn-east-3.myhuaweicloud.cn https 实时语音合成服务支持的终端节点：表4 实时语音合成区域名称区域终端节点（Endpoint）协议类型华北-北京四 cn-north-4 sis-ext.cn-north-4.myhuaweicloud.com sis-ext.cn-north-4.myhuaweicloud.cn Websocket 华东-上海一 cn-east-3 sis-ext.cn-east-3.myhuaweicloud.com sis-ext.cn-east-3.myhuaweicloud.cn Websocket 热词（一句话识别、录音文件识别、实时语音识别中的热词）支持服务终端：表5 热词：区域名称区域终端节点（Endpoint）协议类型华北-北京四 cn-north-4 sis-ext.cn-north-4.myhuaweicloud.com sis-ext.cn-north-4.myhuaweicloud.cn https 华东-上海一 cn-east-3 sis-ext.cn-east-3.myhuaweicloud.com sis-ext.cn-east-3.myhuaweicloud.cn https 父主题：使用前必读

语音交互服务 SIS

语音交互服务 SIS-事件响应:响应消息

响应消息表1 响应参数参数名参数类型说明 resp_type String 响应类型。参数值为EVENT，表示开始识别响应。 trace_id String 服务内部的令牌，可用于在日志中追溯具体流程。 event String 具体的事件，详细参数可参见event取值范围及其说明。 timestamp Integer 保留字段。将来会用于此事件发生的具体时间，以会话开始作为0点，单位为ms。

语音交互服务 SIS

云服务器内容精选

语音交互服务 SIS

7*24

备案

专业服务

退订

建议反馈

售前咨询热线