云服务器内容精选
-
示例 { "resp_type": "RESULT", "trace_id": "567e8537-a89c-13c3-a882-826321939651", "segments": [ { "start_time": 100, "end_time": 1500, "is_final": false, "result": { "text": "第一句中间结果", "word_info": [ { "start_time": 100, "end_time": 800, "word": "第一" }, { "start_time": 800, "end_time": 1000, "word": "句" }, { "start_time": 1000, "end_time": 1500, "word": "结果" } ], "score": 0.0 }, }, ] }
-
响应消息 表1 响应参数 参数名 参数类型 说明 resp_type String 响应类型。参数值为RESULT,表示识别结果响应。 trace_id String 服务内部的令牌,可用于在日志中追溯具体流程。 segments Array of objects 多句结果。 请参考表 segment 数据结构。 表2 segment 数据结构 参数名 参数类型 说明 start_time Integer 相对时间戳,表示一句的起始,单位为ms。 end_time Integer 相对时间戳,表示一句的结束,单位为ms。 is_final Boolen 输出是否为最终结果。 true表示是最终结果, false表示为中间临时结果。 result Object 调用成功表示识别结果,调用失败时无此字段。 请参考表 result数据结构。 表3 result数据结构 参数名 参数类型 说明 text String 识别结果。 score Float 识别结果的置信度,取值范围:0~1。此值仅会在最终结果时被赋值,在中间结果时统一置为“0.0”。 说明: 目前置信度作用不是太大,请勿过多依赖此值。 word_info Array of Object 分词输出列表。 表4 word_info 数据结构 参数名 是否必选 参数类型 说明 start_time 否 Integer 起始时间 end_time 否 Integer 结束时间 word 否 String 分词
-
概述 SSML 是一种基于 XML 的 语音合成 标记语言。使用 SSML 可以更加准确、具体的定义合成音频的效果,包括控制断句分词方式、发音、速度、停顿、声调和音量等特征。相比文本输入进行合成,有更好的操作灵活性。 华为云语音合成服务的SSML实现,基于W3C的语音合成标记语言版本1.1,但并不支持W3C包含的所有的标记类型。目前仅华小飞,华小美,华小龙,华小蕊,华小闽合成支持 SSML功能。该特性与语言无关。发音人property取值详见语音合成。 华小飞(朝气男声):chinese_huaxiaofei_common,支持8k/16k采样率。 华小美(温柔女声):chinese_huaxiaomei_common,支持8k/16k采样率。 华小龙(朝气男声):chinese_huaxiaolong_common,支持16k采样率。 华小蕊(知性女声):chinese_huaxiaorui_common,支持16k采样率。 华小闽(闽南女生):chinese_huaxiaomin_common,支持8k/16k采样率。
-
基本概念 账号 用户注册华为云时的账号,账号对其所拥有的资源及云服务具有完全的访问权限,可以重置用户密码、分配用户权限等。由于账号是付费主体,为了确保账号安全,建议您不要直接使用账号进行日常管理工作,而是创建用户并使用他们进行日常管理工作。 用户 由账号在 IAM 中创建的用户,是云服务的使用人员,具有身份凭证(密码和访问密钥)。 在我的凭证下,您可以查看账号ID和用户ID。通常在调用API的鉴权过程中,您需要用到账号、用户和密码等信息。 区域(Region) 从地理位置和网络时延维度划分,同一个Region内共享弹性计算、块存储、对象存储、VPC网络、弹性公网IP、镜像等公共服务。Region分为通用Region和专属Region,通用Region指面向公共租户提供通用云服务的Region;专属Region指只承载同一类业务或只面向特定租户提供业务服务的专用Region。 详情请参见区域和可用区。 可用区(AZ,Availability Zone) 一个AZ是一个或多个物理数据中心的集合,有独立的风火水电,AZ内逻辑上再将计算、网络、存储等资源划分成多个集群。一个Region中的多个AZ间通过高速光纤相连,以满足用户跨AZ构建高可用性系统的需求。 项目 华为云的区域默认对应一个项目,这个项目由系统预置,用来隔离物理区域间的资源(计算资源、存储资源和网络资源),以默认项目为单位进行授权,用户可以访问您账号中该区域的所有资源。如果您希望进行更加精细的权限控制,可以在区域默认的项目中创建子项目,并在子项目中购买资源,然后以子项目为单位进行授权,使得用户仅能访问特定子项目中资源,使得资源的权限控制更加精确。 图1 项目隔离模型 父主题: 使用前必读
-
响应信息 表1 响应参数 名称 参数类型 说明 resp_type String 响应类型。参数值为RESULT。 trace_id String 服务内部的令牌,可用于在日志中追溯具体流程。 result List 时间戳信息 表2 result数据结构 名称 参数类型 说明 start_time Integer 文本对应的合成音频的开始时间戳,单位是ms。 end_time Integer 文本对应的合成音频的结束时间戳,单位是ms。 text String 文本信息。 word_index Integer 文本在整句中的位置,从0开始计数。 phonemes List 音素时间戳信息,当subtitle取值为phoneme_level时,返回该信息。 表3 phonemes数据结构 名称 参数类型 说明 phoneme String 音素文本信息。 start_time Integer 音素对应的合成音频的开始时间戳,单位是ms。 end_time Integer 音素对应的合成音频的结束时间戳,单位是ms。 phoneme_index Integer 音素位置信息,从0开始。
-
响应参数 状态码: 200 表7 响应Body参数 参数 是否必选 参数类型 描述 trace_id 否 String 服务内部的令牌,可用于在日志中追溯具体流程。 在某些错误情况下可能没有此令牌字符串。 result 否 CustomResult object 调用成功表示合成结果,调用失败时无此字段。 表8 CustomResult 参数 是否必选 参数类型 描述 data 否 String 语音数据,以Base64编码格式返回。 用户如需生成音频,需要将Base64编码解码成byte数组,再保存为音频,音频格式同“audio_format”参数设置的值,默认为wav格式。 语音合成代码示例请参考SDK,SDK已对Base64转音频过程进行封装,可以直接获取音频文件。 状态码: 400 表9 响应Body参数 参数 参数类型 描述 error_code String 调用失败时的错误码。 调用成功时无此字段。 error_msg String 调用失败时的错误信息。 调用成功时无此字段。
-
请求示例 “endpoint”即调用API的请求地址,不同服务不同区域的“endpoint”不同,具体请参见终端节点。 调用语音合成API,将文本合称为语音,并调整语音的音色、语速、音高、音量 POST https://{endpoint}/v1/{project_id}/ttsRequest Header:Content-Type: application/json X-Auth-Token: MIINRwYJKoZIhvcNAQcCoIINODCCDTQCAQExDTALBglghkgBZQMEAgEwgguVBgkqhkiG... Request Body: { "text": "欢迎使用语音云服务。", "config": { "audio_format": "wav", "sample_rate": "8000", "property": "chinese_xiaoyan_common", "speed": 10, "pitch": 10, "volume": 60 } } 使用Python3语言调用语音合成API,将文本合称为语音,并调整语音的音色、语速、音高、音量 # -*- coding: utf-8 -*-# 此demo仅供测试使用,强烈建议使用sdk。需提前安装requests,执行pip install requestsimport requestsimport jsondef stts_demo(): url = 'https://{{endpoint}}/v1/{{project_id}}/tts' # endpoint和project_id需替换 token = '用户对应region的token' text = '待识别的文本' header = { 'Content-Type': 'application/json', 'X-Auth-Token': token } body = {'text': text} resp = requests.post(url, data=json.dumps(body), headers=header) print(resp.text)if __name__ == '__main__': stts_demo() 使用Java语言调用语音合成API,将文本合称为语音,并调整语音的音色、语速、音高、音量 import java.io.BufferedReader;import java.io.InputStream;import java.io.InputStreamReader;import java.io.OutputStreamWriter;import java.net.HttpURLConnection;import java.net.URL;/** * 此demo仅供测试使用,强烈建议使用SDK */public class SttsDemo { public void sttsDemo() { try { // endpoint和projectId需要替换成实际信息。 URL url = new URL("https://{{endpoint}}/v1/{{project_id}}/tts"); String token = "对应region的token"; HttpURLConnection connection = (HttpURLConnection)url.openConnection(); connection.setRequestMethod("POST"); connection.setDoInput(true); connection.setDoOutput(true); connection.addRequestProperty("Content-Type", "application/json"); connection.addRequestProperty("X-Auth-Token", token); OutputStreamWriter osw = new OutputStreamWriter(connection.getOutputStream(), "UTF-8"); String body = "{\"text\": \"123\"}"; osw.append(body); osw.flush(); InputStream is = connection.getInputStream(); BufferedReader br = new BufferedReader(new InputStreamReader(is, "UTF-8")); while (br.ready()) { System.out.println(br.readLine()); } } catch (Exception e) { e.printStackTrace(); } } public static void main(String[] args) { SttsDemo sttsDemo = new SttsDemo(); sttsDemo.sttsDemo(); }}
-
响应示例 状态码:200 成功响应示例 { "trace_id": "567e8537-a89c-13c3-a882-826321939651", "result":{ "data": "/+MgxAAUeHpMAUkQAANhuRAC..." } } 状态码:400 失败响应示例 { "error_code": "SIS.0032", "error_msg": "'audio_format' is invalid" }
-
请求参数 表2 请求Header参数 参数 是否必选 参数类型 描述 X-Auth-Token 是 String 用户Token。 用于获取操作API的权限。获取方法请参见认证鉴权。响应消息头中X-Subject-Token的值即为Token。 Enterprise-Project-Id 否 String 企业项目ID。SIS支持通过企业项目管理(EPS)对不同用户组和用户的资源使用,进行分账。 获取方法:进入“企业项目管理”页面,单击企业项目名称,在企业项目详情页获取Enterprise-Project-Id(企业项目ID)。 企业项目创建步骤请参见用户指南。 说明: 账户创建企业项目后,在传参时,有以下三类场景。 携带正确的ID,正常使用SIS服务,账单归到企业ID对应的企业项目中。 携带错误的ID,正常使用SIS服务,账单的企业项目会被分类为“default”。 不携带ID,正常使用SIS服务,账单的企业项目会被分类为“default”。 表3 请求Body参数 参数 是否必选 参数类型 描述 text 是 String 待合成的文本,文本长度限制不大于500字符。 config 否 TtsConfig object 语音合成配置信息。 表4 TtsConfig 参数 是否必选 参数类型 描述 audio_format 否 String 语音格式头:wav、mp3、pcm 默认:wav 父节点:config sample_rate 否 String 采样率:16000、8000赫兹 默认:8000 父节点:config property 否 String 语音合成特征字符串,组成形式为{language}_{speaker}_{domain},即“语种_人员标识_领域”。发音人分为普通发音人和精品发音人,每次调用价格相同,针对精品发音人,每50字计一次调用,不足50字按一次计;普通发音人每100字计一次调用,不足100字按一次计。其中1个汉字、1个英文字母或1个标点均算作1个字符,具体费用请参考价格计算器。 普通发音人:取值范围请参考表 普通发音人property取值范围。 精品发音人:区域仅支持cn-north-4、cn-east-3,暂时不支持音高调节,取值范围请参考表 精品发音人property取值范围。使用精品发音人如果报错SIS.0411,请检查是否符合使用约束。 默认:chinese_xiaoyan_common,中文发音,小燕,温柔女声发音人。 父节点:config speed 否 Integer 语速。 取值范围:-500~500 默认值:0 父节点:config 说明: 当取值为“0”时,表示一个成年人正常的语速,约为250字/分钟。设置该值时,语速和数值没有绝对的映射关系。 pitch 否 Integer 音高。 取值范围: -500~500 默认值:0 父节点:config volume 否 Integer 音量。 取值范围:0~100 默认值:50 父节点:config 表5 普通发音人property取值范围 名称 property取值 类型 使用场景 支持采样率(Hz) 小琪 chinese_xiaoqi_common 标准女声 客服 8k/16k 小雯 chinese_xiaowen_common 柔美女声 客服 8k/16k 小宇 chinese_xiaoyu_common 标准男声 电销 8k/16k 小夏 chinese_xiaoxia_common 热情女声 电销 8k/16k 小燕 chinese_xiaoyan_common 温柔女声 文学 8k/16k 小倩 chinese_xiaoqian_common 成熟女声 文学 8k/16k 小王 chinese_xiaowang_common 童声 童声 8k/16k 小呆 chinese_xiaodai_common 呆萌童声 童声 8k/16k 小婧 chinese_xiaojing_common 俏皮女声 新闻播报 8k/16k 小宋 chinese_xiaosong_common 激昂男声 新闻播报 8k/16k cameal english_cameal_common 英文女声 英文 8k/16k 表6 精品发音人property取值范围 名称 property取值 类型 使用场景 支持采样率(Hz) 华小夏 chinese_huaxiaoxia_common 热情女声 电销 8k/16k 华小唯 chinese_huaxiaowei_common 嗲柔女声 电销 8k/16k 华小颜 chinese_huaxiaoyan_common 严厉女声 电销 8k/16k 华晓阳 chinese_huaxiaoyang_common 朝气男声 电销 8k/16k 华晓刚 chinese_huaxiaogang_common 利落男声 客服 8k/16k 华小雯 chinese_huaxiaowen_common 柔美女声 客服 8k/16k 华小美 chinese_huaxiaomei_common 温柔女声 客服 8k/16k 华小飞 chinese_huaxiaofei_common 朝气男声 客服 8k/16k 华小璐 chinese_huaxiaolu_common 知性女声 新闻播报 8k/16k 华小靓 chinese_huaxiaoliang_common 嘹亮女声 新闻播报 8k/16k 华晓东 chinese_huaxiaodong_common 成熟男声 新闻播报 8k/16k 华小蕊 chinese_huaxiaorui_common 知性女声 中英混合 16k 华小萱 chinese_huaxiaoxuan_common 台湾女声 方言 8k/16k 华小闽 chinese_huaxiaomin_common 闽南女声 方言 8k/16k 华小舒 chinese_huaxiaoshu_common 舒缓女声 文学 8k/16k 华女侠 chinese_huanvxia_literature 武侠女生(只支持http形式调用) 文学 16k 华晓悬 chinese_huaxiaoxuan_literature 悬疑男声(只支持http形式调用) 文学 16k 华小龙 chinese_huaxiaolong_common 朝气男声 中英混合 16k 华小汝 chinese_huaxiaoru_common 柔美女声 中英混合 8k/16k 华小涵 chinese_huaxiaohan_common 知性女声 中英混合 8k/16k 华小宁 chinese_huaxiaoning_common 沉稳男声 中英混合 8k/16k 华小珍 chinese_huaxiaozhen_common 温柔女声 中英混合 8k/16k 华小曼 chinese_huaxiaoman_common 温柔女声 中英混合 16k 华小芳 chinese_huaxiaofang_common 朝气女声 中英混合 16k 华小筠 chinese_huaxiaojun_common 成熟女声 中英混合 16k alvin english_alvin_common 成熟男声 纯英文 8k/16k amy english_amy_common 成熟女声 纯英文 8k/16k
-
调用API获取项目ID 获取项目ID的接口为“GET https://{Endpoint}/v3/projects”,其中{Endpoint}为IAM的终端节点。接口的认证鉴权请参见认证鉴权。 响应示例如下,例如, 语音交互 服务部署的区域为“cn-north-4”,响应消息体中查找“name”为“cn-north-4”,其中projects下的“id”即为项目ID。 { "projects": [ { "domain_id": "65382450e8f64ac0870cd180d14e684b", "is_domain": false, "parent_id": "65382450e8f64ac0870cd180d14e684b", "name": "project_name", "description": "", "links": { "next": null, "previous": null, "self": "https://support-intl.huaweicloud.com/zh-cn/devg-apisign/api-sign-provide.htmlcd05f897d6b99" }, "id": "a4a5d4098fb4474fa22cd05f897d6b99", "enabled": true } ], "links": { "next": null, "previous": null, "self": "https://www.example.com/v3/projects" } }
-
请求参数 表2 请求Header参数 参数 是否必选 参数类型 描述 X-Auth-Token 是 String 用户Token。 用于获取操作API的权限。获取方法请参见认证鉴权。响应消息头中X-Subject-Token的值即为Token。 表3 请求Body参数 参数 是否必选 参数类型 描述 name 是 String 热词表名,不可重复。内容限制为字母,数字,下中划线和井号,长度不超过32字节。 description 否 String 热词表描述,长度不超过255字节。 language 是 String 热词表语言类型。 language取值:chinese_mandarin,表示汉语普通话。 contents 是 Array of strings 支持中英混编热词,单个热词只能由英文字母和unicode编码的汉字组成,不能有其他符号,包括空格。 单词库支持热词数上限10000。 单个热词长度上限32字节。
-
请求示例 “endpoint”即调用API的请求地址,不同服务不同区域的“endpoint”不同,具体请参见终端节点。 更新热词表 PUT https://{endpoint}/v1/{project_id}/asr/vocabularies/{vocabulary_id}Request Header:Content-Type: application/jsonX-Auth-Token: MIINRwYJKoZIhvcNAQcCoIINODCCDTQCAQExDTALBglghkgBZQMEAgEwgguVBgkqhkiG... Request Body:{ "name": "telepower", "description": "telepower 具体描述", "language": "chinese_mandarin", "contents": ["示例"]}
-
功能介绍 流式一句话模式的语音长度限制为一分钟,适合于对话聊天等识别场景。 该接口支持用户将一整段语音分段,以流式输入,最后得到识别结果。 实时语音识别 引擎在获得分段的输入语音的同时,就可以同步地对这段数据进行特征提取和解码工作,而不用等到所有数据都获得后再开始工作。因此这样就可以在最后一段语音结束后,仅延迟很短的时间(也即等待处理最后一段语音数据以及获取最终结果的时间)即可返回最终识别结果。这种流式输入方式能缩短整体上获得最终结果的时间,极大地提升用户体验。
-
终端节点 终端节点即调用API的请求地址,不同服务不同区域的终端节点不同。 目前语音交互服务 一句话识别 、录音文件识别支持以下地区和终端节点: 当前服务仅支持北京和上海区域,后续会陆续上线其他区域。 华北-北京四,推荐的区域,支持一句话识别、录音文件识别、实时 语音识别 、语音合成和热词等接口。 华东-上海一,推荐的区域,支持一句话识别、录音文件识别、实时语音识别、语音合成和热词等接口 。 一句话识别,录音文件识别支持的终端节点: 表1 一句话识别、录音文件识别 区 域名 称 区域 终端节点(Endpoint) 协议类型 华北-北京四 cn-north-4 sis-ext.cn-north-4.myhuaweicloud.com sis-ext.cn-north-4.myhuaweicloud.cn https 华东-上海一 cn-east-3 sis-ext.cn-east-3.myhuaweicloud.com sis-ext.cn-east-3.myhuaweicloud.cn https 实时语音识别( RASR)支持的终端节点: 表2 实时语音识别 区域名称 区域 终端节点(Endpoint) 协议类型 华北-北京四 cn-north-4 sis-ext.cn-north-4.myhuaweicloud.com sis-ext.cn-north-4.myhuaweicloud.cn Websocket 华东-上海一 cn-east-3 sis-ext.cn-east-3.myhuaweicloud.com sis-ext.cn-east-3.myhuaweicloud.cn Websocket 语音合成支持的终端节点: 表3 语音合成 区域名称 区域 终端节点(Endpoint) 协议类型 华北-北京四 cn-north-4 sis-ext.cn-north-4.myhuaweicloud.com sis-ext.cn-north-4.myhuaweicloud.cn https 华东-上海一 cn-east-3 sis-ext.cn-east-3.myhuaweicloud.com sis-ext.cn-east-3.myhuaweicloud.cn https 实时语音合成服务支持的终端节点: 表4 实时语音合成 区域名称 区域 终端节点(Endpoint) 协议类型 华北-北京四 cn-north-4 sis-ext.cn-north-4.myhuaweicloud.com sis-ext.cn-north-4.myhuaweicloud.cn Websocket 华东-上海一 cn-east-3 sis-ext.cn-east-3.myhuaweicloud.com sis-ext.cn-east-3.myhuaweicloud.cn Websocket 热词(一句话识别、录音文件识别、实时语音识别中的热词)支持服务终端: 表5 热词: 区域名称 区域 终端节点(Endpoint) 协议类型 华北-北京四 cn-north-4 sis-ext.cn-north-4.myhuaweicloud.com sis-ext.cn-north-4.myhuaweicloud.cn https 华东-上海一 cn-east-3 sis-ext.cn-east-3.myhuaweicloud.com sis-ext.cn-east-3.myhuaweicloud.cn https 父主题: 使用前必读
-
响应消息 表1 响应参数 参数名 参数类型 说明 resp_type String 响应类型。参数值为EVENT,表示开始识别响应。 trace_id String 服务内部的令牌,可用于在日志中追溯具体流程。 event String 具体的事件,详细参数可参见event取值范围及其说明。 timestamp Integer 保留字段。将来会用于此事件发生的具体时间,以会话开始作为0点,单位为ms。
更多精彩内容
CDN加速
GaussDB
文字转换成语音
免费的服务器
如何创建网站
域名网站购买
私有云桌面
云主机哪个好
域名怎么备案
手机云电脑
SSL证书申请
云点播服务器
免费OCR是什么
电脑云桌面
域名备案怎么弄
语音转文字
文字图片识别
云桌面是什么
网址安全检测
网站建设搭建
国外CDN加速
SSL免费证书申请
短信批量发送
图片OCR识别
云数据库MySQL
个人域名购买
录音转文字
扫描图片识别文字
OCR图片识别
行驶证识别
虚拟电话号码
电话呼叫中心软件
怎么制作一个网站
Email注册网站
华为VNC
图像文字识别
企业网站制作
个人网站搭建
华为云计算
免费租用云托管
云桌面云服务器
ocr文字识别免费版
HTTPS证书申请
图片文字识别转换
国外域名注册商
使用免费虚拟主机
云电脑主机多少钱
鲲鹏云手机
短信验证码平台
OCR图片文字识别
SSL证书是什么
申请企业邮箱步骤
免费的企业用邮箱
云免流搭建教程
域名价格