检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用实时语音识别 前提条件 确保已按照配置CPP环境(Windows)配置完毕。 请参考SDK(websocket)获取最新版本SDK包。 初始化Client 初始化RasrClient,其参数包括AuthInfo。 表1 AuthInfo 参数名称 是否必选 参数类型 描述 ak
音频流数据 功能介绍 分多段返回二进制语音数据流,如果用户未设置语音格式,则默认返回pcm格式语音。 父主题: 语音合成结果响应
语音通知话单通知API 接口功能 用户通话结束后,语音通话平台通过此接口向SP推送通话的话单信息。短时间内有多个通话结束时语音通话平台会将话单合并推送,每条消息最多携带50个话单。 请求方向 语音通话平台(客户端) → 客户服务器(服务端) 使用说明 前提条件 SP在开发应用时,
wav”。特点是操作比较简便,播放的语音通知是原音。 语音模板需要先通过语音模板管理页面提交模板并审核通过后才能使用,并获取对应的模板ID。调用语音通知API时携带模板ID和模板的变量值列表。特点是可以灵活配置参数,播放的语音通知是青年女声的电子音。 父主题: 放音文件及语音模板配置
语音回呼话单通知API 接口功能 用户通话结束后,语音通话平台通过此接口向SP推送通话的话单信息。短时间内有多个通话结束时语音通话平台会将话单合并推送,每条消息最多携带50个话单。 请求方向 语音通话平台(客户端) → 客户服务器(服务端) 使用说明 前提条件 SP在开发应用时,
语音回呼场景API 典型场景 当应用要实现语音回呼功能时,可以调用语音回呼场景API。 接口功能 主叫用户通过应用拨打被叫用户,语音通话平台呼叫主叫和被叫,使主叫和被叫能够互相通话。 图1 语音回呼体验流程 语音回呼业务体验描述: 用户A通过应用呼叫用户B,请求上报到SP。 SP调用语音回呼场景API。
语音合成结果响应 音频流数据 时间戳数据 父主题: 实时语音合成响应
语音合成结束响应 功能介绍 当合成引擎处理完合成请求后,会发送合成结束响应。客户端收到该响应后关闭当前Websocket链接即可。 响应消息 表1 响应参数 名称 参数类型 说明 resp_type String 响应类型。参数值为END,表示语音合成结束。 trace_id String
时间戳数据 功能介绍 实时语音合成服务在生成音频流的同时,可以生成每个汉字/英文单词的时间戳信息。该信息可用于视频字幕和驱动数字人口型。 参数设置 设置请求参数subtitle为"word_level"或"phoneme_level"时,开启时间戳功能。 响应信息 表1 响应参数
语音合成错误响应 功能介绍 合成引擎处理合成请求时如果发生错误则返回该响应。 响应消息 表1 响应参数 名称 参数类型 说明 resp_type String 响应类型。参数值为ERROR,表示错误响应。 trace_id String 服务内部的令牌,可用于在日志中追溯具体流程。
如何开通语音质检? 新增应用:登录隐私保护通话控制台添加应用时,“是否开通录音”和“是否开通语音质检”都选择“是”即可开通。 已添加的应用:登录隐私保护通话控制台,点击“应用管理”,选择需要修改的应用,点击“操作”列下方的“修改”,“是否开通录音”和“是否开通语音质检”都选择“是”即可开通。
在线调试 API Explorer在线调试工具提供API的检索、调试、代码示例生成功能。同时,集成开发环境CloudIDE,可完成代码的构建、调试、运行。 本章节以通用文字识别为例,介绍如何使用API Explorer调试API。 前提条件 注册华为账号并开通华为云,并完成实名认
访问URI 开发者应用接收呼叫状态URL 通信协议 HTTPS/HTTP 请求参数 SP调用语音验证码API,语音通话平台发起呼叫,给用户播放语音验证码。 注:以下流程以语音通话平台呼叫A,给A播放语音验证码为例。流程和接口示例仅供参考,请以实际消息为准。 表2 请求Headers参数说明
语音合成后输出的音频格式是什么 语音合成后返回一组Base64编码格式的语音数据,用户需要用编程语言或者sdk将返回的Base64编码格式的数据解码成byte数组,再保存为wav格式的音频。 语音合成(Text To Speech ,TTS服务)服务的音频格式则根据接口中audi
方案概述 应用场景 该解决方案基于华为云语音交互服务语音识别构建,可自动将用户上传到对象存储服务的wav语音文件转化为文字,并将结果存放到指定OBS桶。该方案可以将用户上传在OBS的语音文件识别成可编辑的文本,支持中文普通话的识别和合成,其中语音识别还支持带方言口音的普通话识别以及方
开发者应用接收呼叫状态URL 通信协议 HTTPS/HTTP 请求参数 SP调用语音通知API,语音通话平台发起呼叫,给用户播放自定义的语音文件或TTS合成语音文件,并可进行收号,获得应答信息并反馈给SP。 注:以下流程以语音通话平台呼叫A,给A播放语音文件并收号为例。流程和接口示例仅供参考,请以实际消息为准。
OCR服务需要用户通过调用API接口,将图片或扫描件中的文字识别成可编辑的文本,然后返回JSON格式的识别结果,用户需要通过编码将识别结果对接到业务系统或保存为TXT、Excel等格式。 关于文字识别的相关声明请参见文字识别服务声明、隐私政策声明。 文字识别服务等级协议请参见华为云服务等级协议。
一个语音通知可以播放几个语音文件?格式是什么? 一个语音通知最多可以播放5个语音文件,这些文件的格式可以是TTS文本或音频文件。详情请查看语音通知API。 父主题: 放音文件及语音模板配置
语音验证码话单通知API 接口功能 用户通话结束后,语音通话平台通过此接口向SP推送通话的话单信息。短时间内有多个通话结束时语音通话平台会将话单合并推送,每条消息最多携带50个话单。 请求方向 语音通话平台(客户端) → 客户服务器(服务端) 使用说明 前提条件 SP在开发应用时
只需调用一个接口即可同时识别所有卡证及票据的文字信息,大幅度提升业务处理效率。 支持区域: 华北-北京四 智能分类识别API 手写文字识别 识别文档或图片中的手写文字、印刷文字信息,并将识别的结构化结果以JSON格式返回给用户识别的文字和坐标。 该接口可应用于日常学习中对学生作业