检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
为什么会出现识别结果非常差的情况 问题现象 调用语音识别接口,识别结果同真实结果差别很大,或者服务端报音频格式错误。 解决方案 检查音频采样率是否符合。 对于裸音频,可采用toolsoft Audio player等工具进行试听,通过设置不同的采样率,播放正常的即为音频正常采样率。
支持多种实时语音识别模式,如流式识别、连续识别和实时识别模式,灵活适应不同应用场景。 定制化服务 可定制特定垂直领域的语言层模型,可识别更多专有词汇和行业术语,进一步提高识别准确率。 一句话识别 可以实现1分钟以内音频到文字的转换。对于用户上传的二进制音频格式数据,系统经过处理,生成语音对应的文字,支持的语言包含中
用户通过调用API接口,将语音文件识别成可编辑的文本,然后返回JSON格式的识别结果,用户需要通过编码将识别结果对接到业务系统或保存为TXT、Excel等格式。 首次使用SIS 如果您是首次使用SIS的用户,建议您学习并了解如下信息: 功能介绍 通过功能介绍章节的内容,了解SIS不同功能的具体介绍,主要包括实时语音识别(Real-time
语音交互服务的监控指标 功能说明 本节定义了语音交互服务上报云监控服务的监控指标的命名空间,监控指标列表和维度定义,用户可以通过云监控服务提供管理控制台来检索SIS服务产生的监控指标和告警信息。 命名空间 SYS.SIS 监控指标 指标ID 指标名称 指标含义 取值范围 测量对象
语音合成能不能支持返回立体音(双声道)格式的音频 语音合成接口当前仅支持单声道,不支持返回立体音(双声道)格式的音频。 父主题: API使用类
支持“华北-北京四”、“华东-上海一”区域。 当前服务仅支持北京和上海区域,后续会陆续上线其他区域。 华北-北京四,推荐的区域,支持一句话识别、录音文件识别、实时语音识别和语音合成和热词等接口。 华东-上海一,推荐的区域,支持一句话识别、录音文件识别、实时语音识别、语音合成和热词等接口。 支持pcm16k16
与其他云服务的关系 SIS服务与周边其他服务的关系如图1所示。 图1 SIS与其他服务的关系图 统一身份认证服务 统一身份认证(Identity and Access Management,简称IAM)服务,IAM为语音交互服务提供了用户认证和鉴权功能。 对象存储服务 SIS服务接口支持从对象存储服务(Object
语音交互服务的区域如何选择 不同区域的资源之间内网不互通。为保证网络的连通性,降低网络时延、提高访问速度,请选择靠近您客户的区域,当前语音服务支持北京和上海区域,后续会陆续上线其他区域,当前支持的区域请参见地区与终端节点。 华北-北京四,为推荐的区域,支持一句话识别、录音文件识别、实时语音识别、语音合成和热词等接口。
支持哪些语言 录音文件识别、语音合成支持中文普通话。 一句话识别和实时语音识别支持中文普通话,带方言口音的普通话和方言(四川话、粤语和上海话)。 父主题: 产品咨询类
调用语音交互的API超时怎么处理(connect timeout) 问题现象 超时通常是由于网络不通造成的,需要对网络环境和代码进行具体分析。 解决方案 检查网络是否正常。 确保网络正常连接互联网,正常访问华为云官网,成功获取Token等。如果使用代理,需要保证代理可用性。 检查url是否存在错误。
语音合成/实时语音合成 语音合成,依托先进的语音技术,使用深度学习算法,将文本转换为自然流畅的语音。用户通过实时访问和调用API获取语音合成结果,将用户输入的文字合成为音频。通过音色选择、自定义音量、语速、音高等,可自定义音频格式,为企业和个人提供个性化的发音服务。 父主题: 使用前必读
语音合成后输出的音频格式是什么 语音合成后返回一组Base64编码格式的语音数据,用户需要用编程语言或者sdk将返回的Base64编码格式的数据解码成byte数组,再保存为wav格式的音频。 语音合成(Text To Speech ,TTS服务)服务的音频格式则根据接口中audi
支持“华北-北京四”、“华东-上海一”区域。 当前服务仅支持北京和上海区域,后续会陆续上线其他区域。 华北-北京四,推荐的区域,支持一句话识别、录音文件识别、实时语音识别和语音合成和热词等接口。 华东-上海一,推荐的区域,支持一句话识别、录音文件识别、实时语音识别、语音合成和热词等接口。 音频采样率8KHz或
调用API接口需要具备一定的编程开发能力,返回的结果为JSON格式,用户需要通过编程来处理识别结果。 您可以根据以下介绍选择合适的使用方式: 通过华为云EI智能体验馆,零基础,一键快速体验语音交互功能。 如果您是业务开发者,没有代码编写基础,您可以使用该方式体验语音交互服务的一句话识别和语音合成功能。该方式只能用于体验,不能用于开发。
有哪些途径可以使用语音交互的API 共有三种方式可以基于已构建好的请求消息发起请求。 cURL cURL是一个命令行工具,用来执行各种URL操作和信息传输。cURL充当的是HTTP客户端,可以发送HTTP请求给服务端,并接收响应消息。cURL适用于接口调试。关于cURL详细信息请参见https://curl
Token消息体中user name,domain name和project name分别指的是什么 user name指用户名称,domain name指用户所属的账号名称。如果是账号获取token,账号的user name和domain name相同。如果是IAM用户获取toke
是否支持aac格式的语音文件转文字 一句话识别和录音文件识别以及实时语音识别均可实现语音转文字,一句话识别支持aac格式,录音文件识别和实时语音识别不支持aac格式。 父主题: 产品咨询类
语音合成的base64编码如何使用 问题现象 用户在使用语音合成获取响应体的base64编码,不了解应该如何进一步使用。 解决方案 1. 建议用户使用Java或Python SDK,可参考SDK简介。 2. 使用html网页播放,新建一个html文件,如下填写内容,即可在浏览器播放。
检查获取Token是否正常。 确保获取Token为24小时之内的Token。 确保获取Token的参数嵌套是否正确。 正确的嵌套应该如下列代码示例所示,错误的嵌套也能获取Token,但无法访问服务。 使用AK/SK方式访问,检查AK和SK是否填写正确。 检查“project_id”是否填
账号中存在语音合成服务的套餐,但是为什么却收到了欠费的信息 问题描述 账号中存在语音合成服务的套餐,但是为什么却收到了欠费的信息? 解决方案 如果是同一个区域的服务,存在套餐会先从套餐计费,超出套餐的部分才会按照按需计费。 请确认上述套餐和欠费服务否属于不同服务或者不同区域的。 父主题: 计费类