检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
no,默认no。例如分3次发送音频,选择no结果一次性返回,选择yes分三次返回。 vocabularyId 否 String 热词表id,若没有则不填。 needWordInfo 否 String 表示是否在识别结果中输出分词结果信息,取值为“yes”和“no”,默认为“no”。 设置当前Client为连续模式
} //认证用的AK和SK硬编码在代码中或明文存储都有很大安全风险,建议在配置文件或环境变量中密文存放,使用时解密,确保安全。 //本示例以AK和SK保存在环境变量中来实现身份验证为例,运行本示例请先在本地环
expired报错。表示的是AK、SK凭证过期。 请先检测您使用的是临时AK、SK,还是永久性AK、SK。临时安全凭证通过接口临时访问密钥AK/SK获取;永久安全凭证通过我的凭证界面控制台获取。 如果使用的是永久性AK、SK出现此报错。请检查您的服务器时间和网络时间是否一致,时间同步后,可解决该报错。 父主题:
endpoint是华为云各服务应用区域和各服务的终端节点,详情请查看 地区和终端节点。 请求参数 请求类为RecognizeShortAudioRequest,该类的body参数为PostShortAudioReq。 PostShortAudioReq的包含data,和config两个参数,其
认证用的ak和sk硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全; // 本示例以ak和sk保存在环境变量中来实现身份验证为例,运行本示例前请先在本地环境中设置环境变量HUAWEICLOUD_SDK_AK和HUAWEICLOUD_SDK_SK。
Management,简称IAM)服务,IAM为语音交互服务提供了用户认证和鉴权功能。 对象存储服务 SIS服务接口支持从对象存储服务(Object Storage Service,OBS)上采用临时授权和匿名公开授权的方式获取数据并进行处理。录音文件识别支持从OBS上采用授权的
no,默认no。例如分3次发送音频,选择no结果一次性返回,选择yes分三次返回。 vocabulary_id 否 String 热词表id,若没有则不填。 need_word_info 否 String 表示是否在识别结果中输出分词结果信息,取值为“yes”和“no”,默认为“no”。 响应参数
add_punc 否 String 表示是否在识别结果中添加标点,取值为“yes”和“no”,默认为“no”。 digit_norm 否 String 表示是否将语音中的数字识别为阿拉伯数字,取值为“yes” 和 “no”,默认为“yes”。 vocabulary_id 否 String
购买套餐包 购买套餐包前,请进行账号实名认证。 如您有代金券,请在控制台“费用与成本 > 优惠折扣”中查看代金券的使用范围。 套餐包费用为一次性支付,支持即刻生效、指定日期生效。 套餐包购买时长为1年,可通过叠加套餐包累加API调用次数或时长。 购买的套餐包在生效期内,扣费方式是先
通过实时访问和调用API获取语音交互结果。例如用户通过语音识别功能,将口述音频或者语音文件识别成可编辑的文本,同时也支持通过语音合成功能将文本转换成逼真的语音等提升用户体验。适用场景如语音客服质检、会议记录、语音短消息、有声读物、电话回访等。 免费体验 一句话识别和语音合成免费体验请进入链接:https://www
本接口提供实时流式语音合成。用户每次建立连接,发送待合成文本,服务端将合成结果响应给用户。一次连接只能发送一次文本,如果有多段文本需要合成,需要多次建立连接。实时语音合成和语音合成均属于语音合成接口,采用完全相同的计费规则,两者价格梯度可互相叠加,可参考价格计算器。 工作流程 从流程图可以看出,实时语音合成只需
否 采样率:16000、8000赫兹。 默认:8000 property String 否 可参考表3和表4。 默认:chinese_xiaoyan_common 实时语音合成和语音合成属于同一种资源,按次计费。实时语音合成普通发音人,每100字计一次。精品发音人每50字计一次。
费方式为按需计费,不使用不计费。若用户从未调用过SIS服务接口,账户欠费则会被拦截,无法调用。 您也可以在控制台购买套餐包,套餐包费用为一次性支付,支付成功后即刻生效或自定义指定时间生效。套餐包到期、套餐额度使用完,会自动转为按需计费。 服务详细计费规格请参见价格计算器。
build(); endpoint是华为云各服务应用区域和各服务的终端节点,详情请查看 地区和终端节点。 请求参数 请求类为RunTtsRequest,其中包含参数类PostCustomTTSReq,该类包含两个参数text(待合成文本)和TtsConfig,详见TtsConfig。 表1
识别客服、客户的语音,转换为文本。进一步通过文本检索,检查有没有违规、敏感词、电话号码等信息。 会议记录 对会议记录的音频文件,进行快速的识别,转化成文字,方便进行会议记录。 语音短消息 通过语音发送或者接收短消息时,将音频短消息转文字,提升阅读效率和交互体验。 游戏娱乐 将游戏娱乐中的语音聊天转成文字消息,提升用户阅读效率,提升用户体验。
华为云提供的Websocket接口,主要用于实时语音识别。音频分片传输,服务器端可以返回中间临时转写结果,在最后返回最终转写结果。 表2 一句话识别接口说明 接口类型 说明 一句话识别 一句话识别接口,用于短语音的同步识别。一次性上传整个音频,响应中即返回识别结果。 表3 录音文件识别接口说明 接口类型
Token认证 Token的有效期为24小时,需要使用同一个Token鉴权时,可以缓存起来,避免频繁调用。 Token在计算机系统中代表令牌(临时)的意思,拥有Token就代表拥有某种权限。Token认证就是在调用API的时候将Token加到请求消息头,从而通过身份认证,获得操作API的权限。
购买套餐包 购买套餐包前,请进行账号实名认证。 如您有代金券,请在控制台“费用与成本 > 优惠折扣”中查看代金券的使用范围。 套餐包费用为一次性支付,支持即刻生效、指定日期生效。 套餐包购买时长为1年,可通过叠加套餐包累加API调用次数或时长。 购买的套餐包在生效期内,扣费方式是先
相对时间戳,表示一句的结束,单位为ms。 is_final Boolen 输出是否为最终结果。 true表示是最终结果, false表示为中间临时结果。 result Object 调用成功表示识别结果,调用失败时无此字段。 请参考表 result数据结构。 表3 result数据结构
xiaomin_common,支持8k/16k采样率。 使用方式 语音合成服务支持的SSML标签请参见标签。详情请参考文档下方各标签的介绍和示例。语音合成的SSML功能支持多个 <say-as> 标签闭合嵌套于文本之中,如: { "text": "<speak>文本<break time=\"15ms\"/>本文