检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
语音识别是强制绑定使用OBS进行录音文件存储吗 不是,只有录音文件识别需要使用OBS服务,语音交互服务对用户存储在OBS的数据,具有只读权限,没有修改和删除的权限。所以用户是否删除上传至OBS服务的数据,需要用户根据自己的obs桶的使用情况或者容量大小确认,并在OBS服务上执行。 父主题: 权限类
当出现全局冻结,例如公安冻结,违规冻结,大规模欠费导致的全局冻结,此时所有接口均不可用,热词接口也无法使用。 欠费案例 用户购买服务套餐包的区域与实际调用区域的不一致会造成欠费。 例如,用户购买套餐包区域为华北-北京四(cn-north-4),实际业务代码中,调用api区域为华东-上海一(cn-east-3),调错区域,造成欠费。
代码中加粗的斜体字段需要根据实际值填写username、domainname、project name,可登录控制台“我的凭证”页面获取。password为用户密码。 伪码 POST https://iam.cn-north-4.myhuaweicloud.com/v3/auth/tokens
为什么服务端返回OBS链接不可用(data url is unreachable) 问题现象 服务后台无法访问用户提供的音频的OBS链接。即无法获取用户需要识别的音频文件。 解决方案 检查用户是否授权服务访问OBS。 检查存放音频的OBS的Region和服务的Region是否为同一区域,只有同一区域的OBS才能正常访问。
Service,简称SIS)是一种人机交互方式,用户通过实时访问和调用API获取语音交互结果。支持用户通过语音识别功能,将口述音频、普通话或者带有一定方言的语音文件识别成可编辑的文本,同时也支持通过语音合成功能将文本转换成逼真的语音等提升用户体验。适用场景如语音客服质检、会议记录、语音短消息、有声读物、电话回访等。
Interaction Service,简称SIS)是一种人机交互方式,用户通过实时访问和调用API获取语音交互结果。例如用户通过语音识别功能,将口述音频或者语音文件识别成可编辑的文本,同时也支持通过语音合成功能将文本转换成逼真的语音等提升用户体验。适用场景如语音客服质检、会议记录、语音短消息、有声读物、电话回访等。
实时语音识别多人同时使用,如何区分各自识别结果 每个用户独立建立websocket连接,不可共用一个websocket连接。 父主题: API使用类
语音合成,是一种将文本转换成逼真语音的服务。用户通过实时访问和调用API获取语音合成结果,将用户输入的文字合成为音频。通过音色选择、自定义音量、语速,为企业和个人提供个性化的发音服务。该接口的使用限制请参见约束与限制,详细使用指导请参见SIS服务使用简介章节。 SIS服务控制台提供了语音合成的在线使用页面,用户无需编程即可使用服务功能。
基于深度学习技术,对特定领域场景的语音识别进行优化,识别率达到业界领先。 稳定可靠 成功应用于各类场景,基于企业客户的长期实践,经受过复杂场景考验。 支持热词 针对专业词汇,支持上传至热词表,增加专业词汇的识别准确率。 可定制化 针对客户的特定场景需求,定制垂直领域的语音识别模型,识别效果更精确。 语音合成 语音合
和SisConfig。 表1 AuthInfo 参数名称 是否必选 参数类型 描述 ak 是 String 用户的ak,可参考AK/SK认证。 sk 是 String 用户的sk,可参考AK/SK认证。 region 是 String 区域,如cn-north-4,参考终端节点。
数,然后用户通过调用录音文件识别状态查询接口来获得转写状态和结果。 功能介绍 该接口用于提交录音文件识别任务,其中录音文件保存在用户的OBS桶中或公网可访问的服务器上(需保证可使用域名访问)。用户开通录音识别服务时,如果录音文件存放在OBS桶中,需授权录音文件引擎读取用户OBS桶
TPS请求返回一个 4xx 或 5xx 的 HTTPS状态码。返回的消息体中是具体的错误代码及错误信息。在调用方找不到错误原因时,可以联系华为云客服,并提供错误码,以便尽快帮您解决问题。 错误响应Body体格式说明 当接口调用出错时,会返回错误码及错误信息说明,错误响应的Body体格式如下所示。
String 表示回调 url,用户用于接收识别结果的服务器地址, 不支持ip方式调用,url长度小于2048字节。服务请求方法为Post方式,请求体为Json格式。 如果用户使用回调方式获取识别结果,需提交该参数,处理成功后用户服务器需返回状态码为200。 如果用户使用轮询方式获取识别结果,则无需提交该参数。
音频流数据 功能介绍 分多段返回二进制语音数据流,如果用户未设置语音格式,则默认返回pcm格式语音。 父主题: 语音合成结果响应
语音合成的base64编码如何使用 问题现象 用户在使用语音合成获取响应体的base64编码,不了解应该如何进一步使用。 解决方案 1. 建议用户使用Java或Python SDK,可参考SDK简介。 2. 使用html网页播放,新建一个html文件,如下填写内容,即可在浏览器播放。
和SisConfig。 表1 AuthInfo 参数名称 是否必选 参数类型 描述 ak 是 String 用户的ak,可参考AK/SK认证。 sk 是 String 用户的sk,可参考AK/SK认证。 region 是 String 区域,如cn-north-4,参考终端节点。
例如从未调用过一句话识别,欠费后即会被拦截,即使套餐包有余量未消耗。 2. 若账户欠费前已调用API,欠费后可正常调用,扣减套餐包余量。 3. 若账户已被华为云账户中心冻结,则无法调用,即使套餐包有余量未消耗。 父主题: 计费类
监控安全风险 SIS提供基于云监控服务CES的监控能力,帮助用户监控账号下的SIS服务API,执行自动实时监控、告警和通知操作。用户可以实时掌握API所产生的调用成功次数、调用失败次数等信息。 关于SIS支持的监控指标,以及如何创建监控告警规则等内容,请参见语音交互服务的监控指标。
config.withIgnoreSSLVerification(true); 配置认证信息。 配置AK、SK、project_id信息。华为云通过AK识别用户的身份,通过SK对请求数据进行签名验证,用于确保请求的机密性、完整性和请求者身份的正确性。 使用永久AK和SK BasicCredentials
Config。 RasrListener需要用户自定义实现监听逻辑,请参见表1和表2。 表1 AuthInfo 参数名称 是否必选 参数类型 描述 ak 是 String 用户的ak,可参考AK/SK认证。 sk 是 String 用户的sk,可参考AK/SK认证。 region