检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
path = '' # 需要发送音频路径,如D:/test.pcm, 同时sdk也支持byte流发送数据。 audio_format = '' # 音频支持格式,如pcm16k16bit,详见api文档 property = '' # 属性字符串
录音文件识别 支持“华北-北京四”、“华东-上海一”区域。 当前语音服务仅支持北京和上海区域,后续会陆续上线其他区域。 华北-北京四,推荐的区域。 华东-上海一,推荐的区域。 支持pcm16k16bit、pcm8k16bit、ulaw16k8bit、ulaw8k8bit、alaw
如何调整并发 API接口支持并发调用。具体可咨询商务合作。 父主题: API使用类
SIS服务提供了两种接口,包含REST(Representational State Transfer)API,支持您通过HTTPS请求调用,请参见表1。也包含WebSocket接口,支持Websocket协议,请参见表2。 表1 REST API功能 接口 功能 API URI 一句话识别接口
请选择靠近您客户的区域,当前语音服务支持北京和上海区域,后续会陆续上线其他区域,当前支持的区域请参见地区与终端节点。 华北-北京四,为推荐的区域,支持一句话识别、录音文件识别、实时语音识别、语音合成和热词等接口。 华东-上海一,推荐的区域,支持一句话识别、录音文件识别、实时语音识别、语音合成和热词等接口。
目前语音交互服务一句话识别、录音文件识别支持以下地区和终端节点: 当前服务仅支持北京和上海区域,后续会陆续上线其他区域。 华北-北京四,推荐的区域,支持一句话识别、录音文件识别、实时语音识别、语音合成和热词等接口。 华东-上海一,推荐的区域,支持一句话识别、录音文件识别、实时语音识别、语音合成和热词等接口
统计API使用量 SIS控制台支持查看API的总调用量、调用成功量、调用失败量。 图1 总览
SIS服务提供了两种接口,包含REST(Representational State Transfer)API,支持您通过HTTPS请求调用,调用方法请参见如何调用REST API。也包含WebSocket接口,支持Websocket协议,调用方法请参见如何调用WebSocket API。 调用所需示例音频参见示例音频。
如何修改发音人 修改代码中property的取值即可,支持的发音人如表1和表2所示。 POST https://{endpoint}/v1/{project_id}/tts Request Header: Content-Type: application/json X-Auth-Token:
角色类型,目前对于8k音频以及16k双声道音频仅支持 AGENT(座席),USER(用户)。可用于电话质检等场景。对于16k单声道音频,支持多个说话人,取值范围是(speaker1 ~ speaker10),最多支持10个说话人,可用于会议场景。 emotion 否 String 情绪类型,目前仅支持NORMAL(
Service,简称SIS)是一种人机交互方式,用户通过实时访问和调用API获取语音交互结果。支持用户通过语音识别功能,将口述音频、普通话或者带有一定方言的语音文件识别成可编辑的文本,同时也支持通过语音合成功能将文本转换成逼真的语音等提升用户体验。适用场景如语音客服质检、会议记录、语音短消息、有声读物、电话回访等。
推荐使用新版SDK语音交互服务SDK,该SDK基于统一规范开发,支持Java/Python/C++/.NET/Go/NodeJs/PHP,使用方法可参考API Explorer。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能,但该SDK暂不支持通过websocket的方法调用的
语音交互服务提供了用户认证和鉴权功能。 对象存储服务 SIS服务接口支持从对象存储服务(Object Storage Service,OBS)上采用临时授权和匿名公开授权的方式获取数据并进行处理。录音文件识别支持从OBS上采用授权的方式获取数据并进行处理。OBS更多信息请参见《对象存储服务产品介绍》。
一region服务有效。 配置公共读可参考配置标准桶策略,创建桶策略为“公共读”。一般私密数据不建议用此方法。 目前仅支持访问用户个人OBS下的音频的链接,不支持读取其他用户公共读的链接。 图1 创建“公共读”桶策略 开启语音交互服务授权 开启公共读授权访问,对于敏感信息,如个人
和通知操作。用户可以实时掌握API所产生的调用成功次数、调用失败次数等信息。 关于SIS支持的监控指标,以及如何创建监控告警规则等内容,请参见语音交互服务的监控指标。 同时,SIS控制台支持监控账号下的SIS服务每个API的用量统计,详情请参见查看监控指标。 父主题: 安全
优先推荐使用新版SDK语音交互服务SDK,该SDK基于统一规范开发,支持Java/Python/C++/.NET/Go/NodeJs/PHP,使用方法可参考api-explorer。该SDK暂不支持websocket方法。 如果需要使用实时语音识别,可考虑使用替代SDK,当前支持Java SDK、Python SDK、CPP
对于8k单声道音频,8k双声道音频以及16k双声道音频仅支持两个说话人分离;对于16k单声道音频,自动识别说话人个数,返回结果最多支持10个说话人,并且property仅支持chinese_16k_media,区域仅支持cn-east-3。 channel 否 String 语
应的文字,支持的语言包含中文普通话、方言以及英语。方言当前支持四川话、粤语和上海话。 产品优势 高识别率 基于深度学习技术,对特定领域场景的语音识别进行优化,识别率达到业界领先。 前沿技术 使用工业界成熟的算法,结合学术界最新研究成果,为企业提供独特竞争力优势。 支持热词 针对专
cantonese_16k_common 支持采样率为8k/16k的粤语方言识别。区域仅支持cn-north-4,暂不支持digit_norm,vocabulary_id参数。 shanghai_16k_common 支持采样率为8k/16k的上海话方言识别,区域仅支持cn-north-4,暂不支持digit_
表5 property取值范围 property取值 描述 chinese_8k_common 支持采样率为8k的中文普通话语音识别。 chinese_16k_conversation 支持采样率为16k的会议场景的中文普通话语音识别。 请求参数 表6 请求Header参数 参数 是否必选