录音转文字工具介绍

华为云语音交互服务

华为云语音交互服务(Speech Interaction Service,简称SIS)是一种人机交互方式,用户通过实时访问和调用API获取语音交互结果。例如用户通过语音识别功能,将口述音频或者语音文件识别成可编辑的文本,同时也支持通过语音合成功能将文本转换成逼真的语音等提升用户体验。适用场景如语音客服质检、会议记录、语音短消息、有声读物、电话回访等。

支持的语言:

支持中文普通话的识别和合成,其中语音识别还支持带方言口音的普通话识别以及方言(四川话、粤语和上海话)的识别。

首次使用录音转文字语言交互服务SIS

如果您是首次使用SIS的用户,建议您学习并了解如下信息:

功能介绍

通过功能介绍章节的内容,了解SIS不同功能的具体介绍,主要包括实时语音识别(Real-time ASR)、一句话识别(Short Sentence Recognition)、录音文件识别(Recording File Recognition)、语音合成(Text To Speech )功能。

入门使用

SIS以开放API的方式提供给用户,您可以参考《快速入门》学习并使用SIS服务。

使用方式

如果您是一个开发工程师,熟悉代码编写,想要直接调用SIS的API或SDK使用服务,您可以参考《API参考》《SDK参考》获取详情。

由浅入深学习

您可以参考成长地图,由浅入深学习使用SIS。

免费录音转文字-文字转换语音在线体验 免费录音转文字-文字转换语音在线体验

语言交互服务 —直播视频无字幕,人工录入费时费力?

将视频直播或现场直播中的音频实时转为字幕,节省人工,提升观看体验。

实时语音识别 免费体验
语言交互服务 —想释放双手,通过语音操控机器或设备?

语音输入转文本,一键转成文字消息发送,或语音控制设备,解放双手。

短语音识别 免费体验
语音交互服务—会议、访谈等超长录音,没时间重复回听?

录音内容直接转为文字,回看比回听更加省时!

录音文件识别 免费体验
语言交互服务—需要将文本转化为自然人声?

借助语音合成功能,不管是有声读物、人机交互、智能客服等需求都能被满足。

语音合成 免费体验

华为云语音交互服务,免费录音转文字-文字转换语音有哪些功能?

实时语音识别

实时语音识别服务,用户通过实时访问和调用API获取实时语音识别结果,支持的语言包含中文普通话、方言,方言当前支持四川话、粤语和上海话。

产品优势

识别准确率高:采用最新一代语音识别技术,基于深度神经网络(Deep Neural Networks,简称DNN)技术,大大提高了抗噪性能,使识别准确率显著提升。

识别速度快:把语言模型、词典和声学模型统一集成为一个大的神经网络,同时在工程上进行了大量的优化,大幅提升解码速度,使识别速度在业内处于领先地位。

多种识别模式:支持多种实时语音识别模式,如流式识别、连续识别和实时识别模式,灵活适应不同应用场景。

定制化服务:可定制特定垂直领域的语言层模型,可识别更多专有词汇和行业术语,进一步提高识别准确率。

一句话识别

可以实现1分钟以内音频到文字的转换。对于用户上传的二进制音频格式数据,系统经过处理,生成语音对应的文字,支持的语言包含中文普通话、方言。方言当前支持四川话、粤语和上海话

产品优势

前沿技术:使用工业界成熟的算法,结合学术界最新研究成果,为企业提供独特竞争力优势。

支持热词:针对专业词汇,支持上传至热词表,增加专业词汇的识别准确率。

可定制化:针对客户的特定场景需求,定制垂直领域的语音识别模型,识别效果更精确。

录音文件识别

对于录制的长语音进行识别,转写成文字,提供不同领域模型,具备良好的可扩展性,支持热词定制。

产品优势

高识别率:基于深度学习技术,对特定领域场景的语音识别进行优化,识别率达到业界领先。

稳定可靠:成功应用于各类场景,基于华为等企业客户的长期实践,经受过复杂场景考验。

语音合成

语音合成支持多种音色,可调节语调,语速,音量。

产品优势

多语种多音色:中文普通话、男声、女声、童声自由切换,可以调整音量,语速。

效果出色:文本转换自然清晰,近乎真人发音,能够符合多样的应用场景。

免费录音转文字在线体验的计费项有哪些?

一句话识别、语音合成按调用次数计费;实时语音识别、录音文件识别、录音文件识别极速版按音频时长计费,时长计算精确到秒。

按音频时长计费的,累加每次调用的音频时长。

按调用次数计费的,返回失败的调用不计入次数。

录音转文字的计费模式:

按需计费:按需计费是指按照API调用次数阶梯价格计费,计费价格参见语音交互价格计算器。

折扣套餐包:折扣套餐包方式是用户可以购买套餐包,扣费时调用次数会先在套餐包内进行抵扣,抵扣完后的剩余调用量默认转回按需计费方式,计费价格参见语音交互价格计算器。。

说明:购买套餐包前,请进行账号实名认证。

如您有代金券,请在控制台“费用与成本 > 优惠折扣”中查看代金券的使用范围。

套餐包费用为一次性支付,即刻生效,暂不支持指定日期生效。

套餐包购买时长为1年,可通过叠加套餐包累加API调用次数或时长。

购买的套餐包在生效期内,扣费方式是先扣除已购买的套餐包内的额度后,超出部分以按需计费的方式进行结算。

购买的套餐包到期后如果没有购买新的套餐包,系统会自动转为按需计费。

录音转文字-文字转换语音服务常见问题解答

录音转文字-文字转换语音服务常见问题解答

更多录音转文字问题答疑请前往 了解更多

更多录音转文字问题答疑请前往 了解更多

  • 语音合成后输出的音频格式是什么?

    语音合成后返回一组Base64编码格式的语音数据,用户需要用编程语言或者sdk将返回的Base64编码格式的数据解码成byte数组,再保存为wav格式的音频。

  • 语音合成后能否返回播放时长?

    不能,当前语音合成无此参数。若需要知道语音时长,可以将返回语音数据解码转换成音频格式,播放后查看。

  • 是否支持aac格式的语音文件转文字?

    一句话识别和录音文件识别以及实时语音识别均可实现语音转文字,一句话识别支持aac格式,录音文件识别和实时语音识别不支持aac格式。

  • 录音文件识别多久可以返回结果?

    音频转写时长受音频时长和排队任务数量影响,音频时长和理论返回时间可参见表 音频转写时长参考表。如果转写耗时比理论时延长,大概率表示当前时间段出现转写高峰,请耐心等待,我们承诺最大转写时长不超过6小时。

  • 为什么录音文件识别出现重复转写结果?

    问题现象

    调用录音文件识别接口,识别的结果出现两条完全一致的结果。

    解决方案

    由于声道设置的原因,单身道的音频按照双声道处理了。

    在请求中将参数“channel”的值修改成“MONO”或者直接去掉请求参数中的“channel”项。

  • 实时语音识别多人同时使用,如何区分各自识别结果?

    每个用户独立建立websocket连接,不可共用一个websocket连接。

  • 语音交互服务的区域如何选择?

    不同区域的资源之间内网不互通。为保证网络的连通性,降低网络时延、提高访问速度,请选择靠近您客户的区域,当前语音服务支持北京和上海区域,后续会陆续上线其他区域,当前支持的区域请参见地区与终端节点。

    华北-北京一,该区域资源有限,当前仅支持已选择该区域的老用户使用,新用户不可见,后续该区域不可用。

    华北-北京四,为推荐的区域,支持一句话识别、录音文件识别、实时语音识别、语音合成和热词等接口。

    华东-上海一,推荐的区域,支持一句话识别、录音文件识别、实时语音识别、语音合成和热词等接口。

  • 通用表格文字识别是否支持导出为excel格式?

    通用表格识别支持将表格内容转换成可编辑的Excel格式,传入参数return_excel为true时,将返回的表格转换为Microsoft Excel对应的base64编码,可用Python函数 base64.b64decode解码后保存为.xlsx文件。

  • 语音交互服务需要申请什么权限?

    语音交互服务本身无权限限制,用户不需要额外添加任何权限,即可对语音交互服务执行操作。

    但是如下场景除外:

    当用户需要使用录音文件识别功能时,需要用户具有主帐号或者Security Administrator的权限。

    因为录音文件保存在用户的OBS(Object Storage Service,对象存储服务)桶中。考虑到数据的安全,语音交互服务无法直接获取到用户数据,需要用户授权录音文件引擎读取用户OBS桶权限,只有主帐号或者有Security Administrator权限的子帐号才可以授权。