搜索_华为云

内容选择

内容分类

学堂博客论坛开发服务开发工具直播视频用户

时间

一周一个月三个月

内容选择

全部

内容选择

内容分类

学堂
博客
论坛
开发服务
开发工具
直播
视频
用户

时间

一周
一个月
三个月

如何从视频中分离音频进行语音识别

如下命令会生成sasr.m4a文件，然后使用该文件就可以调用SIS的语音识别接口进行语音识别4、使用分离后的音频进行语音识别因为音频时长超过一分钟，所以使用录音文件识别进行识别，音频的采用率44.1k hz，使用录音文件时会自动降采用到8k或者16k。

开发者 > 其他

作者： void0

3330

0
新手语音入门（三）：语音识别ASR算法初探 | 编码与解码 | 声学模型与语音模型 | 贝叶斯公式 | 音素

图3 语言模型处理过程已知一段音频信号，处理成声学特征向量Acoustic Feature Vector后表示为X=[x1,x2,x3,…]X=[x_1,x_2,x_3,…]X=[x1,x2,x3,…],其中xix_ixi表示一帧特征向量；可能的文本序列表示为W=[w1,

开发者 > 博客

作者：黄辣鸡

发表时间： 2021-12-27 07:11:12

4152

0
DFCNN + Transformer模型完成中文语音识别（三）

pai2 ya1 zhou4 yan3 chu1 原文汉字：香港演艺圈欢迎毛阿敏加盟无线台与华星一些重大的演唱活动都邀请她出场有几次还特意安排压轴演出识别结果：香港演艺圈欢迎毛阿敏加盟无线台与华星一些重大的演唱活动都邀请她出场有几次还特艺安排压轴演出至此，一个简易的语音识别系统就搭建完成

开发者 > 博客

作者： HWCloudAI

发表时间： 2022-12-19 03:41:11

315

0
DFCNN + Transformer模型完成中文语音识别（二）

7.声学模型训练准备训练参数及数据为了本示例演示效果，参数batch_size在此仅设置为1，参数data_length在此仅设置为20。若进行完整训练，则应注释data_args.data_length = 20，并调高batch_size。 def data_hparams

开发者 > 博客

作者： HWCloudAI

发表时间： 2022-12-19 03:40:17

312

0
用麦克风实现实时语音识别
用麦克风实现实时语音识别

rasr_client.continue_stream_connect(request) # 实时语音识别连续模式 # step4 发送音频 rasr_client.send_start() # 连续模式下，可多次发送音频

开发者 > 其他

作者： yd_217514920

180

4
通俗易懂说AI--语音识别篇
通俗易懂说AI--语音识别篇

今天我们要浅谈一下一项令人着迷的技术——语音识别。你有没有想过，为什么语音助手可以听懂你说的话？为什么你可以通过语音搜索来获取信息？让我们一起揭开语音识别技术的神秘面纱，看看它是如何让计算机听懂我们的声音的。1. 语音识别的基本原理语音识别的原理复杂而神奇。

开发者 > 其他

作者：运气男孩

59

2
浅谈实时语音识别应用场景_公安

将生成的识别结果与原始识别数据进行比对，回听音频文件对文档归纳总结，简单修改即可按照笔录模板输出笔录。使公安了解案情时，笔录制作更方便快捷，减少人员精力投入，提高笔录制作的效率，辅助公安办案业务的完成。

开发者 > 其他

作者： QGS

22

2
LF-MMI在语音识别中的应用
LF-MMI在语音识别中的应用

在Interspeech 2016的论文Purely sequence-trained neural networks for ASR based on lattice-free MMI中，发展为不使用Lattice的MMI声学模型损失函数。

开发者 > 其他

作者： void0

3589

0
多语言语音识别挑战与解决方案

**引言** 多语言语音识别是语音技术领域中的一个重要挑战。随着全球化的发展，不同语种之间的语音识别需求逐渐增加。本文将深入研究多语言语音识别所面临的挑战，并提出相应的解决方案。通过项目实例，我们将详细探讨挑战的性质以及采用的技术手段。

开发者 > 博客

作者： Y-StarryDreamer

发表时间： 2024-01-31 22:27:58

1

0
噪声环境下的语音识别挑战与解决方案

端到端的学习方法探索端到端的学习方法，直接从原始音频数据中学习特征表示，避免传统方法中繁琐的预处理步骤。实时噪声分析结合实时噪声分析，动态调整噪声抑制和特征增强的参数，以适应不同噪声环境。结论噪声环境下的语音识别是一个充满挑战但重要的领域。

开发者 > 博客

作者： Y-StarryDreamer

发表时间： 2024-01-31 22:36:43

0

0
面对面翻译小程序是微信团队针对面对面沟通的场景开发的流式语音翻译小程序，通过微信同声传译插件提供了语音识别，文本翻译等功能。

(目前支持 zh_CN（中国大陆）, en_US（英语）, zh_HK（粤语）, sichuanhua（四川话）)文本翻译 (目前支持 zh_CN（中国大陆）,  en_US（英语）)语音合成 (目前支持&nbsp

开发者 > 博客

作者：隔壁老汪

发表时间： 2022-06-24 16:52:18

308

0
【MindSpore】【语音识别】DFCNN网络训练loss不收敛

附加一些说明，也许可以更好解决我遇到的问题Model Arts上，是用两个网络组合完成语音识别的任务的：DFCNN+Transformer首先构造了数据集get_data，可以把读取音频文件和标注的文本。

开发者 > 其他

作者： Daniel46010140

1740

3
华为云语音交互服务-语音识别-长语音识别于2019年10月24日00:00（北京时间）停售通知

尊敬的华为云客户：华为云计划于2019/10/24 00:00（北京时间）正式停售 “语音交互服务-语音识别-长语音识别”。华为云在此提醒您，产品停售后，该长语音识别接口将不可被调用。

开发者 > 博客

作者：华为云客户服务中心

发表时间： 2019-10-08 15:20:57

6059

0
【人工智能相关知识分享】语音识别语言模型

语言模型主要分为规则模型和统计模型两种。统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律，其中N-Gram简单有效，被广泛使用。N-Gram：该模型基于这样一种假设，第n个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计

开发者 > 其他

作者：某地瓜

936

1
【人工智能相关知识分享】语音识别声学特征

LPC 线性预测分析从人的发声机理入手，通过对声道的短管级联模型的研究，认为系统的传递函数符合全极点数字滤波器的形式，从而n 时刻的信号可以用前若干时刻的信号的线性组合来估计。通过使实际语音的采样值和线性预测采样值之间达到均方差最小LMS，即可得到线性预测系数LPC。对 LPC的计算方法有自相关法

开发者 > 其他

作者：某地瓜

1852

1
构建智能语音识别应用：自定义模型和实时识别

您可以根据实际需求对音频数据进行预处理和后处理。结论在本文中，我们探讨了如何构建智能语音识别应用程序，重点介绍了自定义模型的训练和实时识别的实现。通过训练自定义模型并使用实时输入进行识别，我们可以构建出更准确和实用的语音识别应用。

开发者 > 博客

作者：皮牙子抓饭

发表时间： 2023-06-08 08:59:35

20

1
行业前沿技术对语音识别的影响

数据准备与预处理为了部署一个基于深度学习的语音识别系统，首先需要准备大量的语音数据，并进行预处理，包括音频格式转换、噪声去除等操作。

开发者 > 博客

作者： Y-StarryDreamer

发表时间： 2024-01-31 22:44:43

7

0
[python]基于faster whisper实时语音识别语音转文本

VAD是一种音频活动检测的算法，可以准确的把音频中的每一句话分离开来，让whisper更精准的定位语音开始和结束的位置。

开发者 > 博客

作者： futureflsl

发表时间： 2023-12-31 20:51:28

2

0
语音识别技术之说话人自适应技术

多类型广播MGB3数据的语音识别实验表明，与传统的Tandem SAT系统相比，联合训练的Tandem SAT系统可以减少WER，并且还可以实现混合SI系统。在这两种情况下，联合训练的Tandem SAT系统使WER降低了约4％。

开发者 > 其他

作者：可爱又积极

1047

2
Python智能语音识别语翻译平台｜项目前端搭建

01、任务实现步骤任务描述：本任务利用HTML和JavaScript等搭建智能语音识别与翻译平台的前端页面，包括index.htm、base.htm前端网页模板的编写以及错误页面404.htm的编写。第一步：编写base.htm。

开发者 > 博客

作者： TiAmoZhang

发表时间： 2023-12-06 00:04:44

8

0

总条数： 10000

上一页
1
...
6
7
8
...
500
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

如何从视频中分离音频进行语音识别

新手语音入门（三）：语音识别ASR算法初探 | 编码与解码 | 声学模型与语音模型 | 贝叶斯公式 | 音素

DFCNN + Transformer模型完成中文语音识别（三）

DFCNN + Transformer模型完成中文语音识别（二）

用麦克风实现实时语音识别

通俗易懂说AI--语音识别篇

浅谈实时语音识别应用场景_公安

LF-MMI在语音识别中的应用

多语言语音识别挑战与解决方案

噪声环境下的语音识别挑战与解决方案

面对面翻译小程序是微信团队针对面对面沟通的场景开发的流式语音翻译小程序，通过微信同声传译插件提供了语音识别，文本翻译等功能。

【MindSpore】【语音识别】DFCNN网络训练loss不收敛

华为云语音交互服务-语音识别-长语音识别于2019年10月24日00:00（北京时间）停售通知

【人工智能相关知识分享】语音识别语言模型

【人工智能相关知识分享】语音识别声学特征

构建智能语音识别应用：自定义模型和实时识别

行业前沿技术对语音识别的影响

[python]基于faster whisper实时语音识别语音转文本

语音识别技术之说话人自适应技术

Python智能语音识别语翻译平台｜项目前端搭建

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线