搜索_华为云

内容选择

内容分类

学堂博客论坛开发服务开发工具直播视频用户

时间

一周一个月三个月

内容选择

全部

内容选择

内容分类

学堂
博客
论坛
开发服务
开发工具
直播
视频
用户

时间

一周
一个月
三个月

如何从视频中分离音频进行语音识别

文件中的音频格式如下表示sasr.mp4的音频格式是aac编码，采样率是44.1k hz，双声道 3、从视频文件中分离音频因为音频是aac编码，所以保持为m4a格式。这一步需要根据实际的音频格式进行转换。如下命令会生成sasr.m4a文件，然后使用该文件就可以调用SIS的语音识别

开发者 > 其他

作者： void0

3330

0
微认证之路 AI智能语音识别计算器

RASR，实时语音转写 3. TTSC，定制语音合成 6. 常见的音频格式：MP3 WAV APE flac 7. 波形图，语谱图 8. 语音识别技术 1. 综合性的技术，它涉及到多个学科领域，如发声机理和听觉机理、信号处理、概率论和信息论、模式识别以及人工智能等等 9. 鸡尾酒会问题 1

开发者 > 其他

作者：千江有水千江月

1964

0
【MindSpore】【语音识别】DFCNN网络训练loss不收敛

plt.show()这样可以把ASR的任务转换成CV的任务。DFCNN的目的就是根据这个语谱图，识别其中的语音信息，得到拼音序列。Transformer是NLP的网络，可以把拼音序列转成文字。我主要是迁移了DFCNN的部分，本质还是CV类的网络，不过使用的损失函数是P.CTCLoss

开发者 > 其他

作者： Daniel46010140

1740

3
kaldi语音识别 chain模型的训练流程

限状态机方面，区别于传统最大互信息的区分性训练，chain模型用训练数据的强制对齐结果，训练了一个四元语法音素单元的语言模型，并将其转成有限状态机。相关代码如下：该过程的输入是tree_sp文件中的alignments和修改topo结构后生成的gmm model。 2. 生成分母FST

开发者 > 博客

作者： ASR-beginer

发表时间： 2020-07-02 11:13:10

8475

1
kaldi语音识别 chain模型的数据准备

5：设置egs和chain的配置信息。值得一提的是constrained参数默认是True。我们后期可以设置为False step 6：设置lattice的情况。默认是用gmm解码得到的完整lattice作为分子，主要是为了防止gmm得到的lattice不准确，有一定的容错机制。但是我感

开发者 > 博客

作者： ASR-beginer

发表时间： 2020-07-02 11:00:32

11793

0
自动语音识别（ASR）与文本转语音（TTS）技术的应用与发展

系统已逐渐能够识别不同语言、方言甚至个性化的发音方式。 ASR 的工作原理 ASR 系统的工作原理主要包括以下几个关键步骤：语音信号处理：这是 ASR 系统的第一个环节，旨在将语音信号转换为可以分析的特征数据。在这个阶段，系统会对音频信号进行分帧处理（将音频信号划分成小段时间区间），然后提取信号中的特征信息，

开发者 > 博客

作者： kwan的解忧杂货铺

发表时间： 2024-11-16 18:34:56

0

0
通俗易懂说AI--语音识别篇
通俗易懂说AI--语音识别篇

候开始说的，什么时候结束的。语音特征提取：计算机需要从声音中提取有用的信息，这就是语音特征提取。这包括声音的音高、音调、语速等。语音模型训练：计算机要通过大量的语音样本来学习，建立一个准确的语音模型。这个过程需要大量的计算资源和时间。3. 语音识别的应用场景语音识别技术已经深入到我们生活的方方面面：语音助手：

开发者 > 其他

作者：运气男孩

59

2
语音识别技术之说话人自适应技术

通过调整声学模型来补偿训练和测试条件之间的不匹配，例如通过适应看不见的说话人，可以改善ASR的识别性能。说话人自适应方法的成功依赖于选择适合于自适应的权重并使用良好的自适应策略来更新这些权重以便不过拟合自适应数据。在本文中，我们研究了使用元学习（meta-learning）来调整声学模型的自适应权重的原理方法。

开发者 > 其他

作者：可爱又积极

1047

2
DFCNN + Transformer模型完成中文语音识别（三）

return v, text 使用搭建好的语音识别系统进行测试在这里显示出10条语音示例的原文拼音及识别结果、原文汉字及识别结果。 for i in range(10): print('\n示例', i+1) # 载入训练好的模型，并进行识别 inputs

开发者 > 博客

作者： HWCloudAI

发表时间： 2022-12-19 03:41:11

315

0
【人工智能相关知识分享】语音识别的性能指标

语音识别系统的性能指标主要有四项。①词汇表范围：这是指机器能识别的单词或词组的范围，如不作任何限制，则可认为词汇表范围是无限的。②说话人限制：是仅能识别指定发话者的语音，还是对任何发话人的语音都能识别。③训练要求：使用前要不要训练，即是否让机器先“听”一下给定的语音，以及训练次数

开发者 > 其他

作者：某地瓜

1374

1
AI智能语音识别计算器
AI智能语音识别计算器

对语音识别和语音合成技术感兴趣的人结合语音识别和语音合成的原理，通过华为云SIS服务实现自己的语音交互小程序提升Python程序设计能力，语音处理基础能力使用语音交互服务实现AI小程序，提升自身编码能力和增加对语音识别及语音合成的理解智能语音计算实践语音处理技术概述语音识别和语音合成

开发者 > 开发者学堂
自学记录HarmonyOS Next的HMS AI API 13：语音合成与语音识别

Recognizer API 提供了语音转文本的功能，核心功能包括：实时语音识别语言模型支持语音识别的动态监听语音识别的实时性和准确性，使得它在智能设备和人机交互中不可或缺。利用Speech Recognizer API，可以轻松实现基于语音的控制逻辑和输入功能。结合这两个API

开发者 > 博客

作者：李游Leo

发表时间： 2024-12-28 19:43:08

197

0
【人工智能相关知识分享】语音识别语言模型

用的是二元的Bi-Gram和三元的Tri-Gram。语言模型的性能通常用交叉熵和复杂度（Perplexity）来衡量。交叉熵的意义是用该模型对文本识别的难度，或者从压缩的角度来看，每个词平均要用几个位来编码。复杂度的意义是用该模型表示这一文本平均的分支数，其倒数可视为每个词的平均

开发者 > 其他

作者：某地瓜

936

1
【人工智能相关知识分享】语音识别声学特征

线性预测分析从人的发声机理入手，通过对声道的短管级联模型的研究，认为系统的传递函数符合全极点数字滤波器的形式，从而n 时刻的信号可以用前若干时刻的信号的线性组合来估计。通过使实际语音的采样值和线性预测采样值之间达到均方差最小LMS，即可得到线性预测系数LPC。对 LPC的计算方法有自

开发者 > 其他

作者：某地瓜

1852

1
自动语音识别（ASR）与文本转语音（TTS）技术的应用与发展

系统已逐渐能够识别不同语言、方言甚至个性化的发音方式。 ASR 的工作原理 ASR 系统的工作原理主要包括以下几个关键步骤：语音信号处理：这是 ASR 系统的第一个环节，旨在将语音信号转换为可以分析的特征数据。在这个阶段，系统会对音频信号进行分帧处理（将音频信号划分成小段时间区间），然后提取信号中的特征信息，

开发者 > 博客

作者： kwan的解忧杂货铺

发表时间： 2024-11-25 23:43:30

63

0
DFCNN + Transformer模型完成中文语音识别（二）

有一个输出。选择三个输入是考虑到模型的通用性，输出是所有 value 的加权求和。value 的权重来自于 query 和 keys 的乘积，经过一个 softmax 之后得到。 Scaled Dot-Product Attention 的公式及结构如下图所示。 Multi-Head

开发者 > 博客

作者： HWCloudAI

发表时间： 2022-12-19 03:40:17

312

0
华为云语音交互服务-语音识别-长语音识别于2019年10月24日00:00（北京时间）停售通知

尊敬的华为云客户：华为云计划于2019/10/24 00:00（北京时间）正式停售 “语音交互服务-语音识别-长语音识别”。华为云在此提醒您，产品停售后，该长语音识别接口将不可被调用。如果您需要继续使用长语音识别功能，请您在2019/10/24 00:00之前适配录音文件识别接口

开发者 > 博客

作者：华为云客户服务中心

发表时间： 2019-10-08 15:20:57

6059

0
人工智能趋势：语音识别发展前景广阔

通过利用机器学习技术进行自然语言的的深度理解，一直是工业和学术界关注的焦点。在人工智能的各项领域中，自然语言处理是最为成熟的技术，由此引来各大企业纷纷进军布局。在未来3年内，成熟化的语音产品将通过云平台和智能硬件平台快速实现商业化部署，前景十分广阔。这一领域，轻松呼已率先入局，其

开发者 > 其他

作者：运气男孩

1266

4
【人工智能相关知识分享】语音识别声学模型

Phone，考虑前一音和后一音的影响的称为Tri-Phone。英语的上下文相关建模通常以音素为基元，由于有些音素对其后音素的影响是相似的，因而可以通过音素解码状态的聚类进行模型参数的共享。聚类的结果称为senone。决策树用来实现高效的triphone对senone的对应，通过回答一系列前后

开发者 > 其他

作者：某地瓜

1962

1
新手语音入门（三）：语音识别ASR算法初探 | 编码与解码 | 声学模型与语音模型 | 贝叶斯公式 | 音素

语音识别技术的发展已有数十年发展历史，大体来看可以分成传统的识别的方法和基于深度学习网络的端到端的方法。无论哪种方法，都会遵循“输入-编码-解码-输出”的过程。图1 语音识别过程编码过程：语音识别的输入是声音，属于计算机无法直接处理的信号，所以需要编码过程将其转变为数字信

开发者 > 博客

作者：黄辣鸡

发表时间： 2021-12-27 07:11:12

4152

0

总条数： 10000

上一页
1
...
7
8
9
...
500
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

如何从视频中分离音频进行语音识别

微认证之路 AI智能语音识别计算器

【MindSpore】【语音识别】DFCNN网络训练loss不收敛

kaldi语音识别 chain模型的训练流程

kaldi语音识别 chain模型的数据准备

自动语音识别（ASR）与文本转语音（TTS）技术的应用与发展

通俗易懂说AI--语音识别篇

语音识别技术之说话人自适应技术

DFCNN + Transformer模型完成中文语音识别（三）

【人工智能相关知识分享】语音识别的性能指标

AI智能语音识别计算器

自学记录HarmonyOS Next的HMS AI API 13：语音合成与语音识别

【人工智能相关知识分享】语音识别语言模型

【人工智能相关知识分享】语音识别声学特征

自动语音识别（ASR）与文本转语音（TTS）技术的应用与发展

DFCNN + Transformer模型完成中文语音识别（二）

华为云语音交互服务-语音识别-长语音识别于2019年10月24日00:00（北京时间）停售通知

人工智能趋势：语音识别发展前景广阔

【人工智能相关知识分享】语音识别声学模型

新手语音入门（三）：语音识别ASR算法初探 | 编码与解码 | 声学模型与语音模型 | 贝叶斯公式 | 音素

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线