内容选择
全部
内容选择
内容分类
  • 学堂
  • 博客
  • 论坛
  • 开发服务
  • 开发工具
  • 直播
  • 视频
  • 用户
时间
  • 一周
  • 一个月
  • 三个月
  • 语音识别】基于matlab高斯混合模型(GMM)说话人识别【含Matlab源码 574期】

    background model)算法,其与GMM区别在于:对L类整体样本训练一个大GMM,而不像GMM对每一类训练一个GMM模型。SVM的话MFCC作为特征,每一帧作为一个样本,可以借助VAD删除无效音频段,直接训练分类。近年来也有利用稀疏表达方法: 二、部分源代码 function

    作者: 海神之光
    发表时间: 2022-05-29 14:22:30
    328
    0
  • 实时字幕信息推送

    实时字幕信息推送 描述 会中任何人都可以通过该接口首次启动会议实时字幕。会议处于开启实时字幕状态,会中任何人都可以订阅实时字幕推送消息帧。 会议结束时,会议实时字幕才会停止。

  • 如何使用人工智能进行语音识别与翻译?

    如何使用人工智能进行语音识别与翻译?

    作者: 柠檬味拥抱1
    20
    2
  • Ubuntu20.04 使用Python实现全过程离线语音识别(包含语音唤醒,语音转文字,指令识别,文字转语音)-转载

    版本是1.3.0,官方自定义语音唤醒词训练网站已经停掉了,不过还有第三方网站可以用。 语音转文字使用Speechbrain,这个可以自己训练自己相关模型,为了提高自己指令识别精度可以这么做。要省事可以使用官方提供预先训练好模型。 文字转语音使用Pyttsx3,这个怎

    作者: 泽宇-Li
    304
    2
  • 基于MindX SDK中文语音识别推理实验--swjtu寒假特别版

    关于 基于MindX SDK中文语音识别推理实验 这个实验,首先是完成ECS环境搭建,再次推荐大家去看昇腾官方视频,里面有详细步骤,我看是B站视频,在此把视频链接放出来,大家可以去看一下【【昇腾小姐姐教你趣味实验】昇腾工业质检应用实践】 https://www.bilibili

    作者: aubrey_zhangzh
    发表时间: 2023-01-31 02:01:03
    97
    0
  • 【AI实战营】第八章语音识别延伸学习材料

    在安静环境下语音识别系统已经接近了人类水平。目前也有很多实际应用,但目前语音识别系统在强噪声干扰情况下还很难达到实用化要求。对于人类听觉系统则有一种“鸡尾酒会效应”,我们在具有背景噪声干扰情况下,可以将注意力集中在某一个人谈话之中,而这种人类听觉系统功能目前语音识

    作者: ModelArts开发者
    3105
    4
  • 获取实时作业详情

    job_config map<string, object> 实时分析作业详细配置,每个作业可选择不同算子进行组合,各算子使用方法详见:实时分析->作业开发->编排作业->表2:算子说明。

  • 实时隐匿查询场景

    实时隐匿查询场景

  • 【云驻共创】一起来做一个《语音识别》小应用,无门槛学会该实用技能。

    前言 语音识别 在我们日常生活中已经被广泛应用。 曾经听起来高大上功能词汇,放到现在其实很简单就可以自己实现。 本文就来带你了解 语音识别技术原理 顺便做一个 语音识别的实战应用 。 一、语音识别原理 1.1 语音识别的相关解释 语音识别,通常称为自动语音识别,英文是Automatic

    作者: 呆呆敲代码的小Y
    发表时间: 2022-01-21 09:17:22
    1819
    0
  • 【人工智能相关知识分享】语音识别系统适应强健

    语音识别系统性能受许多因素影响,包括不同说话人、说话方式、环境噪音、传输信道等等。提高系统鲁棒性,是要提高系统克服这些因素影响能力,使系统在不同应用环境、条件下性能稳定;自适应目的,是根据不同影响来源,自动地、有针对性地对系统进行调整,在使用中逐步提高性能。以下对影响系统性能的不同因素分别介绍解决办法。

    作者: 某地瓜
    1234
    2
  • 利用Real-time ASR语音转写服务实现直播实时弹幕提升用户体验

    ASR语音转写服务如何解决:调用华为云提供Websocket接口,将音频分片传输,服务器端可以返回中间临时转写结果,在最后返回最终转写结果。针对识别效果差情况,咨询了解后,可以设置每次分片时间50ms-1000ms,当需要实时反馈情况下设置为100ms,不需要实时反馈情况下设置为500ms。分片大小可根据 位宽

    作者: 键来
    3797
    2
  • 使用函数工作流FunctionGraph构建语音识别应用

    使用函数工作流FunctionGraph构建语音识别应用

  • 什么是语音交互服务

    实时语音识别(Real-time ASR)、用户通过实时访问和调用API获取实时语音识别结果,支持语言包含中文普通话、方言和英语,方言当前支持四川话、粤语和上海话。 一句话识别(Short Sentence Recognition)、可以实现1分钟30s以

  • 语音识别】基于matlab MFCC+SVM特定人性别识别【含Matlab源码 533期】

    个滤波器中心频率是相等间隔线性分布,但在频率范围不是相等间隔,这个是由于频率与Mel频率转换公式形成,公式如下: 式中log是以log10为底,也就是lg。 将能量谱通过一组Mel尺度三角形滤波器组,定义一个有M个滤波器滤波器组(滤波器个数和临界带个数相近)

    作者: 海神之光
    发表时间: 2022-05-28 20:09:44
    405
    0
  • LSTM在语音识别应用:探索LSTM在语音信号处理中潜力和局限

    LSTM 在语音识别应用探索 I. 引言 语音识别是将语音信号转换为文本过程,是自然语言处理领域重要应用之一。随着深度学习技术发展,长短期记忆网络(LSTM)作为一种强大序列模型,在语音识别任务中展现了巨大潜力。本文将深入探索 LSTM 在语音信号处理中应用,探讨其优势、局限性以及未来的发展方向。

    作者: Y-StarryDreamer
    发表时间: 2024-03-26 14:29:09
    1
    0
  • 语音识别技术发展与未来趋势:深度学习、端到端建模与多模态融合

    语音识别技术在深度学习推动下取得了显著进步。深度学习技术应用使得语音识别的准确性和鲁棒性大大提高。端到端建模方法简化了传统语音识别系统复杂度,实现了从原始语音信号到最终文本直接映射。多模态融合技术提供了更丰富和可靠信息来源,有助于改进语音识别任务准确性和流利性。 未

    作者: wljslmz
    发表时间: 2023-06-30 10:56:54
    21
    0
  • 【云驻共创】华为云系列之ModelArts搭建中文语音识别系统

    识别和理解人类语音。除了传统语音识别技术之外,基于深度学习语音识别技术也逐渐发展起来。 自动语音识别(Automatic Speech Recognition,ASR),也可以简称为语音识别。主要是将人类语音中词汇内容转换为计算机可读输入,一般都是可以理解文本内容,也有

    作者: 愚公搬代码
    发表时间: 2023-03-21 16:06:59
    3167
    0
  • 新手语音入门(五): 端到端语音识别技术简介 | 卷积神经网络 | CTC损失函数 | 注意力机制

    综上所述,目前最基本两个端对端方法即上文提到基于CTC损失函数和注意力机制深度学习方法。接下来将介绍几种常见端对端结构语音识别算法设计。 1. CTC损失函数 CTC是一种2006年就应用于语音识别的损失函数,输入是一个序列,输出是一个序列,该损失函数使得模型输出序列尽可能拟合目标序列。

    作者: 黄辣鸡
    发表时间: 2021-12-27 12:05:28
    2685
    0
  • 【Atlas】【复现语音识别部分】在生成执行main部分出错

    按照 https://gitee.com/ascend/samples/tree/master/cplusplus/level2_simple_inference/5_nlp/WAV_to_word  进行复现,环境均配置完成,在最后执行main和python3 postprocess

    作者: 岁寒良木
    1057
    11
  • 《深入理解AutoML和AutoDL:构建自动化机器学习与深度学习平台》 —1.4.3 语音识别

    有自己特征,该特征能将不同人声音进行有效地区分)说话者身份特征信息。语音识别有很广阔应用场景和发展空间,如:行车导航软件通过语音合成技术为司机指引道路、播报路况,人们甚至可以选择用自己喜欢明星声音来播报软件内容;智能家居系统利用语音合成技术能够实现与用户实时交流,人

    作者: 华章计算机
    发表时间: 2019-11-15 15:19:23
    4820
    0