已找到以下 10000 条记录
  • 深度学习入门》笔记 - 25

    L2惩罚法也是一个经典的正则化方法。 它是在原有损失函数的基础上,在构造一个新的损失函数。(带有惩罚项 是一个超参数)模型集成(model ensemble)可以提供模型的预测准确度,思想就是, 先训练大量结构不同的模型,通过平均、或投票方式综合所有模型的结构,得到最终预测。在实际中,有较大限制,原因很简单,

    作者: 黄生
    19
    1
  • 深度学习图卷积

    作者: 我的老天鹅
    823
    6
  • 深度学习之梯度下降

    对于牛顿法而言,鞍点显然是一个问题。梯度下降旨在朝“下坡”移动,而非明确寻求临界点。而牛顿法的目标是寻求梯度为零的点。如果没有适当的修改,牛顿法就会跳进一个鞍点。高维空间中鞍点的激增或许解释了在神经网络训练中为什么二阶方法无法成功取代梯度下降。Dauphin et al. (2014)

    作者: 小强鼓掌
    330
    2
  • 深度学习之快速 Dropout

    使用Dropout训练时的随机性不是这个方法成功的必要条件。它仅仅是近似所有子模型总和的一个方法。Wang and Manning (2013) 导出了近似这种边缘分布的解析解。他们的近似被称为快速 Dropout(fast dropout),减小梯度计算中的随机性而获得更快的收

    作者: 小强鼓掌
    540
    1
  • 深度学习之灾难遗忘

    每个 maxout 单元现在由 k 个权重向量来参数化,而不仅仅是一个,所以 maxout单元通常比整流线性单元需要更多的正则化。如果训练集很大并且每个单元的块数保持很低的话,它们可以在没有正则化的情况下工作得不错 (Cai et al., 2013)。maxout 单元还有一些

    作者: 小强鼓掌
    418
    0
  • 深度学习之快速 Dropout

    使用Dropout训练时的随机性不是这个方法成功的必要条件。它仅仅是近似所有子模型总和的一个方法。Wang and Manning (2013) 导出了近似这种边缘分布的解析解。他们的近似被称为快速 Dropout(fast dropout),减小梯度计算中的随机性而获得更快的收

    作者: 小强鼓掌
    1197
    4
  • 深度学习入门》笔记 - 04

    然后就是Python的介绍。包括常见的数据类型,基本算术运算,比较和布尔运算,如何载入额外的模块和包。 基本数据结构有列表、元组、字典和集合。控制结构,内建函数和自定义函数。 然后介绍numpy库,他可以实现快速的算数运算,特别是矩阵运算,运算内部是通过C语言实现的,所以比较快。

    作者: 黄生
    40
    1
  • 深度学习之聚类问题

    关于聚类的一个问题是聚类问题本身是病态的。这是说没有单一的标准去度量聚类的数据对应真实世界有多好。我们可以度量聚类的性质,例如每个聚类的元素到该类中心点的平均欧几里得距离。这使我们可以判断能够多好地从聚类分配中重建训练数据。然而我们不知道聚类的性质多好地对应于真实世界的性质。此外

    作者: 小强鼓掌
    535
    1
  • 深度学习之批量算法

    促使我们从小数目样本中获得梯度的统计估计的动机是训练集的冗余。在最坏的情况下,训练集中所有的 m 个样本都是彼此相同的拷贝。基于采样的梯度估计可以使用单个样本计算出正确的梯度,而比原来的做法少花了 m 倍时间。实践中,我们不太可能真的遇到这种最坏情况,但我们可能会发现大量样本都对

    作者: 小强鼓掌
    314
    1
  • 深度学习之任务分类

    作者: 小强鼓掌
    721
    0
  • 深度学习入门》笔记 - 15

    ```python #定义sigmoid函数 def sigmoid(input): return 1.0/(1+np.exp(-input)) #通过随机梯度下降法估计参数 def logit_model(x,y,w,b,lr=0.1): for iter in range(60):

    作者: 黄生
    195
    2
  • 深度学习入门》笔记 - 24

    解决欠拟合问题的方法比较简单,增加模型复杂度就可以了。常见的方法是增加隐藏层的数量或者增加隐藏层的节点数,或者二者同时增加。如果训练误差持续下降,接近于0。而测试误差在下降后变得平稳,甚至略有上升。训练误差和测试误差的差距较大。这就是典型的过拟合情况。在建立神经网络模型的初始阶段

    作者: 黄生
    36
    2
  • “智能基座”产教融合协同育人基地

    本实验以某数据中心MySQL数据库迁移为例,指导用户掌握DRS迁移流程。 立即实验 基于深度学习算法的语音识别 利用新型的人工智能(深度学习)算法,结合清华大学开源语音数据集THCHS30进行语音识别的实战演练 利用新型的人工智能(深度学习)算法,结合清华大学开源语音数据集THCHS30进行语音识别的实战演练。

  • 深度学习笔记之度量模型深度的方式(一)

    将模型表示为给定输入后,计算对应输出的流程图,则可以将这张流程图中的最长路径视为模型的深度。正如两个使用不同语言编写的等价程序将具有不同的长度;相同的函数可以被绘制为具有不同深度的流程图,其深度取决于我们可以用来作为一个步骤的函数。图1.3说明了语言的选择如何给相同的架构两个不同的衡量。图

    作者: 小强鼓掌
    740
    1
  • 【开源模型学习】AlexNet深度学习模型总结

    复训练,选取出合适的a,LReLU的表现出的结果才比ReLU好。因此有人提出了一种自适应地从数据中学习参数的PReLU。PReLU是LeakyRelu的改进,可以自适应地从数据中学习参数。PReLU具有收敛速度快、错误率低的特点。PReLU可以用于反向传播的训练,可以与其他层同时优化。2

    作者: 小二中二大二
    1653
    0
  • 人工智能、机器学习深度学习的关系

    )领域。显然,“深度学习”是与机器学习中的“神经网络”是强相关,“神经网络”也是其主要的算法和手段;或者我们可以将“深度学习”称之为“改良版的神经网络”算法。深度学习又分为卷积神经网络(Convolutional neural networks,简称CNN)和深度置信网(Deep

    作者: 我的老天鹅
    1923
    23
  • 深度学习入门》笔记 - 06

    下面是一个简单的例子来介绍线性回归模型。 数据是在多个市场的3个不同渠道的广告投入以及商品销量。 这个模型的意义也就很明白了,那就是找出在这3个不同渠道广告投入与最终的商品销量之间的关系。 先把数据可视化: ```python %config InlineBackend.figure_format='retina'

    作者: 黄生
    44
    2
  • 深度学习入门》笔记 - 03

    接下来是概率论的一些基本的概念。 `随机变量`就是一个取值不确定的变量。 这个在工作生活中应用的实在是太广泛了。比如老板问你这件事情明天能不能搞完?一般情况下,你的回答可能就是一个随机变量。 随机变量可以分为两种类型:连续型和离散型。 `随机变量的分布`用来描述随机变量出现某种结果的可能性。可以用一些分布函数来表示。

    作者: 黄生
    30
    0
  • 深度学习之切面距离

    一个利用流形假设的早期尝试是切面距离(tangent distance)算法 (Simard et al., 1993, 1998)。它是一种非参数的最近邻算法,其中使用的度量不是通用的欧几里德距离,而是根据邻近流形关于聚集概率的知识导出的。这个算法假设我们尝试分类的样本和同一流

    作者: 小强鼓掌
    424
    1
  • 深度学习入门》笔记 - 19

    如果没有激活函数,神经网络会变成什么呢? 答案是如果没有激活函数,那么无论神经网络的结构有多复杂,它都将退化为一个线性模型。现实的回归问题或者分类问题的决策边界通常都是复杂且非线性的。这要求模型具有产生复杂的非线性决策边界的能力,在这一点上激活函数在神经网络中扮演了非常重要的角色

    作者: 黄生
    33
    1