内容选择
全部
内容选择
内容分类
  • 学堂
  • 博客
  • 论坛
  • 开发服务
  • 开发工具
  • 直播
  • 视频
  • 用户
时间
  • 一周
  • 一个月
  • 三个月
  • 深度学习之长期依赖

    当计算图变得极深时,神经网络优化算法会面临的另外一个难题就是长期依赖问题——由于变深的结构使模型丧失了学习到先前信息的能力,让优化变得极其困难。深层的计算图不仅存在于前馈网络,还存在于之后介绍的循环网络中(在第十章中描述)。

    作者: 小强鼓掌
    317
    2
  • 深度学习入门》笔记 - 20

    MNIST数据集是机器学习文献中常用的数据。因变量(0~9)用独热码表示,比如数字8的独热码为(0 0 0 0 0 0 0 0 1 0)数字2的读热码为(0 0 1 0 0 0 0 0 0 0)输出层激活函数的选择取决于因变量的数据类型。

    作者: 黄生
    24
    1
  • 深度学习之隐藏单元

    模型必须学习另一种 hi,要么是鼻子存在的冗余编码,要么是脸部的另一特征,如嘴。传统的噪声注入技术,在输入端加非结构化的噪声不能够随机地从脸部图像中抹去关于鼻子的信息,除非噪声的幅度大到几乎能抹去图像中所有的信息。

    作者: 小强鼓掌
    833
    5
  • 深度学习之噪声鲁棒性

    贝叶斯学习过程将权重视为不确定的,并且可以通过概率分布表示这种不确定性。向权重添加噪声是反映这种不确定性的一种实用的随机方法。

    作者: 小强鼓掌
    637
    1
  • 深度学习之模板匹配

    支持向量机能够通过学习主要包含零的向量 α,以缓和这个缺点。那么判断新样本的类别仅需要计算非零 αi 对应的训练样本的核函数。这些训练样本被称为支持向量 (support vector)。

    作者: 小强鼓掌
    464
    1
  • 深度学习之贝叶斯统计

    一般而言,机器学习实践者会选择一个相当宽泛的(即,高熵的)先验分布,反映在观测到任何数据前参数 θ 的高度不确定性。例如,我们可能会假设先验 θ 在有限区间中均匀分布。许多先验偏好于“更简单” 的解决方法(如小幅度的系数,或是接近常数的函数)。       

    作者: 小强鼓掌
    619
    1
  • 深度学习之对抗样本

    神经网络能够将函数从接近线性转化为局部近似恒定,从而可以灵活地捕获到训练数据中的线性趋势同时学习抵抗局部扰动。

    作者: 小强鼓掌
    631
    3
  • 深度学习之Dropout启发

    在实践中,我们必须选择让神经网络能够学习对抗的修改类型。在理想情况下,我们也应该使用可以快速近似推断的模型族。我们可以认为由向量 µ 参数化的任何形式的修改,是对 µ 所有可能的值训练 p(y | x, µ) 的集成。注意,这里不要求 µ 具有有限数量的值。

    作者: 小强鼓掌
    544
    1
  • 深度学习之权重比例

    权重比例推断规则在其他设定下也是精确的,包括条件正态输出的回归网络以及那些隐藏层不包含非线性的深度网络。然而,权重比例推断规则对具有非线性的深度模型仅仅是一个近似。虽然这个近似尚未有理论上的分析,但在实践中往往效果很好。

    作者: 小强鼓掌
    958
    5
  • 深度学习入门》笔记 - 11

    这样做可以让梯步下降法的数值更加稳定,更容易找到合适的初始值和学习步长。 一个标准化的方法就是让数据的每一列减去该列的均值,然后除以该列的样本标准差($sd(x)$): !

    作者: 黄生
    182
    2
  • 深度学习之任务 T

            机器学习可以让我们解决一些人为设计和实现固定程序很难解决的问题。从科学和哲学的角度来看,机器学习受到关注是因为提高我们对机器学习的认识需要提高我们对智能背后原理的理解。       如果考虑 “任务”比较正式的定义,那么学习的过程并不是任务。       

    作者: 小强鼓掌
    726
    2
  • 深度学习之代价函数

    用于线性模型的权值衰减方法也直接适用于深度神经网络,而且是最流行的正则化策略之一。

    作者: 小强鼓掌
    741
    2
  • 学习笔记-如何提升深度学习性能?

    从文献中学习 c. 重采样的方法3. 从算法调优上提升性能   a. 模型可诊断性 b. 权重的初始化 c. 学习率 d. 激活函数 e. 网络结构 f. batch和epoch g. 正则项 h. 优化目标 i. 提早结束训练4. 从模型融合上提升性能   a.

    作者: RabbitCloud
    632
    1
  • 深度学习之正则化

            没有免费午餐定理暗示我们必须在特定任务上设计性能良好的机器学习算法。我们建立一组学习算法的偏好来达到这个要求。当这些偏好和我们希望算法解决的学习问题相吻合时,性能会更好。       

    作者: 小强鼓掌
    834
    3
  • 深度学习之maxout 单元

    maxout 层的参数化当然也将与这些层不同,所以即使是 maxout 学习去实现和其他种类的层相同的 x 的函数这种情况下,学习的机理也是不一样的。

    作者: 小强鼓掌
    1104
    1
  • 深度学习入门》笔记 - 08

    //bbs-img.huaweicloud.com/data/forums/attachment/forum/20227/31/1659244208189864369.png) 这个算法就是梯度下降法,在更新w的过程中,加入了一个系数$\alpha$,他是一个比较小的正数,叫做`学习步长

    作者: 黄生
    147
    3
  • 深度学习之验证集

    早先我们讨论过和训练数据相同分布的样本组成的测试集可以用来估计学习过程完成之后的学习器的泛化误差。其重点在于测试样本不能以任何形式参与到模型的选择,包括设定超参数。基于这个原因,测试集中的样本不能用于验证集。因此,我们总是从训练数据中构建验证集。

    作者: 小强鼓掌
    730
    1
  • 深度学习之动量举例

    为什么要特别使用 −v(t) 和粘性阻力呢?部分原因是因为 −v(t) 在数学上的便利——速度的整数幂很容易处理。然而,其他物理系统具有基于速度的其他整数幂的其他类型的阻力。例如,颗粒通过空气时会受到正比于速度平方的湍流阻力,而颗粒沿着地面移动时会受到恒定大小的摩擦力。这些选择都不合适

    作者: 小强鼓掌
    420
    2
  • 深度学习之交叉验证

    数据集分成固定的训练集和固定的测试集后,若测试集的误差很小,这将是有问题的。一个小规模的测试集意味着平均测试误差估计的统计不确定性,使得很难判断算法 A 是否比算法 B 在给定的任务上做得更好。当数据集有十万计或者更多的样本时,这不会是一个严重的问题。当数据集太小时,也有替代方法允许我们使用所有的样本估计平均测试误差

    作者: 小强鼓掌
    935
    3
  • 深度学习Sigmoid 激活函数

    Sigmoid 函数的图像看起来像一个 S 形曲线。

    作者: 我的老天鹅
    422
    4