已找到以下 10000 条记录
  • 深度学习之隐藏单元

    Dropout强大大部分原因来自施加到隐藏单元掩码噪声,了解这要。这可以看作对输入内容信息高度智能化、自适应破坏一种形式,而不是对输入原始值破坏。例如,如果模型学得通过鼻检测脸隐藏单元 hi,那么丢失 hi 对应于擦除图像中有鼻子信息。模型必须学习另一种 hi,要么鼻子存

    作者: 小强鼓掌
    833
    5
  • 深度学习之噪声鲁棒性

    将其加到权重。这项技术主要用于循环神经网络 (Jim et al., 1996; Graves, 2011)。这可以被解释为关于权重贝叶斯推断随机实现。贝叶斯学习过程将权重视为不确定,并且可以通过概率分布表示这种不确定性。向权重添加噪声反映这种不确定性一种实用随机方法。

    作者: 小强鼓掌
    638
    1
  • 深度学习之小更新

    梯度下降和基本上所有的可以有效训练神经网络学习算法,都是基于局部较也许能计算目标函数一些性质,如近似的有偏梯度或正确方向估计方差。在这些情况下,难以确定局部下降能否定义通向有效解足够短路径,但我们并不能真的遵循局部下降路径。目标函数可能有诸如病态条件或不连续梯度问题,使得梯度为目标函数

    作者: 小强鼓掌
    419
    2
  • 深度学习之提前终止

    储模型参数副本。当训练算法终止时,我们返回这些参数而不是最新参数。当验证集上误差在事先指定循环次数内没有进一步改善时,算法就会终止。此过程在算法中有更正式说明。这种策略被称为提前终止(early stopping)。这可能深度学习中最常用正则化形式。它流行主要是因为有效性和简单性。

    作者: 小强鼓掌
    325
    0
  • 深度学习之模板匹配

    1999)。核机器一个主要缺点计算决策函数成本关于训练样本数目线性。因为第 i 个样本贡献 αik(x, x(i)) 到决策函数。支持向量机能够通过学习主要包含零向量 α,以缓和这个缺点。那么判断新样本类别仅需要计算非零 αi 对应训练样本核函数。这些训练样本被称为支持向量

    作者: 小强鼓掌
    464
    1
  • 深度学习之贝叶斯统计

      频率派视角真实参数 θ 未知定值,而点估计θˆ 考虑数据集上函数(可以看作随机随机变量。        贝叶斯统计视角完全不同。贝叶斯用概率反映知识状态的确定性程度。数据集能够直接观测到,因此不是随机。另一方面,真实参数 θ 未知或不确定,因此可以表示成随机变量。 

    作者: 小强鼓掌
    619
    1
  • 深度学习之对抗样本

    表明,这些对抗样本主要原因之一过度线性。神经网络主要是基于线性块构建。因此在一些实验中,它们实现整体函数被证明高度线性。这些线性函数很容易优化。不幸,如果一个线性函数具有许多输入,那么它值可以非常迅速地改变。如果我们用 ϵ 改变每个输入,那么权重为w 线性函数可以改变

    作者: 小强鼓掌
    631
    3
  • 深度学习之Dropout启发

    Dropout启发其他以随机方法训练指数量级共享权重集成。DropConnectDropout一个特殊情况,其中一个标量权重和单个隐藏单元状态之间每个乘积被认为可以丢弃一个单元 (Wan et al., 2013)。随机池化构造卷积神经网络集成一种随机池化形式 (见第 9.3 节

    作者: 小强鼓掌
    547
    1
  • 深度学习入门》笔记 - 13

    从上图中可以看到,信用卡余额相对于每月收入来说,对还款违约影响更大。 一般模型不会直接预测某信用卡用户是否违约,而是预测其违约概率,表示为`P(Default|Balance,Income)`,因为它值在0和1之间,所以如果直接用类似线性回归模型方式不行,需要对加权和进行变换。即: ![image

    作者: 黄生
    48
    1
  • 深度学习概述

    差较大现象。欠拟合与过拟合区别:欠拟合在训练集和测试集上性能都较差,而过拟合往往能较好地学习训练集数据性质,而在测试集上性能较差。在神经网络训练过程中,欠拟合主要表现为输出结果高偏差,而过拟合主要表现为输出结果高方差。机器学习目标:使学得模型能够很好适用于

    作者: 大鹏爱学习
    发表时间: 2022-10-17 10:07:38
    961
    0
  • 深度学习入门》笔记 - 18

    Propagation)神经网络中逐层计算参数梯度方法。我早就已经开始看不懂了,这个图还没完。这个正向传播算法和反向传播算法干啥用呢?我理解用来训练神经网络模型。因为中间加了很多隐藏层,隐藏层也是需要将损失最小化呀,所以需要引入这两个算法。神经网络目的建立输入层与输出层

    作者: 黄生
    23
    1
  • 深度学习模型轻量化

    移动端模型必须满足模型尺寸小、计算复杂度低、电池耗电量低、下发更新部署灵活等条件。模型压缩和加速两个不同的话题,有时候压缩并不一定能带来加速效果,有时候又是相辅相成。压缩重点在于减少网络参数量,加速则侧重在降低计算复杂度、提升并行能力等。模型压缩和加速可以从多个角度来优化。总体来看,个人认为主要分为三个层次:1

    作者: 可爱又积极
    1259
    4
  • 深度学习入门》笔记 - 16

    然后以这两个logistic模型结果作为输入,建立一个logistic回归模型,这个模型用于判断观测点在两条直线中所处位置。可以写代码实现上图所示神经网络,代码忽略之。而代码运行结果预测全部正确。 这里展示第2组数据各层结果: 对照着看从输入层到隐藏层两个logistic模型对应决策边界:可以看到,隐藏层把(0

    作者: 黄生
    37
    4
  • 深度学习之多个概率分布

    因为这个求和包含多达指数级项,除非该模型结构允许某种形式简化,否则是不可能计算。目前为止,无法得知深度神经网络是否允许某种可行简化。相反,我们可以通过采样近似推断,即平均许多掩码输出。即使 10 − 20 个掩码就足以获得不错表现。然而,一个更好方法能不错地近似整个集成预测,且

    作者: 小强鼓掌
    632
    4
  • 深度学习入门》笔记 - 11

    先要对自变量进行`标准化`,对因变量进行`中心化`。 标准化后所有自变量均值0,方差1。中心化后因变量均值0。 这样做可以让梯步下降法数值更加稳定,更容易找到合适初始值和学习步长。 一个标准化方法就是让数据每一列减去该列均值,然后除以该列样本标准差($sd(x)$): ![image

    作者: 黄生
    197
    2
  • 浅谈深度学习常用术语

    例子中,我们算法对特定图像预测结果为0,而0给定标签,所以数字0就是我们预测或输出。· 目标(target)或标签(label):图像实际标注标签。· 损失值(loss value)或预测误差(prediction error):预测值与实际值之间差距。数值越小,准确率越高。·

    作者: QGS
    22
    0
  • 学习笔记-如何提升深度学习性能?

    以下个人做笔记,来源于DataCastle数据城堡作者DC君竞赛经验。性能提升力度按下方技术方案顺序从上到下依次递减:1. 从数据上提升性能   a. 收集更多数据 b. 产生更多数据 c. 对数据做缩放 d. 对数据做变换 e. 特征选择 f. 重新定义问题2. 从算法上提升性能 

    作者: RabbitCloud
    632
    1
  • 深度学习特征提取

    传统机器学习需要人工提取数据特征,而深度学习通过层次化表示来完成特征提取。层次化表示指用简单表示逐步表达较复杂表示。1. 如何理解简单和复杂表示? 2. 这种所谓层次化表示理论依据是什么?

    作者: RabbitCloud
    1163
    3
  • 深度学习入门》笔记 - 08

    20227/31/1659239540190972017.png) 这个切线斜率看上去不是0.35样子啊,明显要更陡一下。这是因为x轴和y轴比例不一致而导致视觉效果,如果轴比例之后显示这样,这样看上去就对了 ![image.png](https://bbs-img.huaweicloud

    作者: 黄生
    148
    3
  • 深度学习之无监督学习算法

    监督算法之间区别没有规范,严格定义,因为没有客观判断来区分监督者提供特征还是目标。通俗地说,无监督学习指从不需要人为注释样本分布中抽取信息大多数尝试。该术语通常与密度估计相关,学习从分布中采样,学习从分布中去噪,需要数据分布流形,或是将数据中相关样本聚类。 

    作者: 小强鼓掌
    950
    1