内容选择
全部
内容选择
内容分类
  • 学堂
  • 博客
  • 论坛
  • 开发服务
  • 开发工具
  • 直播
  • 视频
  • 用户
时间
  • 一周
  • 一个月
  • 三个月
  • 深度学习之正切传播

    为唯一输出)。与切面距离算法一样,我们根据切向量推导先验,通常从变换(如平移、旋转和缩放图像)的效果获得形式知识。正切传播不仅用于监督学习(Simard et al., 1992),还在强化学习(Thrun, 1995)中有所应用。正切传播与数据集增强密切相关。在这两种情况下,该算法的用户通过指定一组不

    作者: 小强鼓掌
    664
    1
  • 深度学习之Dropout启发

    Bagging。然而,这种参数共享策略不一定要基于包括和排除。原则上,任何一种随机的修改都是可接受的。在实践中,我们必须选择让神经网络能够学习对抗的修改类型。在理想情况下,我们也应该使用可以快速近似推断的模型族。我们可以认为由向量 µ 参数化的任何形式的修改,是对 µ 所有可能的值训练

    作者: 小强鼓掌
    831
    3
  • 深度学习之模型平均

    aggregating)是通过结合几个模型降低泛化误差的技术(Breiman, 1994)。主要想法是分别训练几个不同的模型,然后让所有模型表决测试样例的输出。这是机器学习中常规策略的一个例子,被称为模型平均(model averaging)。采用这种策略的技术被称为集成方法。模型平均(model avera

    作者: 小强鼓掌
    735
    2
  • 深度学习之长期依赖

    当计算图变得极深时,神经网络优化算法会面临的另外一个难题就是长期依赖问题——由于变深的结构使模型丧失了学习到先前信息的能力,让优化变得极其困难。深层的计算图不仅存在于前馈网络,还存在于之后介绍的循环网络中(在第十章中描述)。因为循环网络要在很长时间序列的各个时刻重复应用相同操作来

    作者: 小强鼓掌
    317
    2
  • 深度学习之提前终止

    循环次数内没有进一步改善时,算法就会终止。此过程在算法中有更正式的说明。这种策略被称为提前终止(early stopping)。这可能是深度学习中最常用的正则化形式。它的流行主要是因为有效性和简单性。

    作者: 小强鼓掌
    325
    0
  • 深度学习入门》笔记 - 16

    层,这种关系无法表达。同时可以通过增加隐藏层的数量和每个隐藏层的节点数,来处理更加复杂的问题。拥有多个隐藏层的神经网络就可以实现深度学习。而数量越多,就需要更多的技巧来训练并发挥这些隐藏层的作用。

    作者: 黄生
    37
    4
  • 深度学习入门》笔记 - 20

    因变量的常见数据类型有三种:定量数据、二分类定性数据和多分类定性数据。输出层激活函数的选择主要取决于因变量的数据类型。MNIST数据集是机器学习文献中常用的数据。因变量(0~9)用独热码表示,比如数字8的独热码为(0 0 0 0 0 0 0 0 1 0)数字2的读热码为(0 0 1

    作者: 黄生
    25
    1
  • 深度学习之权重比例

    权重比例推断规则在其他设定下也是精确的,包括条件正态输出的回归网络以及那些隐藏层不包含非线性的深度网络。然而,权重比例推断规则对具有非线性的深度模型仅仅是一个近似。虽然这个近似尚未有理论上的分析,但在实践中往往效果很好。Goodfellow et al. (2013b) 实验发现

    作者: 小强鼓掌
    953
    2
  • 深度学习之隐藏单元

    一种形式,而不是对输入原始值的破坏。例如,如果模型学得通过鼻检测脸的隐藏单元 hi,那么丢失 hi 对应于擦除图像中有鼻子的信息。模型必须学习另一种 hi,要么是鼻子存在的冗余编码,要么是脸部的另一特征,如嘴。传统的噪声注入技术,在输入端加非结构化的噪声不能够随机地从脸部图像中抹

    作者: 小强鼓掌
    833
    5
  • 深度学习之噪声鲁棒性

    要用于循环神经网络 (Jim et al., 1996; Graves, 2011)。这可以被解释为关于权重的贝叶斯推断的随机实现。贝叶斯学习过程将权重视为不确定的,并且可以通过概率分布表示这种不确定性。向权重添加噪声是反映这种不确定性的一种实用的随机方法。

    作者: 小强鼓掌
    638
    1
  • 深度学习入门》笔记 - 18

    网络的目的是建立输入层与输出层之间的关系,进而利用建立的关系得到预测值。通过增加隐藏层,神经网络可以找到输入层与输出层之间较复杂的关系。深度学习是拥有多个隐藏层的神经网络,在神经网络中,我们通过正向传播算法得到预测值,并通过反向传播算法得到参数梯度,然后利用梯度下降法更新参数,使

    作者: 黄生
    23
    1
  • 深度学习模型轻量化

    硬件层加速。这个维度主要在AI硬件芯片层,目前有GPU、FPGA、ASIC等多种方案,各种TPU、NPU就是ASIC这种方案,通过专门为深度学习进行芯片定制,大大加速模型运行速度。

    作者: 可爱又积极
    1259
    4
  • 深度学习入门》笔记 - 13

    52137365917.png) $f(x)=\frac{1}{1+e^{-x}}$函数在统计学文献中称为`logistic函数`,在机器学习文献中称为`sigmoid函数`。 ```python a=np.linspace(-10,10,100) plt.plot(a,1/(1+np

    作者: 黄生
    48
    1
  • 深度学习会逐步取代传统的机器学习吗?

    近几年媒体的大肆针对深度学习的宣传及报道,而深度学习是被证明为最先进的性能最好的技术之一,那它会不会逐步取代传统的机器学习了?

    作者: 建赟
    1454
    6
  • 浅谈深度学习常用术语

    深度学习常用术语· 样本(sample)或输入(input)或数据点(data point):训练集中特定的实例。我们在上一章中看到的图像分类问题,每个图像都可以被称为样本、输入或数据点。· 预测(prediction)或输出(output):由算法生成的值称为输出。例如,在先前

    作者: QGS
    22
    0
  • 深度学习之模板匹配

    1999)。核机器的一个主要缺点是计算决策函数的成本关于训练样本的数目是线性的。因为第 i 个样本贡献 αik(x, x(i)) 到决策函数。支持向量机能够通过学习主要包含零的向量 α,以缓和这个缺点。那么判断新样本的类别仅需要计算非零 αi 对应的训练样本的核函数。这些训练样本被称为支持向量 (support

    作者: 小强鼓掌
    464
    1
  • 深度学习之任务 T

            机器学习可以让我们解决一些人为设计和实现固定程序很难解决的问题。从科学和哲学的角度来看,机器学习受到关注是因为提高我们对机器学习的认识需要提高我们对智能背后原理的理解。       如果考虑 “任务”比较正式的定义,那么学习的过程并不是任务。       在相对正式的

    作者: 小强鼓掌
    727
    2
  • 深度学习之贝叶斯统计

    的已知知识表示成先验概率分布 (prior probability distribution),p(θ)(有时简单地称为 “先验”)。一般而言,机器学习实践者会选择一个相当宽泛的(即,高熵的)先验分布,反映在观测到任何数据前参数 θ 的高度不确定性。例如,我们可能会假设先验 θ 在有限区间中均匀分布。许多先验偏好于“更简单”

    作者: 小强鼓掌
    619
    1
  • 深度学习之对抗样本

    回归,由于它们被限制为线性而无法抵抗对抗样本。神经网络能够将函数从接近线性转化为局部近似恒定,从而可以灵活地捕获到训练数据中的线性趋势同时学习抵抗局部扰动。

    作者: 小强鼓掌
    631
    3
  • 深度学习学习和纯优化有什么不同

    时所预测的输出,pˆdata 是经验分布。监督学习中,y 是目标输出。在本章中,我们会介绍不带正则化的监督学习,L的变量是 f(x; θ) 和 y。不难将这种监督学习扩展成其他形式,如包括 θ 或者 x 作为参数,或是去掉参数 y,以发展不同形式的正则化或是无监督学习

    作者: 小强鼓掌
    346
    1