内容选择
全部
内容选择
内容分类
  • 学堂
  • 博客
  • 论坛
  • 开发服务
  • 开发工具
  • 直播
  • 视频
  • 用户
时间
  • 一周
  • 一个月
  • 三个月
  • 深度学习之超参数

    超参数值不是通过学习算法本身学习出来(尽管我们可以设计一个嵌套学习过程,一个学习算法为另一个学习算法学出最优超参数)。所示多项式回归实例中,有一个超参数:多项式次数,作为容量超参数。控制权重衰减程度 λ 是另一个超参数。有时一个情景被设为学习算法不用学习超参数,是

    作者: 小强鼓掌
    941
    2
  • 深度学习GoogLeNet结构

    作者: 我的老天鹅
    426
    7
  • 深度学习之计算图

    为了更精确地描述反向传播算法,使用更精确计算图(computational graph)语言是很有帮助。将计算形式化为图形方法有很多。这里,我们使用图中每一个节点来表示一个变量。变量可以是标量、向量、矩阵、张量、或者甚至是另一类型变量。为了形式化我们图形,我们还需引入操作(ope

    作者: 小强鼓掌
    950
    3
  • 深度学习之设计矩阵

    个植物萼片长度,Xi,2 表示第 i 个植物萼片宽度,等等。我们在本书中描述大部分学习算法都是讲述它们是如何运行在设计矩阵数据集上。当然,将一个数据集表示成设计矩阵,必须是可以将每一个样本表示成向量,并且这些向量大小相同。这一点并非永远可能。例如,你有不同宽度和高度照片

    作者: 小强鼓掌
    1663
    1
  • 深度学习入门》笔记 - 02

    83526687508822.png) 矩阵基本运算就是加减乘除。加减法如果这两个矩阵维度是一样,就非常好理解。矩阵也可以和行向量进行加减,要求行向量列数和矩阵列数是一样。 矩阵乘法,如果两个矩阵维度一样,也非常好理解,这种叫做`逐点相乘`(element-wise

    作者: 黄生
    54
    0
  • 深度学习——常用评价指标

    曲线下面的面积,通常来说一个越好分类器,AP值越高。  mAP是多个类别AP平均值。这个mean意思是对每个类AP再求平均,得到就是mAP值,mAP大小一定在[0,1]区间,越大越好。该指标是目标检测算法中最重要一个。  在正样本非常少情况下,PR表现效果会更好。  5、

    作者: QGS
    784
    3
  • 深度学习之正切传播

    1992)训练带有额外惩罚神经网络分类器,使神经网络每个输出 f(x) 对已知变化因素是局部不变。这些变化因素对应于沿着相同样本聚集流形移动。这里实现局部不变性方法是要求 ∇xf(x) 与已知流形切向 v(i) 正交,这个正则化项当然可以通过适当超参数缩放,并且对于大多数神经网络,我们需要对许多输出求和

    作者: 小强鼓掌
    345
    1
  • 深度学习入门》笔记 - 09

    因变量:0.8 权重:0.2 预测值:0.1 差值:0.245 梯度:-0.35 ``` 可以看到预测值和真实值差值在变小(0.32 > 0.245),也就是在向着不断收敛方向。

    作者: 黄生
    427
    3
  • 深度学习之任务T

    程序很难解决问题。从科学和哲学角度来看,机器学习受到关注是因为提高我们对机器学习认识需要提高我们对智能背后原理理解。如果考虑“任务”比较正式定义,那么学习过程并不是任务。在相对正式 “任务”定义中,学习过程本身并不是任务。学习是我们所谓获取完成任务能力。例如,我

    作者: 小强鼓掌
    823
    3
  • 浅谈深度学习常用术语

    例子中,我们算法对特定图像预测结果为0,而0是给定标签,所以数字0就是我们预测或输出。· 目标(target)或标签(label):图像实际标注标签。· 损失值(loss value)或预测误差(prediction error):预测值与实际值之间差距。数值越小,准确率越高。·

    作者: QGS
    22
    0
  • 深度学习训练过程

    区别最大部分,可以看作是特征学习过程。具体,先用无标定数据训练第一层,训练时先学习第一层参数,这层可以看作是得到一个使得输出和输入差别最小三层神经网络隐层,由于模型容量限制以及稀疏性约束,使得得到模型能够学习到数据本身结构,从而得到比输入更具有表示能力特征;在学

    作者: QGS
    539
    1
  • 深度学习笔记》笔记(一)

    model)计算执行方向如下。感觉和线性回归很像呀。 但据说感知机模型不能用于线性回归问题,因为它只关注分类问题,而线性回归问题涉及到回归问题?对于线性不可分情况,在感知机基础上一般有两个解决方向。 线性不可分是指一组线性数据点,这些数据点上无法划分一条直线来分开类别内所有数据

    作者: 黄生
    42
    4
  • 深度学习中Attention机制

    Attention,即Attention输出向量分布是一种one-hot独热分布或是soft软分布,直接影响上下文信息选择。加入Attention原因:1、当输入序列非常长时,模型难以学到合理向量表示2、序列输入时,随着序列不断增长,原始根据时间步方式表现越来越差,由于原始时间步模型设计结构有缺

    作者: 玉箫然
    1035
    0
  • 深度学习之历史小计

    前馈网络可以被视为一种高效非线性函数近似器,它以使用梯度下降来最小化函数近似误差为基础。从这个角度来看,现代前馈网络是一般函数近似任务几个世纪进步结晶。处于反向传播算法底层链式法则是 17 世纪发明 (Leibniz, 1676; L’Hôpital, 1696)。微积

    作者: 小强鼓掌
    414
    0
  • 深度学习之隐藏单元

    hi,要么是鼻子存在冗余编码,要么是脸部另一特征,如嘴。传统噪声注入技术,在输入端加非结构化噪声不能够随机地从脸部图像中抹去关于鼻子信息,除非噪声幅度大到几乎能抹去图像中所有的信息。破坏提取特征而不是原始值,让破坏过程充分利用该模型迄今获得关于输入分布所有知识。

    作者: 小强鼓掌
    833
    5
  • 深度学习之模板匹配

    1999)。核机器一个主要缺点是计算决策函数成本关于训练样本数目是线性。因为第 i 个样本贡献 αik(x, x(i)) 到决策函数。支持向量机能够通过学习主要包含零向量 α,以缓和这个缺点。那么判断新样本类别仅需要计算非零 αi 对应训练样本核函数。这些训练样本被称为支持向量

    作者: 小强鼓掌
    464
    1
  • 深度学习之快速 Dropout

    使用Dropout训练时随机性不是这个方法成功必要条件。它仅仅是近似所有子模型总和一个方法。Wang and Manning (2013) 导出了近似这种边缘分布解析解。他们近似被称为快速 Dropout(fast dropout),减小梯度计算中随机性而获得更快收敛速度。这种

    作者: 小强鼓掌
    1197
    4
  • 深度学习之灾难遗忘

    maxout单元通常比整流线性单元需要更多正则化。如果训练集很大并且每个单元块数保持很低的话,它们可以在没有正则化情况下工作得不错 (Cai et al., 2013)。maxout 单元还有一些其他优点。在某些情况下,要求更少参数可以获得一些统计和计算上优点。具体来说,如果由 n 个不同线性过滤器

    作者: 小强鼓掌
    418
    0
  • 深度学习之贝叶斯统计

    在有限区间中均匀分布。许多先验偏好于“更简单” 解决方法(如小幅度系数,或是接近常数函数)。        贝叶斯估计通常使用情况下,先验开始是相对均匀分布或高熵高斯分布,观测数据通常会使后验熵下降,并集中在参数几个可能性很高值。

    作者: 小强鼓掌
    619
    1
  • 深度学习之长期依赖

    当计算图变得极深时,神经网络优化算法会面临另外一个难题就是长期依赖问题——由于变深结构使模型丧失了学习到先前信息能力,让优化变得极其困难。深层计算图不仅存在于前馈网络,还存在于之后介绍循环网络中(在第十章中描述)。因为循环网络要在很长时间序列各个时刻重复应用相同操作来构建非常深计算图,并且模型

    作者: 小强鼓掌
    317
    2