已找到以下 10000 条记录
  • Ubuntu深度学习环境配置

    Ubuntu深度学习环境配置安装组合:Anaconda+PyTorch(CPU版)或PyTorch(GPU版)开源贡献:陈信达,华北电力大学3.1 Anacond安装Anaconda和Python版本是对应的,所以需要选择安装对应Python2.7版本的还是Python3.7版本

    作者: @Wu
    665
    0
  • 深度学习之模型平均

    aggregating)是通过结合几个模型降低泛化误差的技术(Breiman, 1994)。主要想法是分别训练几个不同的模型,然后让所有模型表决测试样例的输出。这是机器学习中常规策略的一个例子,被称为模型平均(model averaging)。采用这种策略的技术被称为集成方法。模型平均(model avera

    作者: 小强鼓掌
    735
    2
  • 深度学习之长期依赖

    当计算图变得极深时,神经网络优化算法会面临的另外一个难题就是长期依赖问题——由于变深的结构使模型丧失了学习到先前信息的能力,让优化变得极其困难。深层的计算图不仅存在于前馈网络,还存在于之后介绍的循环网络中(在第十章中描述)。因为循环网络要在很长时间序列的各个时刻重复应用相同操作来

    作者: 小强鼓掌
    317
    2
  • 深度学习入门》笔记 - 10

    59535760107353372.png) 好了我们上面说的是最简单的情况,因为为了学习,是一个权重或叫参数w,一个自变量x,并且只有一个观测点(x,y)。 在实际情况中,一般就不仅仅是学习的那么简单的情况。 数据会包含多个自变量,多个权重,很多个观测点。 用 $L(w)=L(w_1

    作者: 黄生
    237
    1
  • 深度学习之机器学习的算法效果

            当我们使用机器学习算法时,我们不会提前固定参数,然后从数据集中采样。我们会在训练集上采样,然后挑选参数去降低训练集误差,然后再在测试集上采样。在这个过程中,测试误差期望会大于或等于训练误差期望。以下是决定机器学习算法效果是否好的因素:        1. 降低训练误差 

    作者: 小强鼓掌
    726
    3
  • 深度学习入门》笔记 - 20

    因变量的常见数据类型有三种:定量数据、二分类定性数据和多分类定性数据。输出层激活函数的选择主要取决于因变量的数据类型。MNIST数据集是机器学习文献中常用的数据。因变量(0~9)用独热码表示,比如数字8的独热码为(0 0 0 0 0 0 0 0 1 0)数字2的读热码为(0 0 1

    作者: 黄生
    25
    1
  • 深度学习中的Attention机制

    ntion机制:通过保留LSTM编码器对输入序列的中间输出结果,然后训练一个模型对这些输入进行选择性的学习并且在模型输出时将输出序列与之进行关联,即输出序列中的每一项的生成概率取决于在输入序列中选择的项。Attention机制广泛应用于序列预测任务上,包括文本翻译、语音识别等。

    作者: 玉箫然
    1036
    0
  • 深度学习之隐藏单元

    一种形式,而不是对输入原始值的破坏。例如,如果模型学得通过鼻检测脸的隐藏单元 hi,那么丢失 hi 对应于擦除图像中有鼻子的信息。模型必须学习另一种 hi,要么是鼻子存在的冗余编码,要么是脸部的另一特征,如嘴。传统的噪声注入技术,在输入端加非结构化的噪声不能够随机地从脸部图像中抹

    作者: 小强鼓掌
    833
    5
  • 深度学习之模板匹配

    1999)。核机器的一个主要缺点是计算决策函数的成本关于训练样本的数目是线性的。因为第 i 个样本贡献 αik(x, x(i)) 到决策函数。支持向量机能够通过学习主要包含零的向量 α,以缓和这个缺点。那么判断新样本的类别仅需要计算非零 αi 对应的训练样本的核函数。这些训练样本被称为支持向量 (support

    作者: 小强鼓掌
    464
    1
  • 深度学习之对抗样本

    回归,由于它们被限制为线性而无法抵抗对抗样本。神经网络能够将函数从接近线性转化为局部近似恒定,从而可以灵活地捕获到训练数据中的线性趋势同时学习抵抗局部扰动。

    作者: 小强鼓掌
    631
    3
  • 深度学习之Dropout启发

    Bagging。然而,这种参数共享策略不一定要基于包括和排除。原则上,任何一种随机的修改都是可接受的。在实践中,我们必须选择让神经网络能够学习对抗的修改类型。在理想情况下,我们也应该使用可以快速近似推断的模型族。我们可以认为由向量 µ 参数化的任何形式的修改,是对 µ 所有可能的值训练

    作者: 小强鼓掌
    548
    1
  • 学习笔记-如何提升深度学习性能?

    特征选择 f. 重新定义问题2. 从算法上提升性能   a. 算法的筛选 b. 从文献中学习 c. 重采样的方法3. 从算法调优上提升性能   a. 模型可诊断性 b. 权重的初始化 c. 学习率 d. 激活函数 e. 网络结构 f. batch和epoch g. 正则项 h. 优化目标

    作者: RabbitCloud
    633
    1
  • 深度学习之模板匹配

    1999)。核机器的一个主要缺点是计算决策函数的成本关于训练样本的数目是线性的。因为第 i 个样本贡献 αik(x, x(i)) 到决策函数。支持向量机能够通过学习主要包含零的向量 α,以缓和这个缺点。那么判断新样本的类别仅需要计算非零 αi 对应的训练样本的核函数。这些训练样本被称为支持向量 (support

    作者: 小强鼓掌
    550
    1
  • 深度学习入门》笔记 - 11

    化`。 标准化后所有自变量的均值是0,方差是1。中心化后因变量的均值是0。 这样做可以让梯步下降法的数值更加稳定,更容易找到合适的初始值和学习步长。 一个标准化的方法就是让数据的每一列减去该列的均值,然后除以该列的样本标准差($sd(x)$): ![image.png](https://bbs-img

    作者: 黄生
    217
    2
  • 深度学习之前馈网络的历史

    网络。前馈网络中基于梯度的学习自 2012年以来一直被视为一种强大的技术,并应用于许多其他机器学习任务,而不是被视为必须由其他技术支持的不可靠技术。在 2006 年,业内使用无监督学习来支持监督学习,现在更讽刺的是,更常见的是使用监督学习来支持无监督学习

    作者: 小强鼓掌
    533
    1
  • 深度学习入门》笔记 - 08

    208189864369.png) 这个算法就是梯度下降法,在更新w的过程中,加入了一个系数$\alpha$,他是一个比较小的正数,叫做`学习步长`,这样可以让w更新的速度变慢一些,使得w更容易收敛。

    作者: 黄生
    148
    3
  • 深度学习笔记之信息论

    特定的概率分布上采样得到、使用多种不同的编码机制的消息的期望长度。在机器学习中,我们也可以把信息论应用在连续型变量上,而信息论中一些消息长度的解释不怎么使用。信息论是电子工程和计算机科学的许多领域的基础。在本书中,我们主要使用信息论的一些关键思想来描述概率分布或者量化概率分布之间的相似性。 

    作者: 小强鼓掌
    1044
    4
  • 适合新手的深度学习综述(5)--深度神经网络

    R-CNN 的全连接层的相同架构。5.5 深度残差网络He 等人 (2015) 提出的残差网络 (ResNet) 由 152 层组成。ResNet 具有较低的误差,并且容易通过残差学习进行训练。更深层次的 ResNet 可以获得更好的性能。在深度学习领域,人们认为 ResNet 是一个重要的进步。5

    作者: @Wu
    179
    1
  • 深度学习之快速 Dropout

    使用Dropout训练时的随机性不是这个方法成功的必要条件。它仅仅是近似所有子模型总和的一个方法。Wang and Manning (2013) 导出了近似这种边缘分布的解析解。他们的近似被称为快速 Dropout(fast dropout),减小梯度计算中的随机性而获得更快的收

    作者: 小强鼓掌
    1199
    4
  • 深度学习之灾难遗忘

    每个 maxout 单元现在由 k 个权重向量来参数化,而不仅仅是一个,所以 maxout单元通常比整流线性单元需要更多的正则化。如果训练集很大并且每个单元的块数保持很低的话,它们可以在没有正则化的情况下工作得不错 (Cai et al., 2013)。maxout 单元还有一些

    作者: 小强鼓掌
    418
    0
提示

您即将访问非华为云网站,请注意账号财产安全