检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Mac深度学习环境配置安装组合:Anaconda+PyTorch(GPU版)开源贡献:马曾欧,伦敦大学2.1 安装AnacondaAnaconda 的安装有两种方式,这里仅介绍一种最直观的- macOS graphical install。https://www.anaconda
大多数机器学习算法都有设置超参数,可以用来控制算法行为。超参数的值不是通过学习算法本身学习出来的(尽管我们可以设计一个嵌套的学习过程,一个学习算法为另一个学习算法学出最优超参数)。所示的多项式回归实例中,有一个超参数:多项式的次数,作为容量超参数。控制权重衰减程度的 λ 是另一个
缘的4个标量。· 批(batch):大多数情况下,我们在称为批的输入样本集上训练我们的算法。取决于GPU的内存,批尺寸一般从2~256不等,权重也在每个批次上进行更新,因此算法往往比在单个样例上训练时学习的更快。· 轮数:在整个数据集上运行一遍算法称为一个Epoch。通常要训练(更新权重)几个Epoch。
机器学习可以让我们解决一些人为设计和实现固定程序很难解决的问题。从科学和哲学的角度来看,机器学习受到关注是因为提高我们对机器学习的认识需要提高我们对智能背后原理的理解。如果考虑“任务”比较正式的定义,那么学习的过程并不是任务。在相对正式的 “任务”定义中,学习过程本身并不是任务。
可能具有过高的方差),k-折交叉验证算法可以用于估计学习算法 A 的泛化误差。数据集 D 包含的元素是抽象的样本 z(i) (对于第 i 个样本),在监督学习的情况代表(输入,目标)对 z(i) = (x(i), y(i)) ,或者无监督学习的情况下仅用于输入 z(i) = x(i)。该算法返回
不准确。本文的目标是通过解决梯度收缩问题来提高ENet的预测精度,同时保持其有效的不确定性估计。一个多任务学习(MTL)框架,被称为MT-ENet,被提出来实现这一目标。在MTL中,我们将Lipschitz修正均方误差(MSE)损失函数定义为另一种损失,并将其添加到现有的NLL损
1847)。从 20 世纪 40 年代开始,这些函数近似技术被用于导出诸如感知机的机器学习模型。然而,最早的模型都是基于线性模型。来自包括 Marvin Minsky 的批评指出了线性模型族的几个缺陷,例如它无法学习 XOR 函数,这导致了对整个神经网络方法的抵制。
法抵抗对抗样本。神经网络能够将函数从接近线性转化为局部近似恒定,从而可以灵活地捕获到训练数据中的线性趋势同时学习抵抗局部扰动。对抗样本也提供了一种实现半监督学习的方法。在与数据集中的标签不相关联的点 x 处,模型本身为其分配一些标签 yˆ。模型的标记 yˆ 未必是真正的标签,但如果模型是高品质的,那么
为唯一输出)。与切面距离算法一样,我们根据切向量推导先验,通常从变换(如平移、旋转和缩放图像)的效果获得形式知识。正切传播不仅用于监督学习(Simard et al., 1992),还在强化学习(Thrun, 1995)中有所应用。正切传播与数据集增强密切相关。在这两种情况下,该算法的用户通过指定一组不
x(i) 和 x(j) 有相同的大小。在监督学习中,样本包含一个标签或目标和一组特征。例如,我们希望使用学习算法从照片中识别物体。我们需要明确哪些物体会出现在每张照片中。我们或许会用数字编码表示,如 0 表示人,1 表示车,2 表示猫,等等。通常当工作在包含观测特征的设计矩阵 X 的数据集时,我们也会提供一个标签向量
aggregating)是通过结合几个模型降低泛化误差的技术(Breiman, 1994)。主要想法是分别训练几个不同的模型,然后让所有模型表决测试样例的输出。这是机器学习中常规策略的一个例子,被称为模型平均(model averaging)。采用这种策略的技术被称为集成方法。模型平均(model avera
要重点探讨的深度学习是具有多级表示的表征学习方法。在每一级(从原始数据开始),深度学习通过简单的函数将该级的表示变换为更高级的表示。因此,深度学习模型也可以看作是由许多简单函数复合而成的函数。当这些复合的函数足够多时,深度学习模型就可以表达非常复杂的变换。 深度学习可以逐级表示越
当计算图变得极深时,神经网络优化算法会面临的另外一个难题就是长期依赖问题——由于变深的结构使模型丧失了学习到先前信息的能力,让优化变得极其困难。深层的计算图不仅存在于前馈网络,还存在于之后介绍的循环网络中(在第十章中描述)。因为循环网络要在很长时间序列的各个时刻重复应用相同操作来构建非常深的计算
Ubuntu深度学习环境配置安装组合:Anaconda+PyTorch(CPU版)或PyTorch(GPU版)开源贡献:陈信达,华北电力大学3.1 Anacond安装Anaconda和Python版本是对应的,所以需要选择安装对应Python2.7版本的还是Python3.7版本
因变量的常见数据类型有三种:定量数据、二分类定性数据和多分类定性数据。输出层激活函数的选择主要取决于因变量的数据类型。MNIST数据集是机器学习文献中常用的数据。因变量(0~9)用独热码表示,比如数字8的独热码为(0 0 0 0 0 0 0 0 1 0)数字2的读热码为(0 0 1
模型学得通过鼻检测脸的隐藏单元 hi,那么丢失 hi 对应于擦除图像中有鼻子的信息。模型必须学习另一种 hi,要么是鼻子存在的冗余编码,要么是脸部的另一特征,如嘴。传统的噪声注入技术,在输入端加非结构化的噪声不能够随机地从脸部图像中抹去关于鼻子的信息,除非噪声的幅度大到几乎能抹去
要用于循环神经网络 (Jim et al., 1996; Graves, 2011)。这可以被解释为关于权重的贝叶斯推断的随机实现。贝叶斯学习过程将权重视为不确定的,并且可以通过概率分布表示这种不确定性。向权重添加噪声是反映这种不确定性的一种实用的随机方法。
源自这样一个视角,教员或者老师提供目标 y 给机器学习系统,指导其应该做什么。在无监督学习中,没有教员或者老师,算法必须学会在没有指导的情况下让数据有意义。尽管无监督学习和监督学习并非完全没有交集的正式概念,它们确实有助于粗略分类我们研究机器学习算法时遇到的问题。传统地,人们将回归,分类
1999)。核机器的一个主要缺点是计算决策函数的成本关于训练样本的数目是线性的。因为第 i 个样本贡献 αik(x, x(i)) 到决策函数。支持向量机能够通过学习主要包含零的向量 α,以缓和这个缺点。那么判断新样本的类别仅需要计算非零 αi 对应的训练样本的核函数。这些训练样本被称为支持向量 (support
是未知或不确定的,因此可以表示成随机变量。 在观察到数据前,我们将 θ 的已知知识表示成先验概率分布 (prior probability distribution),p(θ)(有时简单地称为 “先验”)。一般而言,机器学习实践者会选择一个相当宽泛的(即,高熵的)先验分布,反映在观测到任何数据前参数