检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
有监督机器学习的核心哲学: 使用“数据驱动”方法让计算机可以学习输入/输出之间的正确映射。它需要一系列“标记”记录,其中包含训练集中的输入和期望的输出,以便将输入到输出的映射学习为一种准确的行为表现。 可以用下面这个图来表示: 无监督机器学习的核心哲学: 让计算机学习输入的内部
对于如何处理估计不确定性的这个问题,贝叶斯派的答案是积分,这往往会防止过拟合。积分当然是概率法则的应用,使贝叶斯方法容易验证,而频率派机器学习基于相当特别的决定构建了一个估计,将数据集里的所有信息归纳到一个单独的点估计。贝叶斯方法和最大似然方法的第二个最大区别是由贝叶斯先验分布造
至于大部分软件应用并不需要被设计为考虑这些因素的影响。鉴于很多计算机科学家和软件工程师在一个相对干净和确定的环境中工作,机器学习对于概率论的大量使用不得不令人吃惊。 这是因为机器学习必须始终处理不确定量,有时也可能需要处理随机 (非确定性) 量。不确定性和随机性可能来自多个方面。研究人员至少从
正如我们已经看到的,最近邻预测和决策树都有很多的局限性。尽管如此,在计算资源受限制时,它们都是很有用的学习算法。通过思考复杂算法和 k-最近邻或决策树之间的相似性和差异,我们可以建立对更复杂学习算法的直觉。
当数据的维数很高时,很多机器学习问题变得相当困难。这种现象被称为维数灾难 (curse of dimensionality)。特别值得注意的是,一组变量不同的可能配置数量会随着变量数目的增加而指数级增长。维数灾难发生在计算机科学的许多地方,在机器学习中尤其如此。 由维数灾难带来的一个挑战是统计挑战。如图5
Osendorfer, 2014; Pascanu et al., 2014a)。许多效果差不多的其他正则化策略对模型结构的限制更严格。虽然Dropout在特定模型上每一步的代价是微不足道的,但在一个完整的系统上使用Dropout的代价可能非常显著。因为Dropout是一个正则化技术,它减少了模
1 损失,它能够从训练数据中抽取更多信息。一般的优化和我们用于训练算法的优化有一个重要不同:训练算法通常不会停止在局部极小点。反之,机器学习通常优化代理损失函数,但是在基于提前终止(第 7.8 节)的收敛条件满足时停止。通常,提前终止使用真实潜在损失函数,如验证集上的 0 − 1
大多数优化算法的先决条件都是我们知道精确的梯度或是Hessian 矩阵。在实践中,通常这些量会有噪声,甚至是有偏的估计。几乎每一个深度学习算法都需要基于采样的估计,至少使用训练样本的小批量来计算梯度。在其他情况,我们希望最小化的目标函数实际上是难以处理的。当目标函数不可解时,通常
较大时,Cramér-Rao 下界(Rao, 1945; Cramér, 1946) 表明不存在均方误差低于最大似然学习的一致估计。因为这些原因(一致性和统计效率),最大似然通常是机器学习中的首选估计。当样本数目小到会过拟合时,正则化策略如权重衰减可用于获得训练数据有限时方差较小的最大似然有偏版本。
样做。 在一个不同的研究团队的不断取得的成功中,深度学习模型在2014年NIH发布的Tox21毒性预测挑战中取得了最高的地位。在最近的这些例子中,深度学习模型在预测活性和毒性方面的异常出色的表现来源于独特的特点,区别于传统机器学习算法的深度学习。 对于那些不熟悉机器学习算法复杂
还不清楚。鞍点附近的梯度通常会非常小。另一方面,实验中梯度下降似乎可以在许多情况下逃离鞍点。Goodfellow et al. (2015) 可视化了最新神经网络的几个学习轨迹,给了一个例子。这些可视化显示,在突出的鞍点附近,代价函数都是平坦的,权重都为零。但是他们也展示了梯度下
卷积神经网络由一个或多个卷积层、池化层以及全连接层等组成。与其他深度学习结构相比,卷积神经网络在图像等方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他浅层或深度神经网络,卷积神经网络需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 我们来看一下卷积网络的整体结构什么样子。
GNN能够学习到图数据的结构和特征信息,从而能帮助标注数据较少的下游任务。 论文已经被KDD 2020 收录。文章提出用生成模型来对图分布进行建模,即逐步预测出一个图中一个新节点会有哪些特征、会和图中哪些节点相连。在第一步中,通过已经观测到的边,预测该节点的特征;在第二步中,通
少进行量化。它最初被发明是用来研究在一个含有噪声的信道上用离散的字母表来发送消息,例如通过无线电传输来通信。在这种情况下,信息论告诉我们如何设计最优编码,以及计算从一个特定的概率分布上采样得到、使用多种不同的编码机制的消息的期望长度。在机器学习中,我们也可以把信息论应用在连续型变
另一个提前终止的额外代价是需要保持最佳的参数副本。这种代价一般是可忽略的,因为可以将它储存在较慢较大的存储器上(例如,在 GPU 内存中训练,但将最佳参数存储在主存储器或磁盘驱动器上)。由于最佳参数的写入很少发生而且从不在训练过程中读取,这些偶发的慢写入对总训练时间的影响不大。提
从数学上来看,深度神经网络仅仅是一种函数的表达形式,是复杂的多层复合函数。由于它有大量的可调参数,而且近年来随着大数据、优化算法和并行计算GPU硬件的发展,使得用大规模的神经网络来逼近和拟合大数据成为可能。
没有描述如何控制反向传播的内存消耗。反向传播经常涉及将许多张量加在一起。在朴素方法中,将分别计算这些张量中的每一个,然后在第二步中对所有这些张量求和。朴素方法具有过高的存储瓶颈,可以通过保持一个缓冲器,并且在计算时将每个值加到该缓冲器中来避免该瓶颈。反向传播的现实实现还需要处理各种数据类型,例如
包含数百万个元素。我们可以看到,计算梯度至多需要 O(n2) 的操作,因为在最坏的情况下,前向传播的步骤将在原始图的全部 n 个节点上运行(取决于我们想要计算的值,我们可能不需要执行整个图)。反向传播算法在原始图的每条边添加一个 Jacobian 向量积,可以用计算图是有向无环图,它至多有
一些反向传播的方法采用计算图和一组用于图的输入的数值,然后返回在这些输入值处梯度的一组数值。我们将这种方法称为符号到数值的微分。这种方法用在诸如 Torch (Collobert et al., 2011b) 和 Caffe (Jia, 2013) 之类的库中。另一种方法是采用计算
有时候,在 x 的所有可能值下最大化或最小化一个函数 f(x) 不是我们所希望的。相反,我们可能希望在 x 的某些集合 S 中找 f(x) 的最大值或最小值。这被称为约束优化 (constrained optimization)。在约束优化术语中,集合 S 内的点 x