检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
我们几乎从未知晓真实数据的生成过程,所以我们永远不知道被估计的模型族是否包括生成过程。然而,深度学习算法的大多数应用都是针对这样的情况,其中真实数据的生成过程几乎肯定在模型族之外。深度学习算法通常应用于极为复杂的领域,如图像、音频序列和文本,本质上这些领域的真实生成过程涉及模拟整
R-CNN 的全连接层的相同架构。5.5 深度残差网络He 等人 (2015) 提出的残差网络 (ResNet) 由 152 层组成。ResNet 具有较低的误差,并且容易通过残差学习进行训练。更深层次的 ResNet 可以获得更好的性能。在深度学习领域,人们认为 ResNet 是一个重要的进步。5
传统的机器学习需要人工提取数据特征,而深度学习通过层次化的表示来完成特征的提取。层次化的表示是指用简单的表示逐步表达较复杂的表示。1. 如何理解简单和复杂的表示? 2. 这种所谓层次化的表示的理论依据是什么?
我们看到PCA算法提供了一种压缩数据的方式。我们也可以将PCA视为学习数据表示的无监督学习算法。这种表示基于上述简单表示的两个标准。PCA学习一种比原始输入低维的表示。它也学习了一种元素之间彼此没有线性相关的表示。这是学习表示中元素统计独立标准的第一步。要实现完全独立性,表示学习算法必须也去掉变量间的非线性关系。PCA将输入
当输入向量的每个度量不被保证的时候,分类问题将会变得有挑战性。为了解决分类任务,学习算法只需要定义一个从输入向量映射到输出类别的函数。当一些输入可能丢失时,学习算法必须学习一组函数,而不是单个分类函数。每个函数对应着分类具有不同缺失输入子集的 x。这种情况在医疗诊断中经常出现,因
于其他超参数的取值,并且深度神经网络中超参数的微调代价很大,所以有必要在超参数这个重要领域内做更进一步的研究。在许多领域深度学习都表现出巨大的潜力,但深度学习作为机器学习的一个新领域现在仍处于发展阶段,仍然有很多工作需要开展,很多问题需要解决,尽管深度学习的研究还存在许多问题,但
索了元学习的能力,同时在数据层面研究了异质信息网络的表达能力。在MetaHIN中,作者提出使用多方面的语义上下文来增强每个用户的任务,因此设计了一种新颖的语义增强型任务构建器,用于在元学习场景中捕获异质信息网络中的语义信息。进一步地,我们构建了一个协同适应元学习器。该学习器既具有
线性代数作为数学的一个分支,广泛应用于科学和工程中。然而,因为线性代数是主要面向连续数学,而非离散数学。掌握好线性代数对于理解和从事机器学习算法相关工作是很有必要的,尤其是深度学习算法而言。线性代数提供了被称为矩阵逆(matrix inversion)的强大工具。对于大多数矩阵A,我们都能通过矩阵逆解析地求解式(2
" 深度学习 " 中的 " 深 ",指的是技术上、架构上的性质,也就是堆叠了很多隐藏层。这种 " 深 ",并不是说它对抽象的概念有深刻的理解,但是呢,一旦任务场景改变,就需要重新找数据训练,比如说检测人脸的模型在不相关的应用程序中可能是无用的,比如诈骗检测,目前还是无法像人脑一样
数。这类网络本质上是多个矩阵组合在一起。Saxe et al. (2013) 精确解析了这类网络中完整的学习动态,表明这些模型的学习能够捕捉到许多在训练具有非线性激活函数的深度模型时观察到的定性特征。Dauphin et al. (2014) 通过实验表明,真实的神经网络也存在包
持不变,还必须掌握对特定对象(如移动身体的部分)保持不变的因素。因此根据流形正切分类器提出的算法相当简单:(1)使用自编码器通过无监督学习来学习流形的结构,以及(2)如正切传播(式 (7.67) )一样使用这些切面正则化神经网络分类器。
大多数优化算法的先决条件都是我们知道精确的梯度或是Hessian 矩阵。在实践中,通常这些量会有噪声,甚至是有偏的估计。几乎每一个深度学习算法都需要基于采样的估计,至少使用训练样本的小批量来计算梯度。在其他情况,我们希望最小化的目标函数实际上是难以处理的。当目标函数不可解时,通常
机器学习的主要挑战是我们的算法必须能够在先前未观测的新输入上表现良好,而不只是在训练集上效果好。在先前未观测到的输入上表现良好的能力被称为泛化 (generalization)。通常情况下,当我们训练机器学习模型时,我们可以访问训练集,在训练集上计算一些度量误差,被称为训练误差 (training
当然会由于减小训练误差而得到足够的好处,以抵消其带来的训练误差和测试误差间差距的增加。随着数据集的规模迅速增长,超越了计算能力的增速,机器学习应用每个样本只使用一次的情况变得越来越常见,甚至是不完整地使用训练集。在使用一个非常大的训练集时,过拟合不再是问题,而欠拟合和计算效率变成了主要的顾虑。读者也可以参考
大脑。1956年,FrankRosenblatt发明了最早的神经网络-权重加权感知机Perceptron,它可以通过权值调整输出,模拟人类学习过程。1960年,MinskyandPapert的“Perceptrons”认为此类神经网络有许多限制(如无法解决复杂分类任务和把线性不可
对于如何处理估计不确定性的这个问题,贝叶斯派的答案是积分,这往往会防止过拟合。积分当然是概率法则的应用,使贝叶斯方法容易验证,而频率派机器学习基于相当特别的决定构建了一个估计,将数据集里的所有信息归纳到一个单独的点估计。贝叶斯方法和最大似然方法的第二个最大区别是由贝叶斯先验分布造
(Neal, 1996)比Dropout表现得更好 (Srivastava et al., 2014)。当有其他未分类的数据可用时,无监督特征学习也比Dropout更有优势。
正如我们已经看到的,最近邻预测和决策树都有很多的局限性。尽管如此,在计算资源受限制时,它们都是很有用的学习算法。通过思考复杂算法和 k-最近邻或决策树之间的相似性和差异,我们可以建立对更复杂学习算法的直觉。
当数据的维数很高时,很多机器学习问题变得相当困难。这种现象被称为维数灾难 (curse of dimensionality)。特别值得注意的是,一组变量不同的可能配置数量会随着变量数目的增加而指数级增长。维数灾难发生在计算机科学的许多地方,在机器学习中尤其如此。 由维数灾难带来的一个挑战是统计挑战。如图5
− 1 损失,它能够从训练数据中抽取更多信息。一般的优化和我们用于训练算法的优化有一个重要不同:训练算法通常不会停止在局部极小点。反之,机器学习通常优化代理损失函数,但是在基于提前终止(第 7.8 节)的收敛条件满足时停止。通常,提前终止使用真实潜在损失函数,如验证集上的 0 − 1