检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
线性代数作为数学的一个分支,广泛应用于科学和工程中。然而,因为线性代数是主要面向连续数学,而非离散数学。掌握好线性代数对于理解和从事机器学习算法相关工作是很有必要的,尤其是深度学习算法而言。线性代数提供了被称为矩阵逆(matrix inversion)的强大工具。对于大多数矩阵A,我们都能通过矩阵逆解析地求解式(2
张量的常用操作在机器学习和深度学习中,我们往往将待处理的数据规范化为特定维度的张量。列如,在不进行批处理时,彩**像可以看成一个三维张量——图像的三个颜色通道(红,绿,蓝),图像的高和图像的宽,视频可以看成一个四维张量——视频的时间帧方向,每一帧图像的颜色通道,高和宽,三维场景可
" 深度学习 " 中的 " 深 ",指的是技术上、架构上的性质,也就是堆叠了很多隐藏层。这种 " 深 ",并不是说它对抽象的概念有深刻的理解,但是呢,一旦任务场景改变,就需要重新找数据训练,比如说检测人脸的模型在不相关的应用程序中可能是无用的,比如诈骗检测,目前还是无法像人脑一样
1.1.2 传统机器学习与深度学习的对比传统机器学习与深度学习在理论与应用上都存在差异,下面将分别从数据依赖、硬件支持、特征工程、问题解决方案、执行时间以及可解释性这六个方面对传统机器学习与深度学习的差别进行比较。数据依赖:深度学习和传统机器学习最重要的区别是前者的性能随着数据量
署模型。 2、深度学习计算服务平台实施交付结合智算服务器、存储、网络等硬件环境,设计深度学习计算服务平台部署架构,并根据用户要求完成深度学习平台软件的调试、安装和部署,保证软件功能长期稳定运行,包括设备安装、环境配置、网络配置、安装部署、功能测试等。 3、深度学习计算服务平台运行
索了元学习的能力,同时在数据层面研究了异质信息网络的表达能力。在MetaHIN中,作者提出使用多方面的语义上下文来增强每个用户的任务,因此设计了一种新颖的语义增强型任务构建器,用于在元学习场景中捕获异质信息网络中的语义信息。进一步地,我们构建了一个协同适应元学习器。该学习器既具有
数。这类网络本质上是多个矩阵组合在一起。Saxe et al. (2013) 精确解析了这类网络中完整的学习动态,表明这些模型的学习能够捕捉到许多在训练具有非线性激活函数的深度模型时观察到的定性特征。Dauphin et al. (2014) 通过实验表明,真实的神经网络也存在包
机器学习的主要挑战是我们的算法必须能够在先前未观测的新输入上表现良好,而不只是在训练集上效果好。在先前未观测到的输入上表现良好的能力被称为泛化 (generalization)。通常情况下,当我们训练机器学习模型时,我们可以访问训练集,在训练集上计算一些度量误差,被称为训练误差 (training
池化是一个几乎所有做深度学习的人都了解的一个技术,大家对池化如何进行前向传播也都了解,池化的作用也了解一二。然而,池化如何回传梯度呢,池化回传梯度的原则是什么呢,最大池化与平均池化的区别是什么呢,什么时候选择最大池化、什么时候选择平均池化呢。主要用的池化操作有平均池化、最大池化、
持不变,还必须掌握对特定对象(如移动身体的部分)保持不变的因素。因此根据流形正切分类器提出的算法相当简单:(1)使用自编码器通过无监督学习来学习流形的结构,以及(2)如正切传播(式 (7.67) )一样使用这些切面正则化神经网络分类器。
大多数优化算法的先决条件都是我们知道精确的梯度或是Hessian 矩阵。在实践中,通常这些量会有噪声,甚至是有偏的估计。几乎每一个深度学习算法都需要基于采样的估计,至少使用训练样本的小批量来计算梯度。在其他情况,我们希望最小化的目标函数实际上是难以处理的。当目标函数不可解时,通常
因为这个求和包含多达指数级的项,除非该模型的结构允许某种形式的简化,否则是不可能计算的。目前为止,无法得知深度神经网络是否允许某种可行的简化。相反,我们可以通过采样近似推断,即平均许多掩码的输出。即使是 10 − 20 个掩码就足以获得不错的表现。然而,一个更好的方法能不错地近似
正如我们已经看到的,最近邻预测和决策树都有很多的局限性。尽管如此,在计算资源受限制时,它们都是很有用的学习算法。通过思考复杂算法和 k-最近邻或决策树之间的相似性和差异,我们可以建立对更复杂学习算法的直觉。
当数据的维数很高时,很多机器学习问题变得相当困难。这种现象被称为维数灾难 (curse of dimensionality)。特别值得注意的是,一组变量不同的可能配置数量会随着变量数目的增加而指数级增长。维数灾难发生在计算机科学的许多地方,在机器学习中尤其如此。 由维数灾难带来的一个挑战是统计挑战。如图5
较大时,Cramér-Rao 下界(Rao, 1945; Cramér, 1946) 表明不存在均方误差低于最大似然学习的一致估计。因为这些原因(一致性和统计效率),最大似然通常是机器学习中的首选估计。当样本数目小到会过拟合时,正则化策略如权重衰减可用于获得训练数据有限时方差较小的最大似然有偏版本。
当然会由于减小训练误差而得到足够的好处,以抵消其带来的训练误差和测试误差间差距的增加。随着数据集的规模迅速增长,超越了计算能力的增速,机器学习应用每个样本只使用一次的情况变得越来越常见,甚至是不完整地使用训练集。在使用一个非常大的训练集时,过拟合不再是问题,而欠拟合和计算效率变成了主要的顾虑。读者也可以参考
大脑。1956年,FrankRosenblatt发明了最早的神经网络-权重加权感知机Perceptron,它可以通过权值调整输出,模拟人类学习过程。1960年,MinskyandPapert的“Perceptrons”认为此类神经网络有许多限制(如无法解决复杂分类任务和把线性不可
对于如何处理估计不确定性的这个问题,贝叶斯派的答案是积分,这往往会防止过拟合。积分当然是概率法则的应用,使贝叶斯方法容易验证,而频率派机器学习基于相当特别的决定构建了一个估计,将数据集里的所有信息归纳到一个单独的点估计。贝叶斯方法和最大似然方法的第二个最大区别是由贝叶斯先验分布造
(Neal, 1996)比Dropout表现得更好 (Srivastava et al., 2014)。当有其他未分类的数据可用时,无监督特征学习也比Dropout更有优势。
非常小。另一方面,实验中梯度下降似乎可以在许多情况下逃离鞍点。Goodfellow et al. (2015) 可视化了最新神经网络的几个学习轨迹,给了一个例子。这些可视化显示,在突出的鞍点附近,代价函数都是平坦的,权重都为零。但是他们也展示了梯度下降轨迹能够迅速逸出该区间。Goodfellow