检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
通过定义一族不同的概率分布,我们可以将线性回归扩展到分类情况中。如果我们有两个类,类 0 和类 1,那么我们只需要指定这两类之一的概率。类 1 的概率决定了类 0 的概率,因为这两个值加起来必须等于 1。 我们用于线性回归的实数正态分布是用均值参数化
为了更精确地描述反向传播算法,使用更精确的计算图(computational graph)语言是很有帮助的。将计算形式化为图形的方法有很多。这里,我们使用图中的每一个节点来表示一个变量。变量可以是标量、向量、矩阵、张量、或者甚至是另一类型的变量。为了形式化我们的图形,我们还需引入
负样本; (3)每次选取一个不同的threshold,我们就可以得到一组FPR和TPR,即ROC曲线上的一点。 当我们将threshold设置为1和0时,分别可以得到ROC曲线上的(0,0)和(1,1)两个点。将这些(FPR,TPR)对连接起来,就得到了ROC曲线。当th
一个样本表示成向量,并且这些向量的大小相同。这一点并非永远可能。例如,你有不同宽度和高度的照片的集合,那么不同的照片将会包含不同数量的像素。因此不是所有的照片都可以表示成相同长度的向量。第9.7节和第十章将会介绍如何处理这类异质问题的不同类型。在上述的这类情况下,我们不会将数据集表示成
机器学习可以让我们解决一些人为设计和实现固定程序很难解决的问题。从科学和哲学的角度来看,机器学习受到关注是因为提高我们对机器学习的认识需要提高我们对智能背后原理的理解。如果考虑“任务”比较正式的定义,那么学习的过程并不是任务。在相对正式的 “任务”定义中,学习过程本身并不是任务。
络,我们需要对许多输出求和 (此处为描述简单,f(x) 为唯一输出)。与切面距离算法一样,我们根据切向量推导先验,通常从变换(如平移、旋转和缩放图像)的效果获得形式知识。正切传播不仅用于监督学习(Simard et al., 1992),还在强化学习(Thrun, 1995)中有
ndigits=3))) 自变量:0.5 因变量:0.8 权重:0.2 预测值:0.1 差值:0.245 梯度:-0.35 ``` 可以看到预测值和真实值的差值在变小(0.32 > 0.245),也就是在向着不断的收敛的方向。
的参数:多任务学习在深度学习框架中可以以多种方式进行,该图说明了任务共享相同输入但涉及不同目标随机变量的常见情况。深度网络的较低层(无论是监督前馈的,还是包括向下箭头的生成组件)可以跨这样的任务共享,而任务特定的参数(分别与从 h(1) 和 h(2) 进入和发出的权重)可以在共享表示
有监督学习、无监督学习和半监督学习及强化学习。图像、文本等深度学习的应用都属于有监督学习范畴。自编码器和生成式对抗网络可以算在无监督深度学习范畴内。最后就剩下强化学习了。强化学习发展到现在,早已结合了神经网络迸发出新的活力,强化学习结合深度学习已经形成了深度强化学习(Deep Reinforcement
纪进步的结晶。处于反向传播算法底层的链式法则是 17 世纪发明的 (Leibniz, 1676; L’Hôpital, 1696)。微积分和代数长期以来被用于求解优化问题的封闭形式,但梯度下降直到 19世纪才作为优化问题的一种迭代近似的求解方法被引入 (Cauchy, 1847)。从
Dropout强大的大部分原因来自施加到隐藏单元的掩码噪声,了解这要的。这可以看作是对输入内容的信息高度智能化、自适应破坏的一种形式,而不是对输入原始值的破坏。例如,如果模型学得通过鼻检测脸的隐藏单元 hi,那么丢失 hi 对应于擦除图像中有鼻子的信息。模型必须学习另一种 hi,
训练标签 y 相关的训练样本 x 变成了类别 y 的模版。当测试点 x′ 到 x 的欧几里得距离很小时,对应的高斯核很大,表明 x′ 和模版 x 非常相似。该模型进而会赋予相对应的训练标签 y 较大的权重。总的来说,预测将会组合很多这种通过训练样本相似性加权的训练标签。支持向量机
情况下工作得不错 (Cai et al., 2013)。maxout 单元还有一些其他的优点。在某些情况下,要求更少的参数可以获得一些统计和计算上的优点。具体来说,如果由 n 个不同的线性过滤器描述的特征可以在不损失信息的情况下,用每一组 k 个特征的最大值来概括的话,那么下一层可以获得
当计算图变得极深时,神经网络优化算法会面临的另外一个难题就是长期依赖问题——由于变深的结构使模型丧失了学习到先前信息的能力,让优化变得极其困难。深层的计算图不仅存在于前馈网络,还存在于之后介绍的循环网络中(在第十章中描述)。因为循环网络要在很长时间序列的各个时刻重复应用相同操作来
频率派的视角是真实参数 θ 是未知的定值,而点估计θˆ 是考虑数据集上函数(可以看作是随机的)的随机变量。 贝叶斯统计的视角完全不同。贝叶斯用概率反映知识状态的确定性程度。数据集能够直接观测到,因此不是随机的。另一方面,真实参数 θ 是未知或不确定的,因此可以表示成随机变量。
Goodfellow et al. (2014b) 表明,这些对抗样本的主要原因之一是过度线性。神经网络主要是基于线性块构建的。因此在一些实验中,它们实现的整体函数被证明是高度线性的。这些线性函数很容易优化。不幸的是,如果一个线性函数具有许多输入,那么它的值可以非常迅速地改变。如果我们用
y。我们假设有一个函数 f(x) 表示 y 和 x 之间的近似关系。例如,我们可能假设 y = f(x) + ϵ,其中 ϵ 是 y 中未能从 x 预测的一部分。在函数估计中,我们感兴趣的是用模型估计去近似 f,或者估计 fˆ。函数估计和估计参数 θ 是一样的。k-折交叉验证算法。当给定数据集
Bagging(bootstrap aggregating)是通过结合几个模型降低泛化误差的技术(Breiman, 1994)。主要想法是分别训练几个不同的模型,然后让所有模型表决测试样例的输出。这是机器学习中常规策略的一个例子,被称为模型平均(model averaging)。
络,我们需要对许多输出求和 (此处为描述简单,f(x) 为唯一输出)。与切面距离算法一样,我们根据切向量推导先验,通常从变换(如平移、旋转和缩放图像)的效果获得形式知识。正切传播不仅用于监督学习(Simard et al., 1992),还在强化学习(Thrun, 1995)中有
L2惩罚法也是一个经典的正则化方法。 它是在原有损失函数的基础上,在构造一个新的损失函数。(带有惩罚项 是一个超参数)模型集成(model ensemble)可以提供模型的预测准确度,思想就是, 先训练大量结构不同的模型,通过平均、或投票方式综合所有模型的结构,得到最终预测。在实际中,有较大限制,原因很简单,