目 录一、再议激活函数1、激活函数是什么2、这个东西有什么用3、激活函数的种类特点及应用场景1恒等激活函数2阶跃函数3Sigmoid4tanh5ReLU二、为什么需要反向传播三、卷积神经网络1、为什么用卷机2、卷积层3、激活层4、池化层5、全连接层一、再议激活函数在研究一个问题前首先要自己问自己几个问题是什么为什么这个东西有什么用这几个问题同样可以用在我们的激活函数研究上面。1、激活函数是什么激活函数的本质是将线性输出转换成非线性输出的一个工具。他的常见类型有恒等函数、阶跃函数、sigmoid、tanh、ReLu和softmax等激活函数的种类有很多有时为了针对特殊问题我们可以专门设计激活函数。2、这个东西有什么用激活函数设计出来的目的简单的说就是将现行问题转化为非线形问题为什么我们要将线性问题转化为非线形问题呢这个原因就在于神经网络是被设计出来解决复杂问题的这里说复杂问题是除了线性问题以外还有一些非线形问题神经网络在进行仿射变化时实际进行的是一个线性计算那么没有讲线性计算转化成非线形计算的过程网络的表征能力就有限。所以就需要将线形问题转化为非线形问题。3、激活函数的种类特点及应用场景激活函数的种类我已经在前面激活函数是什么里面介绍过了下面我们一一介绍他们并说明他们的应用场景。1恒等激活函数恒等激活函数说白了就是将仿射变换后的结果乘常数一用数学表示为f ( x ) 1 f(x)1f(x)1这种函数一般用于线形问题的激活层当中因为问题本质属于线形问题计算结果也是线形的所以不需要特殊变换只需要将原来的结果进行输出而不需要激活。2阶跃函数这种函数作者还不太清楚他的具体用途但是一图胜千言本质上还是可以将线形问题转化为非线形问题3Sigmoid这个函数就非常的有名了它常用与隐含层的激活函数而且我们在Logistic回归中也层遇见过他他可以用于二分类问题的输出层激活函数。他的原函数和求导后的结果如下σ ( x ) 1 1 e x p ( − x ) \sigma(x){1\over 1exp(-x)}σ(x)1exp(−x)1​优点函数是平滑的曲线整个定义域内可以方便的求导缺点激活函数计算量大反向传播求误差梯度时求导涉及除法反向传播时很容易就 会出现梯度消失的情况从而无法完成深层网络的训练4tanh常用于NLP中函数和图像如下优点平滑、易于求导输出均值为0收敛速度要比sigmoid快从而可以减少迭代次数缺点梯度消失5ReLU长用于图像CV优点更加有效率的梯度下降以及反向传播避免了梯度爆炸和梯度消失问题计算过程简单缺点小于等于0的部分梯度为0二、为什么需要反向传播梯度下降应用于有明确求导函数的情况或者可以求出误差的情况(比如 线性回归)我们可以把它看做没有隐藏层的网络。但对于多个隐藏层的 神经网络输出层可以直接求出误差来更新参数但隐藏层的误差是不存在的因此不能对它直接应用梯度下降而是先将误差反向传播至隐藏层然后再应用梯度下降。三、卷积神经网络“卷积”其实是一个数学概念它描述一个函数和另一个函数在某个维度上 的加权“叠加”作用。函数定义如下:1、为什么用卷机未考虑数据的“形状”会破坏数据空间结构。 例如输入数据是图像时图像通常是高长通道 方向上的3维形状。但是向全连接层输入时需 要将3维数据拉平为1维数据。全连接网络层次深度受限一般不超过七层。全连接网络参数量庞大需要降低参数量。卷积神经网络(Convolutional Neural NetworkCNN)针对全连接网络 的局限做出了修正加入了卷积层(Convolution层)和池化层(Pooling 层)。2、卷积层它是卷积神经网络的核心所在通过卷积运算达到降维处理和提取特征两个重要目的3、激活层其作用在于将前一层的线性输出通过非线性的激活函数进行处理这样用 以模拟任意函数从而增强网络的表征能力。4、池化层也称子采样层或下采样层(Subsampling Layer)目的是缩小高、长方向上的空间的 运算以降低计算量提高泛化能力。如下的示例将44的矩阵缩小成22的矩阵输出5、全连接层这个网络层相当于多层感知机(Multi-Layer Perceptron简称MLP) 其在整个卷积神经网络中起到分类器的作用,通过前面多个“卷积-激活-池化”层的反复处理待处理的数据特性已有 了显著提高:一方面输入数据的维度已下降到可用传统的前馈全连接 网络来处理了;另一方面此时的全连接层输入的数据已不再是“泥沙 俱下、鱼龙混杂”而是经过反复提纯过的结果因此输出的分类品质 要高得多。