relu激活函数是什么意思relu反向传播函数推导(relu激活函数可以解决梯度爆炸吗)

你狠美____
体育
2023-04-05 20:01:01
-

原来ReLU这么好用！一文带你深度了解ReLU激活函数！

在神经网络中，激活函数负责将来自节点的加权输入转换为该输入的节点或输出的激活。ReLU 是一个分段线性函数，如果输入为正，它将直接输出，否则，它将输出为零。它已经成为许多类型神经网络的默认激活函数，因为使用它的模型更容易训练，并且通常能够获得更好的性能。在本文中，我们来详细介绍一下ReLU，主要分成以下几个部分：

1、Sigmoid 和 Tanh 激活函数的局限性

2、ReLU（Rectified Linear Activation Function）

3、如何实现ReLU

4、ReLU的优点

5、使用ReLU的技巧

一个神经网络由层节点组成，并学习将输入的样本映射到输出。对于给定的节点，将输入乘以节点中的权重，并将其相加。此值称为节点的summed activation。然后，经过求和的激活通过一个激活函数转换并定义特定的输出或节点的“activation”。

最简单的激活函数被称为线性激活，其中根本没有应用任何转换。一个仅由线性激活函数组成的网络很容易训练，但不能学习复杂的映射函数。线性激活函数仍然用于预测一个数量的网络的输出层(例如回归问题)。

非线性激活函数是更好的，因为它们允许节点在数据中学习更复杂的结构。两个广泛使用的非线性激活函数是 sigmoid 函数和双曲正切激活函数。

Sigmoid 激活函数，也被称为 Logistic函数神经网络，传统上是一个非常受欢迎的神经网络激活函数。函数的输入被转换成介于0.0和1.0之间的值。大于1.0的输入被转换为值1.0，同样，小于0.0的值被折断为0.0。所有可能的输入函数的形状都是从0到0.5到1.0的 s 形。在很长一段时间里，直到20世纪90年代早期，这是神经网络的默认激活方式。

双曲正切函数，简称 tanh，是一个形状类似的非线性激活函数，输出值介于-1.0和1.0之间。在20世纪90年代后期和21世纪初期，由于使用 tanh 函数的模型更容易训练，而且往往具有更好的预测性能，因此 tanh 函数比 Sigmoid激活函数更受青睐。

Sigmoid和 tanh 函数的一个普遍问题是它们值域饱和了。这意味着，大值突然变为1.0，小值突然变为 -1或0。此外，函数只对其输入中间点周围的变化非常敏感。

无论作为输入的节点所提供的求和激活是否包含有用信息，函数的灵敏度和饱和度都是有限的。一旦达到饱和状态，学习算法就需要不断调整权值以提高模型的性能。

最后，随着硬件能力的提高，通过 gpu 的非常深的神经网络使用Sigmoid 和 tanh 激活函数不容易训练。在大型网络深层使用这些非线性激活函数不能接收有用的梯度信息。错误通过网络传播回来，并用于更新权重。每增加一层，错误数量就会大大减少。这就是所谓的消失梯度问题，它能有效地阻止深层(多层)网络的学习。

虽然非线性激活函数的使用允许神经网络学习复杂的映射函数，但它们有效地阻止了学习算法与深度网络的工作。在2000年代后期和2010年代初期，通过使用诸如波尔兹曼机器和分层训练或无监督的预训练等替代网络类型，这才找到了解决办法。

为了训练深层神经网络，需要一个激活函数神经网络，它看起来和行为都像一个线性函数，但实际上是一个非线性函数，允许学习数据中的复杂关系。该函数还必须提供更灵敏的激活和输入，避免饱和。

因此，ReLU出现了，采用 ReLU 可以是深度学习革命中为数不多的里程碑之一。ReLU激活函数是一个简单的计算，如果输入大于0，直接返回作为输入提供的值；如果输入是0或更小，返回值0。

我们可以用一个简单的 if-statement 来描述这个问题，如下所示:

对于大于零的值，这个函数是线性的，这意味着当使用反向传播训练神经网络时，它具有很多线性激活函数的理想特性。然而，它是一个非线性函数，因为负值总是作为零输出。由于矫正函数在输入域的一半是线性的，另一半是非线性的，所以它被称为分段线性函数（piecewise linear function ）。

我们可以很容易地在 Python 中实现ReLU激活函数。

我们希望任何正值都能不变地返回，而0.0或负值的输入值将作为0.0返回。

下面是一些修正的线性激活函数的输入和输出的例子：

输出如下：

我们可以通过绘制一系列的输入和计算出的输出，得到函数的输入和输出之间的关系。下面的示例生成一系列从 -10到10的整数，并计算每个输入的校正线性激活，然后绘制结果。

运行这个例子会创建一个图，显示所有负值和零输入都突变为0.0，而正输出则返回原样：

ReLU函数的导数是斜率。负值的斜率为0.0，正值的斜率为1.0。

传统上，神经网络领域已经不能是任何不完全可微的激活函数，而ReLU是一个分段函数。从技术上讲，当输入为0.0时，我们不能计算ReLU的导数，但是，我们可以假设它为0。

tanh 和 sigmoid 激活函数需要使用指数计算，而ReLU只需要max()，因此他计算上更简单，计算成本也更低。

ReLU的一个重要好处是，它能够输出一个真正的零值。这与 tanh 和 sigmoid 激活函数不同，后者学习近似于零输出，例如一个非常接近于零的值，但不是真正的零值。这意味着负输入可以输出真零值，允许神经网络中的隐层激活包含一个或多个真零值。这就是所谓的稀疏表示，是一个理想的性质，在表示学习，因为它可以加速学习和简化模型。

ReLU看起来更像一个线性函数，一般来说，当神经网络的行为是线性或接近线性时，它更容易优化。

这个特性的关键在于，使用这个激活函数进行训练的网络几乎完全避免了梯度消失的问题，因为梯度仍然与节点激活成正比。

ReLU的出现使得利用硬件的提升和使用反向传播成功训练具有非线性激活函数的深层多层网络成为可能。

很长一段时间，默认的激活方式是Sigmoid激活函数。后来，Tanh成了激活函数。对于现代的深度学习神经网络，默认的激活函数是ReLU激活函数。

ReLU 可以用于大多数类型的神经网络，它通常作为多层感知机神经网络和卷积神经网络的激活函数，并且也得到了许多论文的证实。传统上，LSTMs 使用 tanh 激活函数来激活cell状态，使用 Sigmoid激活函数作为node输出。而ReLU通常不适合RNN类型网络的使用。

偏置是节点上具有固定值的输入，这种偏置会影响激活函数的偏移，传统的做法是将偏置输入值设置为1.0。当在网络中使用 ReLU 时，可以将偏差设置为一个小值，例如0.1 。

在训练神经网络之前，网络的权值必须初始化为小的随机值。当在网络中使用 ReLU 并将权重初始化为以零为中心的小型随机值时，默认情况下，网络中一半的单元将输出零值。有许多启发式方法来初始化神经网络的权值，但是没有最佳权值初始化方案。何恺明的文章指出Xavier 初始化和其他方案不适合于 ReLU ，对 Xavier 初始化进行一个小的修改，使其适合于 ReLU，提出He Weight Initialization，这个方法更适用于ReLU 。

在使用神经网络之前对输入数据进行缩放是一个很好的做法。这可能涉及标准化变量，使其具有零均值和单位方差，或者将每个值归一化为0到1。如果不对许多问题进行数据缩放，神经网络的权重可能会增大，从而使网络不稳定并增加泛化误差。无论是否在网络中使用 ReLU，这种缩放输入的良好实践都适用。

ReLU 的输出在正域上是无界的。这意味着在某些情况下，输出可以继续增长。因此，使用某种形式的权重正则化可能是一个比较好的方法，比如 l1或 l2向量范数。这对于提高模型的稀疏表示(例如使用 l 1正则化)和降低泛化误差都是一个很好的方法。

[img]

Relu激励函数

因为Sigmod函数的梯度有可能会下降很慢。甚至梯度消失。在分类的时候很多都使用这个Relu激励函数，尤其是深度学习中。

线性整流函数（Rectified Linear Unit, ReLU），Relu激励函数，也称“热鲁”激励函数。是一种人工神经网络中常见的激活函数。相比于Sigmoid函数，

Relu函数的优点：

梯度不饱和。梯度计算公式为：1{x0}。因此在反向传播过程中，减轻了梯度弥散的问题，神经网络前几层的参数也可以很快的更新。

计算速度快。正向传播过程中，sigmoid和tanh函数计算激活值时需要计算指数，而Relu函数仅需要设置阈值。如果x0,f(x)=0，如果x0,f(x)=x。加快了正向传播的计算速度。

f(x)=max(o,x)

在神经元中输出为：

是不是很简单。

激活函数

参考：

非线性激活函数能够使神经网络逼近任意复杂的函数。如果没有激活函数引入的非线性，多层神经网络就相当于单层的神经网络

sigmoid

1、梯度消失：sigmoid函数在0和1附近是平坦的。也就是说，sigmoid的梯度在0和1附近为0。在通过sigmoid函数网络反向传播时，当神经元的输出近似于0和1时它的梯度接近于0。这些神经元被称为饱和神经元。因此，这些神经元的权值无法更新。不仅如此，与这些神经元相连接的神经元的权值也更新得非常缓慢。这个问题也被称为梯度消失。所以，想象如果有一个大型网络包含有许多处于饱和动态的sigmoid激活函数的神经元，那么网络将会无法进行反向传播。

2、不是零均值：sigmoid的输出不是零均值的。

3、计算量太大：指数函数与其它非线性激活函数相比计算量太大了。下一个要讨论的是解决了sigmoid中零均值问题的非线性激活函数。

Sigmoid 和 Softmax 区别：

sigmoid将一个real value映射到（0,1）的区间，用来做二分类。而 softmax 把一个 k 维的real value向量（a1,a2,a3,a4….）映射成一个（b1,b2,b3,b4….）其中 bi 是一个 0～1 的常数，输出神经元之和为 1.0，所以相当于概率值，然后可以根据 bi 的概率大小来进行多分类的任务。二分类问题时 sigmoid 和 softmax 是一样的，求的都是 cross entropy loss，而 softmax 可以用于多分类问题多个logistic回归通过叠加也同样可以实现多分类的效果，但是 softmax回归进行的多分类，类与类之间是互斥的，即一个输入只能被归为一类；多个logistic回归进行多分类，输出的类别并不是互斥的，即"苹果"这个词语既属于"水果"类也属于"3C"类别。

tanh

Tanh唯一的缺点是：tanh函数也存在着梯度消失的问题，因此在饱和时会导致梯度消失。为了解决梯度消失问题，让我们讨论另一个被称为线性整流函数（ReLU）的非线性激活函数，它比我们之前讨论的两个激活函数都更好，并且也是在今天应用最为广泛的激活函数。

ReLU

用形式化的语言来说，所谓****非线性，就是一阶导数不为常数。 ReLu 的定义是max(0, x)，因此， ReLU 的导数为：

显然， ReLU 的导数不是常数，所以 ReLU 是非线性的。Relu会使一部分神经元的输出为0，这样就造成了网络的稀疏性，并且减少了参数的相互依存关系，缓解了过拟合问题的发生。

1、ReLu虽然在大于0的区间是线性的，在小于等于0的部分也是线性的，但是它整体不是线性的，因为不是一条直线，所以Relu函数是非线性函数。也就是说，线性和非线性都是就函数的整体而言的。用术语来说，线性、非线性是就函数的整个定义域而言的。这就意味着无论我们堆多少层网络，如果这些层都使用线性激活函数，那这些层最终等效于一层！那这样的模型的表达能力就很有限了。多个线性操作的组合也是一个线性操作，没有非线性激活，就相当于只有一个超平面去划分空间。

ReLu是非线性的，效果类似于划分和折叠空间，组合多个（线性操作 + ReLu）就可以任意的划分空间。

2、对于浅层的机器学习，比如经典的三层神经网络，用它作为激活函数的话，那表现出来的性质肯定是线性的。但是在深度学习里，少则几十，多则上千的隐藏层，虽然，单独的隐藏层是线性的，但是很多的隐藏层表现出来的就是非线性的。举个简单的例子，一条曲线无限分段，每段就趋向直线，反过来，很多这样的直线就可以拟合曲线。类似，大规模的神经网络，包含很多这样的线性基本组件，自然也可以拟合复杂的非线性情况。Relu通过构造很多的线形空间（类似于折叠的方式），逼近非线性方程。

但是Relu神经元有几个缺点：

平时使用的时候RELU的缺点并不是特别明显，只有在学习率设置不恰当(较大)的时候，会加快神经网络中神经元的“死亡”。

为了解决relu激活函数在x0时的梯度消失问题，提出了Leaky Relu

leaky ReLU

pReLU

PRelu的函数为：

其中α为超参数。PRelu的思想是引进任意超参数α ，而这个α可以通过反向传播学习（注意 PRelu 与leaky relu的区别，前者是学习得到，后者是我们认为设定）。这赋予了神经元在负区域内选择最好斜率的能力，因此，他们可以变成单纯的ReLU激活函数或者Leaky ReLU激活函数。如果α=0，那么 PReLU 退化为ReLU；如果α是一个很小的固定值（如α =0.01），则 PReLU 退化为 Leaky ReLU（LReLU）。

(1) PReLU只增加了极少量的参数，也就意味着网络的计算量以及过拟合的危险性都只增加了一点点。特别的，当不同channels使用相同的ai时，参数就更少了。

(2) BP更新ai时，采用的是带动量的更新方式：

总之，一般使用ReLU效果更好，但是你可以通过实验使用Leaky ReLU或者Parametric ReLU来观察它们是否能对你的问题给出最好的结果。

ELU

SELU

经过该激活函数后使得样本分布自动归一化到0均值和单位方差(自归一化，保证训练过程中梯度不会爆炸或消失，效果比Batch Normalization 要好)

其实就是ELU乘了个lambda，关键在于这个lambda是大于1的。以前relu，prelu，elu这些激活函数，都是在负半轴坡度平缓，这样在activation的方差过大的时候可以让它减小，防止了梯度爆炸，但是正半轴坡度简单的设成了1。而selu的正半轴大于1，在方差过小的的时候可以让它增大，同时防止了梯度消失。这样激活函数就有一个不动点，网络深了以后每一层的输出都是均值为0方差为1。

swish