numpy机器学习 – 实现神经网络-上（理论篇）

On 2021年5月7日2021年5月13日By yuer

本文分享如何证明与实现一个神经网络，本篇博客拖延了很久，因为要深入浅出的讲明白是需要花点功夫的（画神经网络图、用latex推导公式）。

理论简述

神经网络看似复杂，实际数学知识非常简单。

神经网络的关键是搞懂3个东西：

神经元的输入？
神经元的输出？
神经元之间的链接？

前向传播

从上图看，input层的2个神经元到hidden层第1个神经元分别有1条链接，因此input两个神经元的输出经过链接上的权重加权求和后，就是hidden第1个神经元的输入，那么hidden第1个神经元的输出是多少呢？

我们首先搞懂input神经元的输出是什么再继续，这里O(i=1)与O(i=2)就是2个input神经元的输出，其实就是（训练样本/预测样本的）原始特征，不需要做任何变换。

来到hidden层，实际上hidden第1个神经元的输出O(j=1)是对其输入的加权求和结果O(i=1)*w1,1 + O(i=2)*w2,1执行一次激活函数得到的，激活函数可以是我们比较熟悉的sigmoid。

这里就可以提出第1个神经网络的矩阵运算公式：前向传播。

利用矩阵点乘，我们可以轻松利用input层的输出矩阵与链接权重矩阵快速计算出hidden层所有神经元的输出：

通过矩阵运算可以直接求出hidden层所有神经元的输入，最终统一做sigmoid即可得到hidden层神经元的输出。

因此，我们只要根据网络结构，为层与层之间初始化尺寸正确的随机w链接矩阵，即可逐层执行矩阵乘法快速求出output层神经元的输出了。

（注：如果是类似房价预测的回归问题，output层的输出不需要应用激活函数，因为激活函数的性质都是会限制y在某个很小的范围内，例如sigmoid的y值是介于0~1之间的）

我们需要记住每一层每一个神经元的输出，因为后续训练需要用到它们，这里先提一句。

反向传播误差

神经网络训练其实就是调整每一层之间的链接权重，最终达到拟合目标的效果。

input经过前向传播到达output层产生输出，我们需要求出和目标值之间的误差。

output可能有1个至多个神经元，这取决于模型的任务是什么，实际上每个神经元都有自己的误差，因此实际情况如下图：

T(k=1)和T(k=2)分别表示2个output神经元的正确目标值，分别与各自的O(k)做减法即可得到output神经元的2个误差值E(k=1)和E(k=2)。

在谈论应该如何调整链接权重才可以令“当前预测的误差更小”这个终极模型训练问题之前，我们需要先做一件重要的前置工作：

让output层神经元的误差反向传播到hidden层的每一个神经元，只有hidden层神经元身上有了误差，我们才能有办法优化input层和hidden层之间的链接权重。

如果不反向传播误差到hidden神经元身上，我们只能依靠output层的误差训练hidden与output之间的链接权重，这个从图像上很容易理解。

从直觉来说，hidden层第1个神经元的误差只能沿着w1,1和w1,2两条链接来反向传播，因此hidden第1个神经元的误差E(j=1)变成了加权求和问题：