numpy机器学习 – 波士顿房价回归

本文分享”波士顿房价”的数据分析与线性回归问题。

加载数据

这是关于波士顿地区的房价预测问题。

每一行代表波士顿一个郊区的各种特征，最后一列是该郊区的房价。

因为CSV没有表头，我们自己指定列names，用正则\s+解析字段：

MEDV是该郊区的房价（单位是万），我们要用前面那些特征来回归预测MEDV，所以我们要分析什么特征与房价有关。

可以简单看一下各个特征的分布情况，但是这样的数据不直观，不仔细看发现不了什么信息。

各个特征的数值分布情况，用hist方法可以很方便的画出直方图：

可以看看每种特征的取值范围和聚集区域，但是这种图看不出各个特征与MEDV房价之间的相关关系，实用性比较虚。

现在我们可以基于RM和LSTAT训练房价回归模型了，根据之前的几篇博客我们不用任何库，直接纸上推导好梯度下降公式后直接训练系数项即可：

训练时需要对RM和LSTAT特征进行标准化，否则计算出的梯度会太大，如果学习率不够小的话会导致theta在目标函数的谷底左右跳跃，无法达到最低位置，也就是我们常说的无法收敛：

训练过程中，我们不停的梯度下降系数项，然后打印每一轮的均方误差会发现它不停的变小并趋于稳定，说明此时梯度已经消失（接近0），目标函数在当前theta位置已达谷底：

为了证明训练好的回归模型准不准，我们可以顺序的将所有样本点的真实房价和预测房价都画出来，看一下曲线的吻合度：

为什么要这样来看效果呢？因为这个模型是2个特征与房价之间的关系，也就是说3个变量（都是连续值）在平面上是无法绘制出图像的，因此只能说看一下预测值和实际值之间的差异程度，并不能将特征本身刻画到图像上了。

”相关性分析“还有一些重要的认知，建议大家看一下数学乐的描述：https://www.shuxuele.com/data/correlation.html。

我在B站录制了视频版本，如果大家对文字版有理解困难可以看一下：https://www.bilibili.com/video/BV1sK411c71P/。

如果文章帮助您解决了工作难题，您可以帮我点击屏幕上的任意广告，或者赞助少量费用来支持我的持续创作，谢谢~