【小白的机器学习】”鸢尾花”数据集

”鸢尾花”数据是用来讲”分类问题”的老生常谈了,下面我们站在一个相对纯粹的角度再来看看这个数据集。

了解特征

数据有5列:

  • 花萼和花瓣的长度与宽度
  • 鸢尾花分类(一共3种)

下面是完整的数据,一共150条:

统计分析

按”花的品种“分组,观察一下这3种花在花萼和花瓣上的大小上有什么区分度呢?

下面是结论:

可见,3种鸢尾花的花瓣大小有非常明显的差异性,很有可能起到区分作用。

可视化分析

根据上面数据分析的初步结论,我们可以通过绘图的方式,将花瓣大小作为x,y轴来观察3个品种的分布情况:

显然,仅仅根据花瓣的2个特征,就已经足够清晰的划分出3个品种的数据边界。

同样的,我们可以绘制一下各个特征与分类之间的相关性关系,会发现花瓣的2个特征与分类之间存在正相关的关系:

我们也可以用相关系数来量化特征与目标之间相关性的强度:

”机器学习“

对于如此明显的花瓣特征,我们根本不需要让机器来学习特征与目标之间的关系,直接判断一下花瓣长度和宽度的范围就基本可以预测出一朵花的品种:

  • ”红色分类“的花瓣长度宽度都很小,我们根据之前统计的min()/max()作为判断的边界即可判定为setosa品种。
  • 同理,我们可以大概圈出”蓝色分类“的花瓣大小范围,判定为versicolor品种。
  • 剩余的就是viraginica品种。

最后,我们统计一下预测正确的样本数 / 总样本数,这样得到准确率是94.6%,是不是已经很不错了呢?

实际上我们没有直接使用机器学习模型,但其实上这个过程也就是机器分类的原理,模型可以帮我们在特征空间中划出一些分界线,以此产生分类。

我们通过这个案例,应该更加认识到特征的重要性,而不是模型的重要性。

 

如果文章帮助您解决了工作难题,您可以帮我点击屏幕上的任意广告,或者赞助少量费用来支持我的持续创作,谢谢~