如果说对机器学习或统计学习里最常见的示例数据集进行排序,那么鸢尾花数据集一定排的上号,而且不同于事后诸葛的泰坦尼克生还者数据,这个数据集理论上是可以拿来做预测的。设想某个清晨,你漫步花园并驻足于一朵鸢尾花前,然后你掏出尺子,测量了花萼长度、花萼宽度、花瓣长度跟花瓣宽度后静默片刻,淡淡的说到:“果然又是个维吉尼亚鸢尾。”留下一堆路人甲风中凌乱。
但其实你是做不到的,新西兰统计学家Thomas Lumley最近发表了一篇文章认为,这个数据集其实是Fisher或Anderson拿来想让读者做线性判别或无监督聚类的,而在真实的野外环境中,花从来都不是一个良好的种属判断条件而是探索一个假 …