大数据的诞生
2016年AlfaGo打败了围棋大师李世石,创下了机器人战胜人类的记录,让我们认识到了大数据技术的威力。这件事情让很多企业都嗅到了商业的机遇,觉得大数据技术蕴含着近乎无限的可能性,就像当年“互联网技术”刚出现一样。那么,大数据是不是真的这么厉害,真的可以为我们的生活带来如此无比的价值呢?大数据究竟能为我们做些什么呢?
如果空谈大数据这东西有什么好处,任何人都可以给你扯一大堆,但是最终如果有人问大数据这东西到底是什么?却很少有人能够给出十分具体的定义。基于我个人的理解,大数据可以认为是“数据挖掘”的2.0版本。所以,如果你懂得基本的常用数据挖掘的技术的话,入门大数据应该不是一件太困难的事情。
那么大数据(数据挖掘2.0)到底比一般的数据挖掘方法(1.0版本)高级在哪里呢?其核心就是在于对“大数据集”的依赖。数据挖掘1.0是针对小规模数据集或者中等规模数据集进行分析的,一般有个几百条数据、几千条数据进行分析就不得了了。而数据挖掘2.0则主要是针对海量数据集进行分析的技术,往往动辄百万甚至千万级别的数据。
现在问题来了,数据挖掘1.0版本好好的,为什么要进阶2.0版本?咋一看好像没事儿找事儿似的。数据量少多好?收集数据又省事儿,分析数据还快,对吧!干嘛平白无故给自己增加工作量呢?为了回答这个问题,首先解释数据挖掘1.0版本是怎么回事儿。
数据挖掘本质是做预测的,通常我们的目的是给定一些数据 去预测那些想了解的信息 。我们数据集里面有一些已经配好对的 和 ,通过这些数据对可以构造个统计模型 。用 就可以在给定新的 的情况下去预测新的 了。那么要想对 预测的好,就要让模型 厉害一点。由于模型 是从已有数据集(包含很多数据对的)中用某些统计模型“训练”出来的,所以决定 厉不厉害的因素就主要为两个:
1) 和 的数据对的信息
即: 有标注的数据样本
2)选择的基础统计模型
即:模型的基本形式,如:
线性回归?Logistic回归?决策树?SVM (Support Vector Machine)?...
如果不好理解,打个比方。换句话说,一道非常好吃的菜,取决于“食材”好不好,也取决于做饭的人的技术。菜,就是那个最后得到的预测模型 ,食材是数据集中的 和 的数据对,而是做饭的人的技术就对应所选择的基础统计模型。根据这个思路,我们认为有两种路子可以提升 的性能:
(1)换个好厨子!
(2)选取更上好的“食材”!
在数据挖掘1.0的年代,大家想的都是怎么样找个好厨子!也就是在算法层次、模型层次进行创新。大家认为,决策模型 之所以预测效果不好,是选取的基础模型的方案太烂了!所以需要找更牛更炫的基础模型!这也是当今很多工科背景的博士生整天在做的事儿,拍脑袋出个好的模型发SCI,自己创造个叫什么“张XX算法”或“杨XX算法”出来碾压别人的智商!然而,换厨子的路子,最后被证实是有一定问题的!就是数据挖掘领域常常提到的Overfitting的问题!过拟合问题!
什么叫过拟合?不好理解?换句话说,就是“想太多”。一个挺简单的数量关系,非得用一个特复杂的模型来解释,最后结果就是这个模型 被过度解读了。那么为什么模型 被过度解读了呢?
其原因是所收集的数据是存在系统性的误差的。什么是系统性误差?假设实际情况中 和 之间是严格的线性关系,那么就可以用:
来表示模型 。注意,这个模型后面有个小项 , 是与 没有关系的,这个小项就是系统误差!系统误差,就是现实中所有除了 以外,所有会影响到 的那些因素,且这些因素与 是互相独立的!
由于人的精力是有限的,我们不可能把所有因素找到,所以只找到了那个最主要的因素X并构造了对应的数据集。的存在使得这个数据集中的数据对 和 看起来不是标准的线性关系,于是我们就会各种琢磨 和 之间的关系…是二次关系?是指数关系?还是包含各种高次幂项?最后我们挑了一个包含高次幂项的基础模型去回归,结果糟透了!实际上只需要用一个线性的模型去获得 就最靠谱了好不好?!于是我们就"想太多"了,结果就过拟合了!
那么,对给定数据集用好厨子去分析就会过拟合,所以我们用个一般的厨子炒菜是不是更稳当可靠呢?也就是说模型越简单越好?对么?这是数据挖掘1.0中当提到过拟合问题时经常提到的解决方案,也称作“奥坎姆剃刀原则”,例如决策树学习中的剪枝操作,用一个简单一点儿的决策树代替一个复杂的决策树往往效果更好一些。简化模型的方案是一种基于实践经验的技术方案,并没有获得理论上严谨的证明,然而很多情况下被验证是有效的,我就不再多论述了。
科学严谨的对抗“过拟合”问题的方案应当是怎样的呢?实际上就是如下所述的数据挖掘2.0(大数据)的思路!由于我们在挖掘模型M的历程中,没有人会告诉我们X和Y真实的关系[1],我们只有一个个数据对,所以我们只能对基础模型进行各种天马行空的假设。我们不知道 和 到底是不是线性的?或者是不是二次的?我们只能看到数据对,我们也不知道我们到底是不是想多了还是想少了!想多了过拟合,想少了一样很麻烦!
那怎么办呢?我们只能先假设这个模型 无比复杂,复杂到可以是“任意”复杂的形式,也就是说,我们应当选取一个足够复杂的基础模型可以涵盖几乎所有数量关系。然后,基于数据集合里的数据对的关系,不断地去训练整个基础模型,在训练的过程中,一方面获得模型的参数,另一方面也不断地“简化”模型的形式,最后获得我们想要的M和它对应的样子!
在这种方法下,我们对数据集合中的数据对有非常高的要求!就是要求,数据对看起来必须是有代表性的!有代表性的数据应当长什么样子?应当看起来貌似与没什么关系!因为我们对是一无所知的(如果知道就可以放到X里面处理了),所以我们没法选择收集到的数据中,与到底呈现什么数量关系,我们唯一能做的,就是在科学[2]的方法下,收集尽可能多的 和 的数据对。当数据对足够多的情况下, 就会看起来与 越没什么关系,这样训练出来的模型就越符合客观情况。
收集更多的数据,就是提高数据集合的质量,也就是所谓的数据挖掘2.0的思路!在更多的数据下,用尽可能复杂的模型,然后让数据告诉你模型M究竟长什么样!于是,为了更多的数据,就有了“云存储”、“数据仓库”这些新概念;为了更复杂的模型,就有了“MLP”,“CNN”“RNN”等炫酷的深度学习统计模型;为了让计算机更快地在大数据集下训练复杂的模型,就有了“网格计算”,“并行计算”,“云计算”等高端的商业化名词。然后懂了这些,你就可以更好地吹牛调侃,究竟什么是大数据了!
说明:
[1]
在计量经济学派中是事先知道X和Y的数量关系的,这些数量关系是基于已有的理论假设。这套解决问题的路子,和这里所论述的数据挖掘的路子不一样,没有优劣之分,都是主流的数据分析的思想。
[2]
收集更多的数据对于大数据框架下的数据分析是有效的,但是必须保证数据的收集过程是科学客观的,尽量避免被某些“内生”因素所干扰。忽视了这一点,即使数据量足够大,但仍然会导致过拟合的问题。
End.
作者:刘通(中国统计网特邀认证作者)
专栏地址:https://www.zhihu.com/people/xiao-nu-43/activities
本文为中国统计网原创文章,转载时请注明作者及出处,并保留本文链接。
大数据培训、人工智能培训、Python培训、大数据培训机构、大数据培训班、数据分析培训、大数据可视化培训,就选光环大数据!光环大数据,聘请专业的大数据领域知名讲师,确保教学的整体质量与教学水准。讲师团及时掌握时代潮流技术,将前沿技能融入教学中,确保学生所学知识顺应时代所需。通过深入浅出、通俗易懂的教学方式,指导学生更快的掌握技能知识,成就上万个高薪就业学子。 更多问题咨询,欢迎点击------>>>>在线客服!