统计学是从事各类科学研究工作所必须掌握的知识,是人们认识未知世界的有效工具。随着计算机技术的迅猛发展和普及,大量数据的处理技术变得很容易实现,这就使得很多统计方法在现实中的应用也变为可能。目前,统计学技术方法日益渗透到数据挖掘、计算机技术以及专业研究领域,实践应用对统计学理论方法提出更多新要求。
当今时代,一方面人们在主动地获取数据。各个科学领域都在大量地获取数据,自然科学领域收集着从宏观的天文数据到微观的基因数据,经济、金融和人文社会科学收集着大量的观察和调查数据。一些人们在通宵达旦地制造和收集数据,他们相信这些数据会对别人有用。也有一些人们脱离了实验室,仅依靠网络数据从事研究。另一方面人们在被动地囤积数据。随着计算机互联网、搜索引擎、电子商务、多种传感器和多媒体技术的发展和广泛使用,各种形式的数据如江河流水般地涌来。当今数据的获取和规模发生了根本的变化,统计学面临着新的机遇和挑战,需要在方法论上有所突破。
什么是数据
数据(data)在拉丁文里是“已知”的意思,在英文中的一个解释是“一组事实的集合,从中可以分析出结论”。笼统地说,凡是用某种载体记录下来的、能反映自然界和人类社会某种信息的,就可称之为数据。古人“结绳记事”,打了结的绳子就是数据。步入现代社会,信息的种类和数量越来越丰富,载体也越来越多。数字是数据,文字是数据,图像、音频、视频等都是数据。
什么是大数据?
量的增多,是人们对大数据的第一个认识。大数据区别于数据,还在于数据的多样性。从数据到大数据,不仅是量的积累,更是质的飞跃,海量的、不同来源、不同形式、包含不同信息的数据可以容易地被整合、分析,原本孤立的数据变得互相联通。这使得人们通过数据分析,能发现小数据时代很难发现的新知识,创造新的价值。 大数据时代,统计学是数据分析的灵魂。
大数据告知信息但不解释信息。打个比方,大数据是“原油”而不是“汽油”,不能被直接拿来使用。大数据时代,统计学依然是数据分析的灵魂。正如美国加州大学伯克利分校迈克尔•乔丹教授指出的,“没有系统的数据科学作为指导的大数据研究,就如同不利用工程科学的知识来建造桥梁,很多桥梁可能会坍塌,并带来严重的后果。
事物的发展充满了不确定性,而统计学,既研究如何从数据中把信息和规律提取出来,找出最优化的方案;也研究如何把数据当中的不确定性量化出来。
统计学是一门古老的学科,已经有三百多年的历史,在自然科学和人文社会科学的发展中起到了举足轻重的作用; 统计学又是一门生命力及其旺盛的学科,他海纳百川又博采众长,随着各门具体学科的发展不断壮大。毫不例外,大数据时代的到来,给统计学科带来了发展壮大机会的同时,也使得统计学科面临着重大的挑战。
大数据对样本和总体的影响
统计利用大数据的目的是为了推断经济总体或社会总体,经济或社会指标的平均数或分位数等情况。统计学强调的是样本的代表性,而代表性这一要求一般是通过概率抽样来满足的。大数据虽然有着海量的样本量,能够提供丰富的信息,但是严格来说,大数据并不是一个抽样样本,相反大数据样本会存在缺乏代表性、信息冗余、存在噪声等诸多问题,这种情况下很容易带来分析结果的系统偏差。
统计利用大数据的目的是为了推断经济总体或社会总体,经济或社会指标的平均数或分位数等情况。统计学强调的是样本的代表性,而代表性这一要求一般是通过概率抽样来满足的。大数据虽然有着海量的样本量,能够提供丰富的信息,但是严格来说,大数据并不是一个抽样样本,相反大数据样本会存在缺乏代表性、信息冗余、存在噪声等诸多问题,这种情况下很容易带来分析结果的系统偏差。
如果说,传统统计研究的数据是有意收集的结构化的样本数据,那么现在我们面对的数据则是一切可以记录和存储、源源不断扩充、超大容量的各种类型的数据。样本数据与大数据的这种区别,具有什么样的统计学意义? 我们知道,样本数据是按照特定研究目的、依据抽样方案获得的格式化的数据,不仅数据量有限,而且如果过程偏离方案,数据就不能满足要求。基于样本数据所进行的分析,其空间十分有陿–通常无法满足多层次、多角度的需要,若遇到抽样方案事先未曾考虑到的问题,数据的不可扩充性缺点就暴露无疑。而大数据是一切可以通过现代信息技术记录和量化的数据,不仅所蕴含的信息量巨大,而且不受各种框框的限刿–任何种类的数据都来者不拒、也无法抵拒。不难发现,大数据相比于样本数据的最大优点是,具有巨大的数据选择空间,可以进行多维、多角度的数据分析。更为重要的是,由于大数据的大体量与多样性,样本不足以呈现的某些规律,大数据可以体现; 样本不足以捕捉的某些弱小信息,大数据可以覆盖; 样本中被认为异常的值,大数据得以认可。这将极大地提高我们认识现象的能力,避免丢失很多重要的信息,避免失去很多决策选择的机会。所以说,在大数据时代下,大数据既是样本,也是总体。
相关分析的变化
大数据时代的到来使得相关分析需要达到的要求更高,针对传统统计分析中的相关测量法存在的缺陷,大数据时代的相关分析
首先满足“通用性”和“均等性”两个准则,相关分析的结果应该只与变量之间连动性的紧密程度有关,而不应受变量间相关形式的影响。
新兴的相关分析方法在最近几年涌现,一方面是由于国内外学者看到了大数据分析中传统统计相关分析存在的缺陷,运用传统统计方法已经无法满足大数据时代数据分析的需求;更重要的在于,国内外学者们都看到了大数据时代相关分析思维的重要性,看到了相关分析在特征选择、变量依赖关系识别中的实用性。大数据时代,相关分析的运用范围之广、重要性之大是我们不能忽略的,也是传统相关分析所面临的巨大机遇。如何以相关分析思路为起点探究新的分析方法,使统计相关分析方法能够更顺应时代的变化,体现出传统统计思维的经典与先进,在大数据下能够发挥作用,即是传统相关分析面临的挑战也是机遇。随着大数据时代的到来,对于数据的分析发生了很大的变化,从原来的注重因果分析到如今对相关分析的看重。人们不再过多的关注“为什么”。而更加的想知道“是什么。
大数据时代下统计学面临的机遇
一个新生事物的出现将必定导致传统观念和技术的革命。数码照相机的出现导致传统相片胶卷和影像业的已近消亡。如果大数据包含了所有父亲和儿子的身高数据,只要计算给定的父亲身高下所有儿子的平均身高就可以预测其儿子身高了。模型不再重要,当年统计学最得意的回归预测方法将被淘汰。大数据的到来将对传统的统计方法进行考验。统计学会不会象科学哲学那样,只佩戴着历史的光环,而不再主导和引领人们分析和利用大数据资源。现在其他学科和行业涌入大数据的热潮,如果统计学不抓紧参与的话,将面临着被边缘化的危险。
现今统计学的目标是通过获取数据和分析数据发现真实总体的参数和性质,统计方法和理论对数据有过高的要求。而大数据充满了各种随机的、非随机的误差和偏倚,不能满足这些苛刻的要求。按照波普的科学划界准则,只要我们能从大数据中提炼出具有可证真伪的结论,那么这个结论还是科学的,可以用于知识积累。这些可证真伪的大数据结论可作为进一步科学研究的假说,以数据驱动研究。
2015年11月17日