大数据是指用现有的计算机软硬件设施难以采集、存储、管理、分析和使用的超大规模的数据集。大数据具有规模大、种类杂、快速化、价值密度低等特点(4V特性)。大数据的“大”是一个相对概念,没有具体标准,如果一定要给一个标准,那么10-100TB通常称为大数据的门槛。
数据分析是一个大的概念,理论上任何对数据进行计算、处理从而得出一些有意义的结论的过程,都叫数据分析。从数据本身的复杂程度、以及对数据进行处理的复杂度和深度来看,可以把数据分析分为以下4个层次:数据统计,OLAP,数据挖掘,大数据。
大数据分析和数据分析是有区别和联系的。这里重点关注两者的是技术要求、使用场景、业务范围等方面的区别和联系。重点要区分理论研究和实际应用两方面区别和联系。
第一:在分析方法上两者并没有本质不同
数据分析的核心工作是人对数据指标的分析、思考和解读,人脑所能承载的数据量是极其有限的。所以,无论是“传统数据分析”,还是“大数据分析”,均需要将原始数据按照分析思路进行统计处理,得到概要性的统计结果供人分析。两者在这个过程中是类似的,区别只是原始数据量大小所导致处理方式的不同。
第二:在对统计学知识的使用重心上两者存在较大的不同
传统数据分析”使用的知识主要围绕“能否通过少量的抽样数据来推测真实世界”的主题展开。“大数据分析”主要是利用各种类型的全量数据(不是抽样数据),设计统计方案,得到兼具细致和置信的统计结论。
第三:与机器学习模型的关系上,两者有着本质差别
“传统数据分析”在大部分时候,知识将机器学习模型当黑盒工具来辅助分析数据。而“大数据分析”,更多时候是两者的紧密结合,大数据分析产出的不仅是一份分析效果测评,后续基于此来升级产品。在大数据分析的场景中,数据分析往往是数据加墨的前奏,数据建模是数据分析的成果。