四个特征带你了解大数据的定义
大数据是当前较为火爆的一个词汇,究竟什么是大数据、大数据的概念是怎样的?大数据有哪些特质,大数据有哪些技术方面的要求,大数据对当前社会产生了哪些重要的影响?
国内知名大数据专家、中科院计算所博士、职品汇创始人龚才春博士对此做了详尽的分析,他指出:“从常规定义来讲,大数据就是大小超出常规数据库工具获取、存储、管理和分析能力的数据库,并且也强调,不是说一定要超过特定TB的数据集才是大数据。这个定义并没有诠释什么是常规的数据库工具,也没有诠释大数据与数据量的关系,是一个比较原始的大数据定义。”
而国际数据公司(International Data CorporaTIon,简称IDC)则从四个特征定义大数据:数据规模庞大(Volume)、数据更新频繁(Velocity)、数据类型多样(Variety)和数据价值巨大(Value)。
龚博士认为,在上述四大定义的基础上,一般偏向于再加上数据处理复杂(Complexity),构成相对完整的大数据的定义,这就是大家耳熟能详的4V+1C。
1.数据规模庞大(Volume)
当数据规模很小时,属于传统的“小数据”时代的问题,已有非常成熟的数据存储、计算、分析、呈现方案,数据模型也有非常多的研究。大数据必须是规模异常庞大的数据,只有当规模庞大时候,才有新的研究价值。
前面已经提到,大数据的大,不是说一定要超过特定TB的数据集才是大数据。由于计算能力、存储能力、分析能力的有限,现在看起来很简单的问题,在历史上可能都是大数据的问题。辽沈战役中,司令员林彪对战报要求很细,包括每支部队歼敌多少、俘虏多少;缴获的火炮、车辆多少;枪支、物资多少……一天深夜,值班参谋正读着一份某师上报的战斗缴获报告,那是该师的下属部队偶然碰上的一个不大的遭遇战,他们歼灭了一部分敌人,缴获了一些战利品,敌人余部逃走。林彪听了汇报后,立即口授命令,全力追击从胡家窝棚逃走的那股敌人,一定要把它彻底打掉。果然活捉了国民党新编第六军军长廖耀湘。这些数据在今天看来,规模非常非常小。但在当时这已经是“大数据”了,林彪懂得分析数据,从缴获中手枪和冲锋枪的比例准确判断出敌方的指挥部在胡家窝棚,这也算是大数据分析的魅力。
2.数据更新频繁(Velocity)
我们知道摩尔定律揭示了处理器分析能力与时间的关系,也就是说,每隔18个月左右处理器的分析能力翻一番。对于一个静止的数据集,哪怕今天我们的处理器无法处理,存储器不好存储。随着技术的进步,未来可能变成非常容易处理,就像我们现在看着当年林彪分析战报一样,这些战报数据的处理今天已经变得非常非常容易了,在今天已经不算“大数据”了。
大数据技术,要求我们更多地想出“巧妙”的分析办法,提成更“优秀”的处理模型,而不能只依赖存储能力、处理水平、网络带宽等硬件设备的性能改进。所以大数据技术,对分析对象要求是频繁更新的数据集。
3.数据类型多样(Variety)
传统的关系型数据库,无论从理论上,还是在应用上都非常成熟了。关系型数据库一般保存格式固定、类型单一的数据,几十年的数据库理论、数据挖掘、数据仓库的研究,已经有相当多的研究成果。
大数据要求我们的分析对象是异构、异质的数据集,可能包括文本、音频、视频等多种形式,也可能是结构化、半结构化的或无结构的。
4.数据价值巨大(Value)
如果数据没有价值,我们就没有分析的必要。因此,大数据要求我们处理的数据集是有巨大商业价值或社会价值的。阿里巴巴愿意花巨大代价提高推荐系统的准确性,就是在于其推荐系统的准确率的提高,能大大提高平台的交易量,从而具有非常巨大的商业价值。我们在全国部署“天眼”系统,提高大数据技术在天眼系统的分量,就是因为天眼系统分析能力的一小步提升,都能在降低犯罪率、打击犯罪、保障人民群众安全、信用取证等方面都有巨大的社会价值。
在Value这个层面,我们除了要求价值巨大外,我们一般会增加一点要求,那就是价值密度极低。我们常说,大数据是一个“金矿”,金矿就包含两个方面的含义:一方面,黄金很值钱,金矿很有价值;另一方面,金矿不是金库,几万顿的矿砂,也许只有几十公斤黄金,也就是说金库的价值密度是非常低的。大数据的价值方面的含义,也要求价值密度非常低。如果数据集中每一条数据都是非常有价值的,那也就无所谓“挖掘”了,没有挖掘,大数据的意义也荡然无存了。
5.数据处理复杂(Complexity)
IDC公司的大数据只有4V的特征,我们一般偏向于增加另一个维度的要求:数据处理复杂。例如,统计中国人口的平均年龄,这个数据量是非常庞大的,有接近14亿条记录;这个数据也是动态更新的,每年都有几千万人出生,几千万死亡;这个数据集也可以是多样的,湖南的数据可以放在mysql中,湖北的数据可以在oracle中,北京的数据可能在Txt文件中,上海的数据可能在Word文档中;这个数据集和这个分析都是有价值的,但是平均到每一条数据,价值又非常有限。也就是说,这个问题是符合4V特征的,但是这个问题怎么看都“太简单”了,年龄加起来求平均即可,不能成为真正意义上的“大数据问题”。
大数据要求数据处理复杂,不能脑袋一拍就可以想出办法,不能套用现有的、成熟的数据库工具简单得到答案。
【其他定义】
除了上述主流的定义,还有人使用3S或者3I描述大数据的特征。
3S指的是:大小(Size)、速度(Speed)和结构(Structure)。
3I指的是:
(1)、定义不明确的(Ill-de.ned):多个主流的大数据定义都强调了数据规模需要超过传统方法处理数据的规模,而随着技术的进步,数据分析的效率不断提高,符合大数据定义的数据规模也会相应不断变大,因而并没有一个明确的标准。
(2)、令人生畏的(InTImidaTIng):从管理大数据到使用正确的工具获取它的价值,利用大数据的过程中充满了各种挑战。
(3)、即时的(Immediate):数据的价值会随着时间快速衰减,因此为了保证大数据的可控性,需要缩短数据搜集到获得数据洞察之间的时间,使得大数据成为真正的即时大数据,这意味着能尽快地分析数据对获得竞争优势至关重要。
大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神话它或对它保持敬畏之心,在以云计算为代表的技术创新大幕的衬托下,这些原本很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。