当前位置:资讯攻略 > IT资讯 > 大数据时代:究竟什么是大数据

大数据时代:究竟什么是大数据

2019-01-19 17:32:15 IT资讯

这几年每到年末,手机上一堆App就会为你推送各种年度总结回顾,小编也和大家一样,什么网易云音乐的年度总结啊、支付宝年度账单等等,看得不亦乐乎。

人嘛,对自我总是有着本能的关注,但尼采又说,“离每个人最远的,就是他自己”,说明自我认知是一件困难的事情。

不过在互联网科技发达的今天,我们有了认识自己的新途径:数据,大数据。实际上互联网厂商们争相做的年度总结,就是大数据帮你认识自己的例子之一。

然而乐此不疲地刷着各种年度总结H5的时候,小编又产生了一些新的思考:这些总结真的准确吗?未必,甚至有时候偏差很大。

大数据时代:究竟什么是大数据
 

例如网易云音乐的总结中,小编在2018年的某天将某首歌连续听了50多次,从这条记录应该能得出一个直接的结论:小编很喜欢这首歌,但其实小编那天单曲循环这首歌时,人在忙别的,根本没在听歌;例如还是网易云音乐总结, 小编2018年最喜欢的十首歌有七首都是小编不怎么听的,因为小编更喜欢将喜爱的歌下载到本地,也经常会用手机自带播放器听;再如支付宝年度账单,2018年的总结 小编觉得是比较符合自己的估判的,但记得自己2017年看到账单时是有些懵的,全年总消费那一栏里,自己当年压根没那么多收入啊,记得当时网上也有很多网友如此反映。

当然,小编说这些并不是否定年度总结存在的意义,只是由此产生了一些思考:大数据的时代,真的能够通过数据准确定义个人或者群体吗?人是很复杂的动物,记得在哪里看过一句话:“事情可以计算准确,但人是很难计算的”,而大数据应用,最核心的还是统计人的行为,这似乎成为悖论。

如今大数据的重要性被推到很高的高度,已然成为未来大趋势,商业、医疗、教育等各行各业在进行越来越深刻的数据化改造,将来我们各种决策都需要大数据的指引。但人,如何不被大数据支配,这是又是一个新的问题。

二、大数据究竟是什么?

我们首先要清楚认识大数据,理解它的意义。

百度百科上的解释是:

大数据指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

这段解释涵盖了大数据的三个特点:海量、高速变化、多样化,从中可以衍生出另外两个特点:因为海量,所以是低价值密度的;因为海量、高速变化且多样化,所以也是具有真实性的。总结起来就是五个特点:海量、高速变化、多样化、低价值密度、真实。当然,这不是 小编总结的,是行业的普遍共识~

大数据时代:究竟什么是大数据

▲图片来源Wikimedia Commons

但怎么理解这五个特点呢?其实小编只需说一个例子就可以讲通这五个特点,即对比传统的统计调查数据。在传统统计学中,因为过去我们收集数据处理数据的能力有限,不可能把所有数据都收集到,所以很强调数据样本,样本量的大小、丰富度,以及是否随机,都影响统计分析的结果。通过数据样本,分析数据相关性的规律,总结出一定的理论、模型,这是我们以前做的事情。

而大数据,则是反其道行之,它要的不是样本,而是追求所有的数据,所有的数据相信大家都懂的,这是多么庞大,而且是源源不断产生的,每个人做不同的行为,都会产生不同的数据,所以也是多样的,因为没有样本,它的价值稀疏,毕竟不是每个人做得每件事产生的每个数据都是有价值的,但是它很真实,而样本和现实之间,永远存在误差。

大数据的思路之所以能够实现,是因为在互联网科技强大的今天,我们有能力去收集如此海量的数据,也有能力去处理、分析它们。通过一个大数据的逻辑图,大家可以更好地理解它:

大数据时代:究竟什么是大数据

总体来说,大数据的体系逻辑包含数据收集、数据存储、资源管理和服务协调、计算引擎和数据分析这五个层次。

数据收集,主要通过互联网数据抓取和客户端、终端推送,例如你在电商网站购买东西,使用手环运动的数据也会上送到数据中心,它的特点是分布式,多样化,源源不断地产生,并且是异构的,即有很多数据源;

因为收集的数据有这些特性,所以对于数据存储,要求具有可扩展性,容错能力高,并且支持多种存储模型,这甚至体现在数据库设计这种最要求精确的领域,传统的关系型数据库(如MySQL)和文件系统就比较难适应大数据时代的要求;

资源管理和服务协调,这里涉及到应用的部署,大数据时代,需要将应用部署在公共集群中,这样才能提高资源利用率和实现数据的快速共享,否则那么多数据对应独立的服务器,要被拖死;

计算引擎和数据分析同理,数据量的极大丰富让应用场景也越来越繁杂,计算引擎越来越多样且专注,数据的分析同样也需要分布式计算方法。

总的来说,大数据从技术上来说就是因为数据量实在是太大了,无论是数据的收集、存储还是处理都需要很多机器一起做,这个过程,不得不提的就是云计算。

所谓云计算,小编总结就是将庞大集群的虚拟化电脑进行统一调度的能力,它天然满足大数据的需求,所以云计算是释放浩瀚大数据价值的驱动力,两者如同共生,为了不跑题,这里就不进一步讲了。

三、只求相关,不问因果

大数据能成为未来的趋势,有两个条件,一是具备颠覆性,二是正面意义大于负面意义。那么大数据颠覆了什么?

英国牛津大学教授、数据科学家维克托·迈尔·舍恩伯格在他的《大数据时代》这本书中,将大数据的颠覆性凝练为三条:

  • 首先,要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本。

  • 其次,我们乐于接受数据的纷繁复杂,而不再追求精确性。

  • 最后,我们的思想发生了转变,不再探求难以捉摸的因果关系,转而关注事物的相关关系。

从上面 小编的介绍相信你能总结出,大数据带来的各种改变,归根结底在于其数量实在庞大多样,它要的不是样本,而是所有数据,这就造成它必然混杂,难以追求精确性,在大数据里,混乱不是缺点,而是一种必要,这已经是颠覆人的正常思维了;

再往下,以往我们需要样本,总是需要在样本数据中找到一些既定的因果关系,然后提炼成理论,从样本到整体,然后总结成方法,这是我们做事的基本逻辑,而在大数据时代,你不需要这样了,因为我们有足够多的数据,我们要做的事情是找到目标数据之间的相关关系,然后发现趋势,大数据会告诉我们接下来该干什么,而我们,不需要问为什么,负责决策就行了,不要小看这个转变,它说明我们认识世界方式的改变。

2003年,美国计算机专家奥伦·艾奇奥尼(Oren Etzioni)乘坐飞机,和乘客的交谈中发现自己的机票买贵了,内心一万头草泥马奔腾而过后,他萌生了一个想法:能不能有一个工具能够预测机票的波动趋势,帮大家省钱?说干就干,然后他就真的创立了一个系统:通过从旅游网站爬取41天内的12000个价格样本,来判断机票的未来走势,这个小项目后来发展成为科技创业公司Farecast并被必应收购。在后来的系统中,Farecast基于美国一个行业的机票预订数据库,跟踪每一条航线每一架飞机每一个作为一年内的票价记录,从而判断机票价格变动的趋势,然后这个系统大获成功,还被用到其他领域。

大数据时代:究竟什么是大数据

▲奥伦·艾奇奥尼,图片来源:Wikimedia Commons

这是大数据应用的一个经典案例,在这个案例中,奥伦·艾奇奥尼明确表示,他不需要弄清楚机票价格波动和时间或者其他因素之间的因果关系,只是要从所有的数据中分析出规律,然后给出可能的结果。你不要问为什么,只需要知道机票接下来会涨还是会跌就行了。

还有一些例子,如沃尔玛在上世纪九十年代就开始进行将产品记录为数据的工程,2004年,他们对这个庞大的数据库进行观察,发现每当季节性飓风来临,不仅飓风用品销量增加,POP-Tarts蛋挞的销量也随之增加,所以他们把飓风用品和蛋挞放在一起,在这个例子中,你同样不用知道人们买飓风用品的同时为什么还喜欢买蛋挞而不是其他,你只需要发现这个现象,然后做决策就行,而且海量的大数据,能够为这个趋势的准确性提供一定的保证。

还有德国通过手机家庭太阳能用电的海量数据预测未来2-3个月智能电网需要的电量来降低成本;丹麦的维斯塔斯风能系统通过研究风力和天气、湍流度等数据以及全球数万个受控涡轮机组传感器数据,来判断涡轮发电机设置的位置,从而提高能源产出的效率和数量等等。

上面这些案例中,大家都不需要考虑事物之间的因果关系,不需要研究背后的原理,不需要建立模型,只需要对海量的庞大数据做分析。 小编认为,这是大数据最大的颠覆性,如果我们的思维不转变,最终会被大数据时代抛弃。

四、争议

谷歌研发总监曾Peter Norvig在2011年的一次讲话中表示,“我们没有更好的算法,我们仅仅是有更多的数据”,后来他在一次对自己言论澄清的文章中说:

如果模型无论如何都有可能出错,为什么不看看你是否能让计算机从数据中快速地学习模型,而不是让一个人费力地从许多思想中推导模型?

这应该是对大数据很直接的解释了。

大数据时代:究竟什么是大数据

▲谷歌研发总监曾Peter Norvig,图片来源:Flickr

比这个更为激进的是《连线》杂志主编克里斯·安德森(Chris Andersen),他在2008年就说过“数据爆炸使科学的方法都落伍了”,后来,他又在《The Petabyte Age》这篇文章中提出了“理论的终结”的观点,说

现在已经是一个有海量数据的时代,应用数学已经取代了其他所有的学科工具,而且只要数据足够,就能说明问题。

大数据时代:究竟什么是大数据

▲克里斯·安德森,图片来源Wikimedia Commons

安德森的这篇文章当时引起了很大的争议,数据取代理论,这听起来的确有些荒谬。在《大数据时代》中,舍恩伯格对这个观点进行了辩驳,他表示大数据从来不会叫嚣“理论已死”,相反,大数据的方方面面也被理论影响着。例如在数据分析的时候,我们也需要理论的支持。

相关下载
更多+
相关专题
更多+