咱们每天都能听到有人说“大数据”,可是大数据究竟是什么,又代表着怎样的开展趋势,形似有不少人会有这样的误解:
其实不然,大数据并不是数据越多越好,数据也有好坏之分,只要发掘出数据背后的联系和价值,才是真实的大数据之道。另外,是否需求做大数据是由公司事务决定的,并不是小公司就与大数据没联系。而 Hadoop 绝对不等于大数据,尽管 Hadoop 现已成为大数据范畴的标准东西,但该范畴还存在许多其他类型的处理系统。
之所以咱们对大数据有各种各样的误解,首要是因为大数据本身是一个很杂乱的系统。作为一个火热概念,许多人在宣讲自己的成果时都把“大数据”挂在嘴边,以至于许多公司认为只需搭建起大数据系统,一股脑地把数据收集起来,就能够提升公司的成绩,发现新的商机。
大数据系统能够得到广泛应用,首要得益于以下两方面的开展。
1997 年,我拿到的第一台电脑内存只要 16 MB,硬盘只要 2 GB。放现在来看,这样的装备便是一个“笑话”,但在其时,这现已算是一个中等偏上的个人电脑装备了。而便是这样一台电脑,在那个年代竟然要花 7000 元,这个价格在今天随随便便都能够配一个 16 GB 内存、2 TB 硬盘的机器,内存和硬盘的容量增加了 1000 倍!更甭说,尽管都是 7000 元,可是二十多年前一元钱的购买力是显着超过现在的。
我记得其时用电脑玩《三国群英传》的游戏,100+ MB 的存储大小还需求我对硬盘各种整理才能有空间包容,而现在一个游戏动辄几十个 GB,咱们的电脑存储起来都不在话下。
可见,咱们的数据存储本钱比起二十多年前现已极低极低了。
也正是这样,在气候相关的数据收集上,不再是只能保存重要数据,而是能够保存更多更完好的数据,到需求用到的时分,就能够取出来进行发掘剖析。
当然,除了存储以外,核算功能、网络带宽,这些年都在快速地开展,这些都为大数据的运算处理以及大数据集群的构建供给了有力的硬件支撑,在这方面我想你也有十分深刻的感受。
在硬件开展利好的基础上,数据出产的方式也随之产生了巨大的改动。
随着网络、手机、电脑等设备的普及,越来越多的人成了内容的出产者,也便是咱们现在所说的自媒体。微信公众号、今天头条,以及今天盛极一时的抖音、快手,都是依靠大家自发地去制作和上传内容,在这些平台上,每天发布的内容数量要以千万甚至亿级来进行核算。
在咱们的生活中,除了这种主观发明的内容数据,被迫数据的出产则愈加敏捷:
这些数据的出产是连绵不断的,所以,每天都会有很多的数据产生而且被存储下来。
基于以上两方面的开展,大数据系统才得以广泛应用,从中咱们不难看出大数据的一些特征。
同样如果在网上搜索“大数据”,或许大家对它的定义不尽相同,但总体而言,都有着一些共同的特征。这些特征不外乎 4 点:数量多(Volume)、品种多(Variety)、速度快(Velocity)及数据价值(Value)。
要说大数据数量多,这是无可争议的。正如咱们上面所说的,硬件的开展及数据出产方式的改变,使得数据的数量急剧胀大。使本来散落的信息变得连贯起来,并不停地出产,不停地交换。有一种说法是,最近两年所产生的数据量与过去人类产生的数据总量根本一致,而且在接下来的一段时间里,仍将持续坚持这样快速的增长速度。
现在的数据不再局限于一些精细的数字,你写的一段话、拍下的一张相片、录制的一段音频或许视频,都是大数据的组成部分。这些首要源于咱们的视觉、听觉,在不久的将来,咱们的触觉、味觉、嗅觉等数据也会进入机器获取的范畴,然后构成完好的数据获取系统。
在大数据的布景下,一切环节都变得更快了。这里的高速不单单指数据的出产速度,还有数据的交换速度、处理速度等。比方,当你在京东商城阅读商品的时分,你的每一次点击都会以毫秒级的时延传输到服务器上,而服务器集群又会根据你的这些行为,敏捷地为你引荐出新的商品,在你下一秒的阅读内容中展现出来。明显,如果这个过程太慢,或许还没等后台的数据核算完结,你就现已关掉了京东转头去了淘宝,那岂不是会损失客户?所以,高速也是大数据系统一向不懈寻求的方针。
咱们拥有了很多数据,一定是希望这些数据能给咱们带来一些价值。明显,大数据是有价值的,可是大数据价值有一个特色——价值密度低。
比方,风险品出产车间的监控摄像头在 24 小时不间断地记载并回传着数据,可是这些数据通常都是毫无改变的,它日复一日地记载着,每隔一段时间就需求删去一些,以便腾出存储空间。当出现异常的时分,比方说在视频中发现了高温点,或许是车间中存在火苗,这个时分需求当即调用消防系统对火苗进行扑灭,然后防止风险产生。像这种存在价值的数据或许仅仅摄像头记载的一个细小片段,所以说数据的价值密度较低。
以上便是大数据的一些重要特点。也便是说,符合这些特征的数据,咱们根本能够认为是“大数据”。
林林总总的数据出产方式都需求咱们配备完好的数据收集方案,譬如你想要在 App 上收集用户的行为信息,就需求进行各种数据埋点。
尽管说存储的硬件本钱降低了,可是终归还是有本钱的,同时数据也不或许杂乱无章地堆放在存储设备上,所以对应的数据库和文件存储方案,需求经过精细的规划来支撑这种巨量的数据存取。
现在干流的便是批处理和流处理两种方式,而针对这些方式,又有多种核算框架被研制出来,比方当前应用广泛的 Spark、Flink 等。
鉴于很多的数据和低密度的价值,咱们希望能够运用一些奇妙的方案,从中找到那些有用的信息甚至是定论,所以各种算法与东西层出不穷。
从数据中发掘到的有价值的信息正在咱们的身边发挥着巨大的经济价值,内容引荐、气候猜测,甚至疫情控制,都是在大数据的指导之下进行的。
大数据有着重要的价值,而这些数据一旦泄露也会成为不法分子损害咱们权益的辅佐。所以,如何保障数据安全也是一个重要的问题。