都说如今是互联网大数据时代,很多事情都是可用大数据来解释的。与之相对应的还有数据库和数据仓库也出现在大众面前。这不免让很多不了解的人有些晕。那么数据库与数据仓库和大数据是什么关系?有的人说数据库就是储藏大数据的地方呗,其实这只是其中的一部分,并不是全面的介绍,下面我们就来详细了解一下三者之间的关系。
数据处理的起源
人类的发展,离不开数据的处理。最早的数据处理方式是什么?可能是结绳记事——这种古老的数据处理方式,包含了现代计算机拥有的数据存储、查询、分析等全部功能。
这个方法貌似可以,但是数据量稍微大一点的话……
后来,人类创造出了文字后,数据处理能力就大多了。一个典型的“应用”是,从旧石器时代开始,人们就通过甲骨文进行记账。
到新石器时代中晚期,母系氏族社会经济高度发展,人们开始创造并广泛采用成套的刻划符号进行记录、计量。
数据库的诞生
现代数据处理革命性的进展,要等到1960年。为了解决零件管理问题。一款叫做ICS的软件被研发出来了,专门用来管理这些零件信息。
后来以此为基础诞生了大名鼎鼎的IMS(Information Management System)数据库。这是现代数据库的祖先。
如何理解数据库呢
可以把它想象为加强版的EXCEL,在一个表格中记录数据。例如学生的成绩单,记录有姓名、学科、成绩信息。想要查询下学生的平均成绩,只需要按顺序遍历这个表格,加和取平均数。
如果学生很多,对于EXCEL来说那就比较麻烦,但对于数据库来说则比较简单,可使用一种叫SQL的语言,通过描述性的交互取得数据,非常方便。
数据仓库的诞生
数据库的诞生,很好地解决了保存、使用数据的问题,大量类似的产品涌现出来。
但到了上世纪70、80年代,企业管理的内部数据发生了一些变化,一方面数据量越来越大,另一方面使用复杂度提高很多。各种复杂报表令人非常头疼,要在其中挖掘出数据背后的价值,当时的数据库已经跟不上需求。
于是,专门用于数据分析的数据库诞生了——1988年数据仓库(Data Warehouse)的概念第一次被提出了。
数据仓库之于数据库就如同F1跑车与普通轿车的区别。
普通轿车突出功能性、舒适性、安全性等等,可满足通用化的全面需求;而F1跑车则强调极致性能,而牺牲了舒适性等。数据仓库就是针对数据分析类场景,有特殊定制优化的产品。
大数据的冲击
到了上世纪90年代,随着互联网的兴起,数据量爆炸式增长,数据处理规模已经从MB(1首MP3)、发展到TB(20万首歌)乃至EB级(2亿首歌)的惊人规模。
此外,数据处理还产生了实时性等新要求,基于传统架构的数据仓库也面临巨大挑战。
就在这个时候,大数据概念被首次提出了,拉开了“大数据”时代的大幕。原来令人困扰的问题,似乎一夜之间找到答案。
不同于今天大家耳熟能详的大数据,这里的大数据可以理解为一种数据处理技术,简单说,就是在单台计算机简单计算的基础上,通过堆积计算机这样的线性扩展方式来处理数据。
数据库和数据仓库当时处理不了的海量数据,在这种分布式处理思路下迎刃而解,数据库几十年的积累,一夜之间被大数据吊打。
回归数据库
然而,大数据的狂野架构,从诞生之日起就决定其短板:分布式的方式固然很方便扩展,但是,作为大数据技术的基本单元,单机技术设计很粗糙,因此很快暴露出计算效率不高、精确性、准确度不足等问题。
而大数据技术的短板,正式数据库的强项。
事实上,后来大数据体系中引入SQL、MPP引擎、列存等等,正是吸取了数据库几十年来积累的一点点精华。但是大数据技术的基础过于野蛮,因此很难改进。
而此时,因为分布式协议的成熟,为数据库解决此前无力承受的海量数据、多模异构等问题提供了技术方案。数据库的春天,又回来了!
通过上述介绍,我们知道数据库与数据仓库和大数据是什么关系了吧,想了解更多关于数据库的信息,请继续关注。