如今的企业正在使用新技术来 存储 和管理他们的数据。对于金融部门、电信、广告和零售行业,以及政府机构来说,从各种来源收集信息并将其转化为实际成果是最重要的。
可以在 数据库 层面实施只是流程的一个要素,但其影响非常重要,因为组织可以存储和管理数据的方式差别很大。
首先,区分不同类型的数据库管理系统(DBMS)是很重要的。
NoSQL是未来
根据定义,诞生于20世纪70年代的结构化查询语言(SQL)数据库以标准化代码进行查询。大多数传统的DBMS都基于SQL,并遵循关系模型,这意味着它们在查询规范中的结构化非常高。
更重要的是,到目前为止,大多数数据库都被集中、存储和维护在一个单一的位置,通常是桌面服务器或大型机。
SQL数据库最流行的例子之一是MySQL,这是一个开源的关系型数据库管理系统实现,于1995年开发,并在互联网巨头中广泛采用。
最近,人们已经看到了NoSQL模型的出现,这些数据库是非关系数据库,这意味着它们的结构可以支持数据集之间的多对多关系,并且可以在不需要硬件升级的情况下进行扩展。
与此同时,越来越多的企业转向采用分布式方法,这使得他们可以在多个地理独立的位置运行复制的数据库。
现代数据库必须是可扩展的、分散的,并且允许不同数据类型的聚合。因此,关系数据库已经失去了一些吸引力,并且NoSQL数据库已经从行业的边缘涌现出来,在市场中占有重要的份额。
事实上,根据Allied Market Research公司的调查数据,到2020年,NoSQL市场预计价值为42亿美元。在过去的十年里,这些数据库的涌入已经取代了传统的引擎,对新的运营模式做出了回应。其流行的例子包括MongoDB、Redis、HBase、MarkLogic和Cassandra。
如今,企业收集的数据比以往任何时候都要多,因此速度是数据库管理系统提供商需要改进的另一个特点。出于这个原因,另一个背离传统的情况是内存数据库的使用迅速增加。
内存数据库管理系统的出现
而在以前,磁盘基础架构需要单独的数据仓库( Te radata、Informa ti ca、Redsh if t)和运行数据库(Hadoop、Cloudera)之间的交互以及内存,因此可以将分析、 机器学习 、人工智能和操作合并为一个地方。
通过完全依赖系统内存,可以消除对磁盘 I/O 查询或更新数据的需求,并且不再需要额外的缓存副本。
内存数据库的主要缺点是它们历来受限于内存的高成本。随着内存价格的下降,内存数据库的普及度越来越高,实时分析的期望也越来越普遍。
内存系统的速度比基于磁盘的数据库管理系统快10到100倍(相差几毫秒),因此可以解决物联网数据分析、 自动驾驶 汽车、现代零售平台、交易处理和欺诈检测等问题。
事实上,根据研究机构Markets and Markets公司的报告,2018年内存市场的市场规模可能达到132.3亿美元。传统上使用磁盘的大型公司已经开发了自己的内存系统,其中包括甲骨文、微软和SAP公司。
一些数据库管理系统(DBMS)都有不同的数据库技术方法。Aeros pi ke公司的闪存优化NoSQL数据库成立于2009年,采用混合内存架构(结合内存和SSD硬盘)直接连接到应用程序数据库,并承诺提供低延迟的应用程序规模。出于不同的原因,开源关键值存储系统被设计成提供一种解决延迟关键应用的解决方案,无论是在实时事务处理和实时分析(通常依赖于不同的数据库)。
Aer osp ike公司联合创始人兼首席技术官Brian Bulkowski解释说,两者之间的主要区别之一是交易需要书写和读取的平衡,而分析往往是读取密集型的。
Aerospike公司联合创始人兼首席发展官Srini Srinivasan补充说,企业倾向于使用不同的技术来处理客户数据、预订和财务风险,其中一致性和准确性是关键,例如实时出价、网络安全和欺诈检测,其中性能和可用性是重中之重。
Aerospike公司表示,通过有效替换缓存层,并结合使用固态硬盘和内存,可确保低延迟和高吞吐量。更重要的是,其集群功能也可以满足分布式应用的需求。
为了改善磁盘I/O,Aerospike公司将索引放置在内存中而不是SSD硬盘上。它通过在同一节点上同步用户和索引数据来优化网络,以避免它们之间的过度跳跃,自动执行客户端请求的路由,并自动平衡工作负载。最后,它提供跨多个SSD硬盘的多线程和并行处理,以促进扩展。
对于Bulkowski而言,该公司的任务是将互联网巨头所使用的专有技术,他坚持认为与Aerospike公司的产品类似,用于实时 大数据 应用。
速度和规模是基于Foster-city公司的GridG ai n共享的两个优先事项,其内存中软件可以位于应用程序和数据库(或数据湖)之间,也可以作为内存中的SQL数据库部署。
GridGain是为支持事务和分析应用程序而构建的,它基于Foster-city公司创建的Apache Ignite开源项目(并且仍然是其主要贡献者)。像Aerospike公司一样,它消除了将操作与分析和机器学习功能分开的需求,弥补了数据仓库和操作数据库之间的差距。
因此,该公司总裁兼首席执行官Abe Kleinfeld解释说,该系统没有数据集成和反馈回路交互。所有功能都保存在统一的内存数据存储中,并且该平台具有统一的API,这意味着它可以汇集不同格式和结构的数据。
内存系统在金融服务领域非常流行,在过去一年Aerospike公司的收入翻了一番,拥有ING、SociétéGénérale、苹果、 华为 、微软等客户。
GridGain最大的项目是俄罗斯联邦储蓄银行委托开发的2150 Teraflop集群,总计采用56000个 CPU 和1536TB内存。
Aerospike和GridGain都专注于“扩展”方法,增加节点数量以提高数据库性能。
GPU 加速数据库
MapD选择改善每个单独节点的性能,而采用开源内存数据库,每个服务器上运行1到16个GPU。
这是一个希望实现可视化并与数据实时交互而产生的MapD的产品,它有两个并行推出的产品:GPU加速的SQL数据库MapD Core,以及基于Web的视觉分析平台MapD Imme rs e,它位于SQL引擎之上,可以在单个压缩映像中呈现数十亿条数据记录。该引擎不需要预先索引或预先聚合:所有事情都是实时完成的,而且可能超过数十亿行数据记录。
MapD公司首席执行官兼联合创始人Todd Mostak表示,受限于结构化数据,MapD Core不像其他一些NoSQL产品具有那样多的功能,它不能取代数据仓库。
“我们就像存储记录中的热门缓存。这可能会将数据从数据湖或Hadoop系统中提取出来,也会将数据从Teradata等传统数据仓库中提取出来。企业可以选择第三方商业智能工具,我们推出了一个很好的符合DBI标准的 Python 连接器 ,当然,我们的许多客户都使用MapD Immerse。尽管它不如Tableau功能完整,但它可以通过SQL和呈现功能非常灵活地探索非常大的数据集。”
该系统可用于模型生成中的欺诈、风险和异常检测,地理分析和网络安全,实时车队管理和激励型保险。
2014年,MapD公司获得了芯片 制造 商Nvidia公司所颁发的10万美元初期挑战奖励,该奖项每年颁发给利用GPU的最佳创业公司,Nvidia公司随后参与了MapD公司的三轮融资。
MapD公司最近推出了一种软件即服务(SaaS)产品,它在NVIDIA GPU上运行于行业领先的云计算基础设施提供商的数据中心,并提供自动配置、优化、支持和升级等服务。
MapD最近与其合作伙伴Con TI nuum Analy TI cs和H2O.ai合作成立了GPU Open Analy TI cs Ini TI ative(GOAI),以将其平台与其他基于GPU的项目相集成。
该联盟的希望从GPU原生数据格式和API的框架开始,结合使用基于GPU的分析工具。
“这种工具组合的想法是都在GPU上运行,所以可以有一个零拷贝框架,这样我们就可以无缝地通过这些不同的进程传递数据,而无需再次封送或采用CPU的资源。”Mostak解释说。
责任编辑:ct