11月2日消息,Datameer宣布推出一个突破性的平台--Datameer Spotlight,该平台颠覆了传统的中央数据仓库模式,使企业能够在任何环境下以极低的成本跨数据孤岛大规模运行分析。今天利用数据进行分析的方法在近三十年来基本没有改变。企业将所有的企业数据以管道的方式输入到一个集中式的数据仓库或数据湖中,这是一个昂贵、耗时的过程。
尽管一个又一个公司在这种难以捉摸的数据集中化追求上失败,让员工无法轻松找到和访问与他们需求相关的数据,但Oracle、Teradata和Informatica等公司,以及后来的AWS、Google Cloud、Azure、Snowflake、Talend和Fivetran等公司,都在这种三十年的模式下茁壮成长。
推广单一真相来源的愿景,提供360度的客户视图,厂商们一直在竞争使用他们的工具在数据中心存储你的数据副本。虽然云数据仓库的出现为企业带来了增量的改进,使他们无需为企业内部多余的存储和计算进行规划,但它并没有改变 "重复和集中存储数据 "的基本模式--尽管这种方法是笨重的、昂贵的,并使企业难以利用其数据的全部价值。
昂贵与浪费
数据复制不是免费的。无论是在企业内部还是在云端,数据复制都需要存储、工具以及高技能、高专业的数据工程师来编码和维护复杂的ETL脚本。不幸的是,根据Dice的统计,数据工程师的需求量增长了50%,薪资同比增长了10%。
这也对环境产生了不可忽视的影响:根据IDC的数据,在过去的十年里,已经建成了近1000万个数据中心。现在,数据中心的碳足迹与流行前整个航空业的碳足迹相同。
冗长和笨重
企业用户需要即时访问数据以做出实时的业务决策。当前用于移动数据的批处理ETL流程并不能给用户提供他们所需的即时访问。更糟糕的是,最初建立一个数据管道需要几天、几周,有时甚至几个月。数据管道的规范也可能在业务领域专家和构建数据管道的数据工程师之间的翻译中丢失,使事情更加复杂。
更重要的是,业务用户并不总是知道他们要对数据进行什么样的转换、清洗和操作,不得不与数据工程师来回奔波,这使得发现过程非常繁琐。Hadoop的设计就是为了解决这个问题,用schema on read来解决。但技术的复杂性加上仍然单一的数据湖模型,注定了这个生态系统。
治理与安全风险
通过数据管道复制数据会带来自身的监管、合规和安全风险。集中式数据方法给IT团队带来了更严格控制和数据治理的错觉。然而,这种方法却适得其反。由于数据集永远不能完全满足业务需求,不同的团队开始建立自己的数据集市,而这些数据集市的扩散只会加剧数据治理问题。
沉没成本与劣币驱逐良币
多年来,各组织为建立自己版本的企业数据仓库进行了大量投资。而尽管这些项目没有达到他们的承诺,但组织一直在犯经济学家所说的沉没成本谬误,他们向这些项目投入更多的资金,试图解决这些问题,例如,招聘更专业的工程师和购买更多的工具,而不是寻找其他的方法,重新开始。
例如,企业会将部分数据转移到AWS、Azure、Google或Snowflake的云端,承诺更快、更便宜、更方便用户分析。迁移项目很少能100%成功,而且往往会导致数据架构更加零散,使得在混合云或多云环境中执行分析变得更加困难。例如,企业可能会购买Alteryx,以使领域专家能够在笔记本电脑上本地转换数据,从而导致更多的数据混乱和无治理数据集的扩散。之后,他们会购买一个数据目录,对这些数据进行索引,帮助业务用户找到这些数据。除此之外,IT团队还会想投资一些工具,增加一层治理,让人安心。数据堆栈最终往往会像温彻斯特神秘屋一样被扔在一起,成为企业的一个钱坑。
尽管有这些巨大的投资:
60%的高管对他们的数据和分析见解不是很自信(Forrester)
73%的业务用户分析时间仍然花在搜索,访问和准备数据(IDC)上
企业中超过60%的数据未用于分析(Forrester)
Datameer通过其最新产品Datameer Spotlight解决了这些数据难题, Datameer Spotlight是 一个虚拟语义层,包含分布式数据模型(也称为数据网格)。
Datameer Spotlight拥有200多个连接器并在不断计数,为业务最终用户提供对任何类型的本地或云数据源(包括数据仓库,数据湖和任何应用程序)的虚拟访问,并允许他们组合并创建特定的新虚拟数据集通过可视界面(或高级用户的SQL代码编辑器)满足他们的需求,而无需数据复制。数据留在源头上。这种 新方法 可解决以下问题:
数据治理: 数据保留在源头,不需要数据复制。
成本: 不需要ETL工具,中央数据仓库,数据编目,数据准备工具,数据工程或数据与最终用户之间的中间人,该解决方案的成本仅为传统方法的一小部分。
速度和敏捷性: 将Datameer Spotlight连接到新数据源所需的时间与将凭据输入该数据源所花费的时间一样多。连接后,业务用户只需单击几下即可在数据源之间创建新的数据集。
数据可发现性: 它通过索引每个数据源的元数据并创建可搜索的资产清单来虚拟化您的数据格局,这些资产可被分析师和数据科学家轻松地开采-所有这些都无需移动任何数据。