自从以330亿美元的首次公开募股以来,云数据仓库slinger Snowflake吸引了大量投资者的兴趣。它承诺将支持非结构化数据,数据云内的ETL以及数据市场的合作伙伴。
雪花(Snowflake)的数据云于6月推出,旨在将企业数据整合到一个位置进行分析和治理,尽管自1980年代诞生以来,这一直是数据仓库的目标。
尽管如此,成立于2012年的雪花公司表示,它将为其数据云带来一种新的“开发者体验”,这种体验可以在公共超级云计算AWS、Azure和GCP上使用。这意味着它允许数据工程师、数据科学家和开发人员在雪花环境中构建ETL/ELT、数据准备和特性工程,而不是使用第三方工具。
雪花公司因其为云重建的数据仓库而闻名。它将存储和计算分开,允许用户创建虚拟仓库作为MPP计算集群,由雪花从云提供商那里分配的多个计算节点组成。但是核心数据库是关系型的,就像数据仓库的忠实拥护者Teradata、ibmnetezza和Oracle一样,它是为结构化数据而设计的。
本周,Snowflake宣布支持非结构化数据,如音频、视频、pdf和图像。它没有说这是通过支持次要的NoSQL数据库技术还是通过RDBMS来实现的,正如Oracle说的那样。它尚未对媒体关于这一点的更多细节的要求作出回应。
该公司还将数据服务添加到雪花数据市场。市场的目的是让第三方数据更容易进入分析环境,因为这一切都在雪花的架构中。Snowflake表示,新功能是允许第三方服务提供商通过运行风险评估,通过行为评分增加数据集,或者在不移动数据的情况下简单地外包更高级的分析来丰富数据。
Bloor research的研究总监菲利普•霍华德表示,雪花并不是唯一一家将数据连接集成到数据仓库中的公司。他质疑,对于已经围绕雪花公司建立业务的数据集成供应商,如Fivetran和Matillion,这将意味着什么。他还询问数据工程师是希望编写代码,还是更喜欢无代码环境。
霍华德说,向数据云添加服务提供商可能对那些想要丰富内容(如地址验证)的人有用,但他怀疑用户是否有兴趣将他们的分析外包到环境中。
他说:“这可能很有价值,但有多少人会把他们的预测分析外包出去?我并不知道。”
霍华德说,雪花对非结构化数据的支持可能有利于那些希望在混合环境中实现轻量级工作负载的用户,但视频分析的重度用户可能需要更专业的东西。
在这方面,雪花也并非独一无二。就在上周,Databricks承诺在其数据湖环境中支持结构化SQL工作负载。早在2012年,Teradata就已经通过集成Hadoop在其Aster分析环境中提供对非结构化数据的支持。