随着世界各地的组织据每天产生2.5艾字节的数据,组织有责任确定这些大数据中有多少是至关重要的和需要的,以及大数据的哪些部分是多余的,并且可以在被消除之前数据曾经进入企业系统。如果企业无法做到这一点,那么带宽、存储和处理功能可能会超出预算。
对于企业使用大数据进行的每个运营和分析,关键是预先定义每个业务用例,并预先确定要真正解决业务用例所需的数据量。不可避免地会有一些根本不需要的数据。称之为将数据从数据摄取过程中剔除,这是缩小透镜的孔径,数据通过透镜孔径进入数据存储库。
以下是数据镜头调整的两个不同示例:
IBM RoboRXN和分子制剂的机理
当IBM公司设计其Robo RXN项目时,该项目从全球开源社区以及其他有关产品配方的潜在分子组合的大量未经编辑的数据中获取信息,因此必须决定这些数据中有多少与他们正在从事的项目相关上。
Robo RXN项目专注于设计用于药物溶液的新分子,例如冠状病毒疫苗。这意味着,不需要白皮书、统计研究结果和其他与正在进行的分子配方项目无关的研究来源。IBM公司决定要做的是在流入大量未经编辑的数据的同时,在数据摄取过程的最前面实施人工智能(AI)。
人工智能算法提出了一个主要问题:传入数据的每个元素是否包含与项目重点相关的内容?对于与项目无关的研究,或者只是与项目有着密切的、切切的关系,人工智能消除了数据,因此从未被允许进入数据存储库。换句话说,项目数据存储库的数据透镜孔径被收紧,只承认与项目相关的数据元素。因此,数据存储和处理减少,成本也随之降低。
SETI和寻找外星生命
搜寻地外文明计划(SETI)研究所成立于1984年,其任务是寻找外星生命。这是通过监视无线电信号和来自太空的发射来确定是否存在任何重复的模式来表示来自另一种生命形式的通信而完成的。科学家和志愿者参加了SETI计划,并且不断地检查流入的大量未经编辑的无线电信号。
在这项工作中,很少有人会先假设好数据还是坏数据,因为没人能完全确定他们在寻找什么。因此,几乎没有办法“缩小”数据透镜上的光圈,必须将其保持敞开。这导致高水平的处理、存储和人工工作。
该研究所能够做的是,在全面搜索可能表明智能生命形式的潜在信号之后,缩小数据范围。此时,仅需要将具有生命潜力的信号存储在小得多的数据库中。
SETI和IBM RoboRXN的经验教训
IBM RoboRXN和SETI寻找外星生命的例子位于数据镜头光谱的两端。在IBM公司的情况下,可以缩小流程前端的数据镜头光圈。SETI并非如此。
这些用例告诉数据科学家和IT部门,如果企业拥有足够紧凑的用例,而又没有最初要求将数据视为潜在数据的潜力,则有可能在预处理阶段减少大数据摄取。而在其他情况下,收紧数据摄取的能力有限。
每个大数据项目的目标应该是包含一个任务行,以解决需要为输入数据设置数据透镜孔径的宽度。可以根据每个用例的需要向上或向下调整此孔径。
执行此操作时,将拥有一种实际的方式来控制每个项目所需的处理、存储和资金。