商业数据是一把双刃剑。企业利用从外部来源以及通过企业内的人员、流程和技术流入组织的所有各种形式的数据,可以获得巨大的价值;但是如果不积极地收集和处理数据,这将成为一个重大的竞争劣势。并分析尽可能多的数据。但是同样地,随着各个地区的新严格数据保护法规以及几乎每周都会发布数据泄露事件,对于企业首席信息官和数据管理专业人员来说,对这些数据进行不正确管理的后果很严重。
人们产生和使用的数据通常是非结构化数据。在数字化的初期,大多数数据是由系统生成的,并以可预测的增长形式存储在结构化数据中,并且只有IT和财务人员具有直接与数据库一起工作所需的兴趣或技能。如今,在传统的关系数据库之外以各种格式创建的公司数据中,文档、照片、视频、社交和传感器数据呈指数级增长。企业的非结构化数据格局从一开始就固有混乱,分散在多个系统中,并且无法立即预测或控制。这导致许多企业没有检查并从他们可以访问的任何非结构化数据中提取价值,或者更糟的是,根本不知道数据的存在或确切的位置。
暗数据
其中存在最大的问题之一。企业在常规业务活动期间收集、处理和存储的信息资产,但通常不能用于其他目的,也称为“暗数据”。最终很容易违反非结构化数据来违反数据保护法规,因为基本要求是知道您拥有哪些数据,哪些数据是与个人有关的个人身份信息(PII)并加以保护。如果不知道所拥有的物品或物品在哪里,那么如何保护它?
最关键的第一步是确保企业对业务中的所有数据源都具有100%的可见性,并获得对数据的了解(必要和不需要什么),以确保数据本身不是致命弱点。当然,这一切都很好,但是每个企业的目标应该是从他们的数据中获得竞争价值,而不仅仅是在防御上。
成为数据驱动型组织
“数据驱动”一词在科技行业已变得司空见惯,但不仅仅是一个流行术语。普遍的看法是,拥有最多数据的组织将成为领导者,但事实远非如此。更为重要的是组织如何处理这些数据。不仅仅是拥有最多数据的组织会首先冲过终点线,而是识别,分析数据并对其采取行动的公司将获得最大的回报。
获得对非结构化数据的基本控制很重要,但同样重要的是确定要收集,分析和存储哪些数据。如果企业从非结构化数据中受益的主要方式是通过营销或销售等领域,那么收集TB级的随机传感器数据将毫无用处。在着手下一步之前,必须使业务目标与可用的数据源保持一致:理解数据本身并准备进行分析。
企业需要能够从NoSQL数据存储平台和数据湖(经常存储非结构化数据的环境)访问,清理,规范化和混合不同的数据集,这并非易事!Blue Hill Research报告指出,大多数分析师花费40%至60%的时间来准备数据,而剩下的时间都用于分析。每当人工流程成为任何IT流程的瓶颈时,将其中的至少一部分自动化将更好地为分析师服务,也为整个企业服务。
桥接数据孤岛
对企业而言,主要限制是数据分析平台经常被孤立起来。当部门使用不同的数据源时,精简数据并进行整体审查可能是一个挑战。组织必须使用允许他们连接到多个数据源的工具,包括NoSQL数据库,数据仓库,应用程序,数据文件,当然还有更传统的关系数据库。非结构化数据的到期日特别早,因此至关重要的是这些特定的数据库必须动态且不断更新。
重视从非结构化数据中挖掘价值的组织需要投资于正确的工具,以便能够将其与更多传统资源集成在一起,而且还需要尽可能简单,轻松地使数据在过时之前被快速使用。如果分析师被迫缓慢采取行动,他们冒着为时已晚而无法利用潜在获利的交易、投资、客户营销机会或社交媒体事件的风险。为数据分析人员提供标准化工具来自动化数据准备工作,从而为企业带来了积极的收益,从而使他们有更多的时间来处理和分析数据。