分析讨论了通过分布式中继架构替代传统大数据集成的一种替代方法。
大数据集成的本质要求组织在某些方面变得更加灵活。特别是从移动应用程序、浏览器启发式、A/V输入、软件日志等各种来源收集输入和指标时。组织在同时遵守内部和政府规定的标准时需要摄取的不同方法、协议和格式的数量可能是惊人的。
是否有一种清晰谨慎的方法来实现快速数据集成,同时仍然获得大数据分析的所有好处?
通过分布式中继架构进行数据集成
如果引入了一组智能缓冲区,而不是仅允许所有数据从数十个信息孤岛中流入,该怎么办?想象一下,每个缓冲区都是专门为组织需要在任何给定时间接收的输入而构建的:Shell脚本、RESTAPI、数据库、哈希日志文件等。
人们将这些智能缓冲区称为真正的缓冲区:中继。他们提取SSL加密的数据,根据需要发送其他查询,并根据ACL特定于管理该数据集的团队和服务器端应用程序提供容错数据访问。
如果要建立这样的分布式中继体系结构来处大数据集成链,则可能看起来像这样:
大数据中继架构
现在可以选择了。对于需要快速更新的应用程序,例如股票、商品、货币交易等,大数据中继架构可以提供可靠的实时流。对于速度较慢的消费者,可以使用日记系统,该系统可以用作组织收集的数据的集中镜像。
分布式中继架构在大数据分析中的作用
重要的是,尤其是在诸如预测分析和用户行为分析之类的领域中,避免给系统引入噪音。任何依赖于统计建模和机器学习的垃圾数据都可能迫使整个系统回滚。因此,至关重要的一点是,数据集成必须在经过消毒并以可验证的互操作格式进行呈现之后才能进行。
进入分布式中继架构。每个中继都确保流入数据分析管道的信息来自可靠的,经过身份验证的来源,并以服务器已经理解的可消化块的形式到达。
中继需要具有五个主要属性才能成功执行其任务。
1.快速可靠的数据消耗:实时数据通信容易出错。一个主要的问题是缓慢的消费,迫使关键任务生产者不得不备份。将高速中继架构放置在实时数据生成器附近可缩短距离,并提供容错缓冲区。
2.可迁移性:使用单独配置的中继架构解决了与数据库、操作系统或不可互换协议的多个不兼容版本的接口;将动荡的环境映射到一致,可访问的协议中。这允许异构数据源的无缝组合,并使后端的数据集成更加容易。
3.本地化的审核和权利:管理数据的团队通常最好地理解谁应该有权访问数据的逻辑规则。附加的本地化权利层允许以分布式方式分配复杂的细粒度数据权限。
4.免疫:服务器进程中断、网络连接丢失、第三方适配器崩溃、硬件出现故障。但是,否则,系统性的影响将在中继站停止,从而将中断保持在局部且有限的范围内,从而提供最佳情况。
5.完全访问权限:文件、可执行文件和操作系统功能通常不容易获得。通过在本地安装中继,这些资源变得可以远程访问和监视。例如,这对于实时UX事件所需的监视类型至关重要。对于其他需要过程级监控的大数据分析应用程序(如组合系统和网络性能测试),这也可能很重要。中继可以实现非常精细的监视级别。
结论
对于大数据应用程序所面临的一些更复杂的数据集成问题,分布式中继体系结构可能是最快,最具成本效益的解决方案之一。
垂直和水平缩放的能力意味着即使在处理大量外部应用程序和资源时,这些继电器仍然可行。分布式浏览器后端可以为多个地区的大量项目团队和数据分析师提供服务,而无需安装专有的客户端软件。