麻省理工学院使用超级计算机系统开发模型分析整个互联网流量

10月28日消息,麻省理工学院的研究人员使用超级计算机系统开发了一个模型,该模型可以捕获特定日期世界范围内的网络流量,可以用作互联网研究和许多其它应用程序的度量工具。研究人员说,如此大规模地了解网络流量模式,对于制定互联网政策,识别和防止断网,防御网络攻击以及设计更高效的计算基础架构很有用。研究人员在最近召开的电气和电子工程师协会高性能极限计算会议上发表这份研究报告。


麻省理工学院使用超级计算机系统开发模型分析整个互联网流量_智慧城市_智慧教育


研究人员收集了最大的可公开访问的互联网流量数据集,其中包括在过去几年中在全球不同位置交换的500亿个数据包。


他们通过一个新的“神经网络”通道运行数据,该管道在麻省理工学院的“超级云”的10000个处理器上运行,该系统结合了林肯实验室和研究所的计算资源。该神经网络自动训练了一个模型,该模型捕获了数据集中所有链接的关系,从常见的ping到谷歌和脸书之类的巨头,再到罕见的仅短暂连接但似乎对网络流量有影响的链接。


此模型可以获取任何庞大的网络数据集,并生成一些有关网络中所有连接如何相互影响的统计度量。这可用于揭示有关对等文件共享,恶意IP地址和垃圾邮件行为,关键部门中的攻击分布以及流量瓶颈的见解,以更好地分配计算资源并保持数据流。


从概念上讲,这项工作类似于测量宇宙微波背景,即围绕宇宙传播的几乎均匀的无线电波,这是研究外层空间现象的重要信息来源。麻省理工学院林肯实验室超级计算中心的研究员,天文学家杰里米·开普纳说:“我们建立了一个精确的模型来测量互联网的虚拟世界背景。如果要检测任何方差或异常,则必须具有良好的背景模型。”


在互联网研究中,研究网络流量异常可能发现网络威胁。为此,需要首先了解正常流量的情况。但是捕获这些仍然具有挑战性。传统的“流量分析”模型只能分析受位置限制的源与目的地之间交换的数据包的小样本。这降低了模型的准确性。


研究人员并没有特别想解决这个流量分析问题。但是他们一直在开发新技术,以处理大量的网络矩阵。


网络通常以地图的形式进行研究,参与者以节点表示,链接表示节点之间的连接。随着互联网流量的增加,节点的大小和位置也有所不同。大型超节点是流行的枢纽,例如谷歌或脸书。叶节点从该超节点展开,并且彼此之间以及与该超节点具有多个连接。隔离节点和链接位于超级节点和叶节点的“核心”之外,它们之间很少连接。


捕获这些地图的全部范围对于传统模型是不可行的。开普纳说:“如果没有超级计算机,就无法触摸这些数据。”


麻省理工学院的研究人员与日本大学建立的广泛集成分布式环境(WIDE)项目以及位于加利福尼亚的应用互联网数据分析中心(CAIDA)合作,捕获了全球最大的互联网流量数据包捕获数据集。匿名数据集可追溯到2015年,在日本和美国的不同地点,随机日期内,消费者与各种应用和服务之间包含近500亿个唯一的源和目标数据点。


在可以根据该数据训练任何模型之前,他们需要进行一些广泛的预处理。为此,他们利用了先前创建的称为动态分布式维度数据模式(D4M)的软件,该软件使用一些平均技术来有效地计算和分类“超稀疏数据”,该数据包含比数据点更多的空白空间。研究人员将数据分解为约100000个数据包的单位。这产生了源与目的地之间数十亿行和列的交互的更紧凑矩阵。


但是此稀疏数据集中的绝大多数单元仍然为空。为了处理矩阵,研究团队在相同的10000个处理器核上运行了神经网络,从而创建了潜在准确模型的概率分布。


然后,它使用改进的纠错技术进一步细化每个模型的参数,以捕获尽可能多的数据。传统上,机器学习中的纠错技术将尝试降低任何偏远数据的重要性,以使模型适合正态概率分布,从而使模型总体上更加准确。但是研究人员使用了一些数学方法来确保模型仍然看到所有外围数据(例如,隔离的链接),这对整体测量而言都是重要的。


最后,神经网络本质上生成了一个仅包含两个参数的简单模型,该模型描述了互联网流量数据集,从真正流行的节点到孤立的节点,以及介于两者之间的所有信息的完整频谱。


现在,研究人员正在与同行联系,以寻找该模型的下一个应用程序。例如,专家可以检查研究人员在实验中发现的孤立链接的重要性,这种链接很少,但似乎会影响核心节点中的网络流量。


除了互联网之外,神经网络通道还可用于分析任何超稀疏网络,例如生物和社会网络。开普纳说:“对于想要建立更强大的网络或检测网络异常的人们来说,我们现在为他们提供了一个了不起的工具。这些异常可能只是用户行为的正常行为,也可能是他们在其它不正常的事情。”


48
58
0
90

相关资讯

  1. 1、光电所提出新的水下图像复原算法复原图像整体对比度提高2倍以上2763
  2. 2、复用器的分类3177
  3. 3、​以LED技术调光,阿兹海默症患者睡眠及情绪获改善560
  4. 4、深圳全市5G基站突破一万大关全民步入可用5G阶段837
  5. 5、跻身全球科技创新中心行列,中关村“中国式创新”缩影1349
  6. 6、4家佛山机器人企业上榜十佳集成商!783
  7. 7、国内首个无人驾驶汽车远程测试许可发放广州为试点3990
  8. 8、PMP考试认证有什么用?优势有哪些?554
  9. 9、PHP令开发人员讨厌的原因是什么?4738
  10. 10、四川通信业全力保障火灾区域通信受损设施基本恢复1625
全部评论(0)
我也有话说
0
收藏
点赞
顶部