MIT开发能够标记时间序列数据异常的方法

当你负责一颗价值数百万美元的卫星以每小时数千英里的速度飞过太空时,你要确保它运行平稳。时间序列也有帮助。


时间序列仅仅是一段时间内重复测量的记录。它可以跟踪系统的长期趋势和短期波动。例如臭名昭著的每日新病例COVID-19曲线和自1958年以来跟踪大气二氧化碳浓度的基林曲线。Kalyan Veeramachaneni说:“在大数据时代,从卫星到涡轮机,时间序列无处不在。所有这些机器都有传感器,可以收集这些关于它们如何运作的时间序列。”

MIT开发能够标记时间序列数据异常的方法_金融商务_风控与安全

分析时间序列中的异常点是很棘手的。数据可能会有噪音。如果卫星操作员看到一连串的高温读数,他们怎么知道这是无害的波动,还是卫星即将过热的信号?


这是Veeramachaneni希望解决的一个问题,他将数据提交给麻省理工学院信息与决策系统实验室的人工智能小组。该小组开发了一种新的基于深度学习的方法来标记时间序列数据中的异常。他们称之为TadGAN的方法,其性能优于竞争对手的方法,可以帮助运营商检测和应对一系列高价值系统的重大变化,从穿越太空的卫星到地下室里嗡嗡作响的计算机服务器场。


这项研究将在本月的IEEE BigData会议上发表。该论文的作者包括人工智能小组成员Veeramachaneni、博士后刘冬雨、访问研究生亚历山大·盖格、硕士生莎拉·阿尔内格伊米什以及西班牙雷伊·胡安·卡洛斯大学的阿尔弗雷多·库斯塔·因凡特的数据。


高风险


对于像卫星这样复杂的系统,时间序列分析必须自动化。与Veeramachaneni合作的卫星公司SES从其通信卫星接收到大量的时间序列,每个航天器大约有30000个独特的参数。在SES控制室里的人类操作员只能在屏幕上闪过这些时间序列的一小部分。其他情况下,它们依靠报警系统来标记超出范围的值。”所以他们对我们说:“你能做得更好吗?”Veeramachaneni说。该公司希望他的团队利用深度学习来分析所有这些时间序列,并标记出任何不寻常的行为。

MIT开发能够标记时间序列数据异常的方法_金融商务_风控与安全

这个请求的风险很高:如果深度学习算法无法检测到异常,团队可能会错过一个修复问题的机会。但是,如果它每次出现嘈杂的数据点时都会发出警报,那么人类评论者就会浪费时间不断地检查“狼来了”的算法。”“所以我们面临这两个挑战,”刘说我们需要平衡它们。”


该团队并没有仅仅在卫星系统上取得这种平衡,而是努力为异常检测创建一个更通用的框架——一个可以应用于各个行业的框架。他们求助于被称为生成性对抗网络(generative atterial networks,GANs)的深度学习系统,通常用于图像分析。


GAN由一对神经网络组成。一个网络,即“生成器”,创建假图像,而第二个网络“鉴别器”,处理图像并尝试确定它们是真像还是由生成器生成的假图像。通过这一过程的许多轮,生成器从鉴别器的反馈中学习,并变得善于创造超现实的赝品。这项技术被认为是“无监督”学习,因为它不需要预先标记的数据集,在这些数据集中,图像带有他们的主题。(可能很难获得大型标记数据集。)


研究小组将这种GAN方法应用于时间序列数据。”通过这种训练策略,我们的模型可以分辨出哪些数据点是正常的,哪些是异常的,”刘说。它通过检查实时时间序列和伪GAN生成的时间序列之间可能存在的异常差异来实现这一点。但是研究小组发现,单靠GANs是不足以检测时间序列中的异常的,因为它们可能无法精确定位出与假时间序列相比较的真实时间序列片段。因此,Veeramachaneni说,“如果你单独使用GAN,就会产生很多误报。”。


为了防止误报,研究小组用一种称为自动编码器的算法对他们的GAN进行了补充,这是一种无监督的深度学习的另一种技术。与甘斯大喊大叫的倾向不同,自动编码器更容易漏掉真正的异常。这是因为自动编码器倾向于捕捉时间序列中太多的模式,有时会将实际异常解释为无害的波动——这是一个被称为“过度拟合”的问题。通过将GAN与自动编码器结合,研究人员设计了一个异常检测系统,达到了完美的平衡:TadGAN保持警惕,但不会升高假警报太多了。

MIT开发能够标记时间序列数据异常的方法_金融商务_风控与安全

经得起时间序列的检验


另外,塔根击败了对手。传统的时间序列预测方法,称为ARIMA,是在20世纪70年代发展起来的。“我们想看看我们已经走了多远,以及深度学习模型是否真的可以改进这种经典方法,”Alnegheimish说。


该团队对11个数据集进行了异常检测测试,将ARIMA与TadGAN和其他7种方法进行了比较,其中包括一些由亚马逊和微软等公司开发的方法。在11个数据集中的8个数据集中,TadGAN在异常检测方面的表现优于ARIMA。亚马逊开发的次优算法仅在6个数据集上击败了ARIMA。


Alnegheimish强调,他们的目标不仅是开发一流的异常检测算法,而且要使其广泛使用。我们都知道人工智能存在重复性问题。该团队已经免费提供了TadGAN的代码,并定期发布更新。此外,他们还开发了一个基准测试系统,供用户比较不同异常检测模型的性能。


“这个基准是开源的,所以有人可以去试试。他们可以添加自己的模型,如果他们想,阿尔内格海米什说我们想减轻人工智能不可复制的耻辱感。我们要确保一切正常。”


Veeramachaneni希望塔根有朝一日能为各种行业服务,而不仅仅是卫星公司。例如,它可以用来监测计算机应用程序的性能,这些应用程序已成为现代经济的核心。”为了运行一个实验室,我有30个应用程序。他说:“Zoom,Slack,Github你能说出来,我就有了。”我相信他们都能天衣无缝地工作下去。


TadGAN可以帮助Zoom这样的公司监控数据中心的时间序列信号,如CPU使用率或温度,以帮助防止可能威胁公司市场份额的服务中断。在未来的工作中,该团队计划将TadGAN封装在一个用户界面中,以帮助将最先进的时间序列分析带给任何需要它的人。



77
87
0
95

相关资讯

  1. 1、《梦幻诛仙手游》秋季主题曲8月上线重量嘉宾加盟2231
  2. 2、奇迹之钟《螺旋境界线》凡瑟尔的浓雪祭4911
  3. 3、大量Appstore付费游戏叉叉免费大放送!4493
  4. 4、《神魔圣域》全新资料片明日上线领你远征地下城2393
  5. 5、年度史诗级游戏《合战天下》引爆三国风云3764
  6. 6、《甲铁城的卡巴内瑞》正版手游全新职业亮相1314
  7. 7、把持不住《昆仑墟》双十一单身福利公布394
  8. 8、末世主角你来当9187《末日世界》全渠道首发预告3924
  9. 9、要速度还是要威力《敢达争锋对决》Z系列之比较736
  10. 10、《迷雾世界》全民直播回顾大神翻车乐此不疲3770
全部评论(0)
我也有话说
0
收藏
点赞
顶部