如何构建加载数据的流程?一文了解半导体基础设施对数据分析的影响

12月9日消息,半导体数据分析依赖于来自制造过程的及时、无误的数据,但是交付该数据所需的IT基础设施投资和工程工作量巨大、昂贵且还在不断增长。随着设备制造商将更多的传感器添加到他们的工具中,以及显示器被嵌入到芯片本身,数据生成的所有点的数据量都在膨胀。由此产生的数据要么需要被清洗、丢弃--而且往往是每一种都需要一些--以便了解这些数据的价值。


如何构建加载数据的流程?一文了解半导体基础设施对数据分析的影响_金融商务_数智化


在高级封装的情况下,一个封装中有多个芯片,这是一个具有持久影响的复杂决定。


"最大的变化是对数据增长的管理,"Amkor分析总监Ram Shanmugasundram说。"我们看到过去6个月产生的数据比过去15年的数据还要多。主要的驱动力是单元级可追溯性和实时设备参数数据,因为IC设计变得越来越复杂,需要大量的细节级数据进行质量控制,"


大多数大数据讨论都集中在AI/机器学习(ML)上。但如果没有工程师构建数据管道,协调孤岛之间的数据,并保证数据的完整性,一个ML应用就毫无价值。


"在IT的世界里,数据管理是如此的不堪入目,"proteanTecs产品营销副总裁Shai Eisen说。"但它是任何数据驱动计划成功的关键要件。"


在工程师能够利用半导体制造步骤产生的数据之前,数据需要从其源头前往可访问的数据库。在整个供应链中,有支持数据管理的IT基础设施的网络和集群。如果没有强大的数据管理系统,甚至连简单的最终测试失败帕累托都几乎不可能可视化。过时的基础设施阻碍了对产量和质量问题的迅速反应。数据传输中的泄漏会导致数据的丢失、错位和不准确。而这样的数据完整性问题会打断定期报告的节奏,同时误导工程团队的注意力。


"如今许多公司仍然认为数据管理需要被孤立起来,以提高数据一线用户的效率,"Onto Innovation公司软件产品管理总监Mike McIntyre说。"许多公司仍然将数据和数据保留看作是一种需要最小化的成本。因此,他们将数据尽可能地放在最廉价的存储库和数据层次结构中。"


这种数据管理风格影响了制造步骤之间连接数据的能力。因此,人们正在推动以集中式结构连接数据孤岛。


"存在着对集中式数据管理和高数据质量的强烈驱动力,"Synopsys公司硅生命周期管理分析总监Paul Simon说。"我们不仅看到更高的数据量。我们看到了更多的数据类型和更广泛的数据收集"。


支持数据集中化所需的信息技术基础设施包括硬件和软件两部分。硬件在生成点到工程访问点之间存储、处理和移动数据。软件用于监控、管理和保护这些数据。


构建该基础设施有一个可见的成本。维护它往往是一个无形的成本,而这个成本往往被忽视。


"你建立的每一个系统,你开发的每一段代码,以及所有开始使用它的人,都会产生技术债务,"国家仪器公司的研究员Michael Schuldenfrei说。"而随着时间的推移,人们极大地低估了构建或维护这些系统所需的努力。"


    大数据管理设计  


随着所有这些朝着集中化的方向发展,半导体公司需要积极关注他们的数据管理和支持的基础设施。


"数据管理的所有方面--数据生成、数据摄取、数据存储和数据消费--必须在设计阶段就考虑到,而且必须是领域驱动的。"英特尔制造和运营分析总监Rao Desineni强调。


领域驱动的知识影响的不仅仅是数据库存储框架。在选择存储数据的硬件方案时,需要考虑到这一点,以便于后续的数据请求和分析以支持工程目标。


"你要用什么样的模式数据库模式来描述这些数据?"Schuldenfrei问道。"你要如何构建加载该数据的流程?为了解决你想要解决的用例,你需要从该数据存储中获得什么样的性能?而且你是否能够在不一直复制所有数据的情况下做到这一点?"


由于一些设施每天都会产生PB级的数据,最后一个问题就显得尤为重要。


"产生和保留的数据比以往任何时候都多,"Onto的McIntyre说。"案例就是这样。故障检测和分类(FDC)和物联网数据在15年前在产量分析中的存在感几乎为零,然而今天这些数据源被认为是生产线控制和整体问题解决的必备来源。在一个有组织和结构化的环境中保留TB的数据在15年前被认为是过度的,而今天它是一个绝对的要求。"


存储和管理这种数据量的能力需要一个由存储、计算机、路由器和网络组成的基础设施。设备单元/站可能有本地的存储。基础设施将数据从设备的生成点移植到数据存储系统,然后将数据移动到工厂/车间的集中数据存储,如制造执行系统(MES)。而这个基础设施则对数据的质量、完整性和安全性进行管理。


这就是总体思路。但数据的指数级增长使工厂不得不重新考虑数据的存储方案,以平衡眼前的需求和较长的保质期。后者支持关键任务IC的存档要求,它支持工程师和数据科学家在更长的时间段(数月和数年)内寻找趋势。


"长期数据收集在过去十年中显著增长,"PDF Solutions公司Exensio解决方案总监Greg Prewitt说。"数据管理的成本导致了'热'、'暖'和'冷'的数据存储,因为保持多年数据在线的成本太高。"


这与许多企业数据中心过去的运营方式并无二致。在某些情况下,旧数据仍然存储在磁带上,而较新的数据则存储在旋转介质上。需要立即访问的数据通常存储在带有高速光互连的固态硬盘上。改变的并不是基本的数据桶,而是需要分类的数据量,以及需要进行分类的速度。


工厂IT部门确实认识到这种管理更多数据的转变,因为他们需要这些数据来改善运营。"例如,机器日志和参数是数据处理和分析的基本要素,"Amkor高级副总裁兼美国IT运营负责人Jung Ah Choi说。"我们最近的工作涉及到构建可扩展的数据管理平台和基础设施,以跟上数据增长的速度。在过去,典型的基础设施刷新/扩展曾经是一个四到五年的周期。现在应该每年重新审视一次。"


存储数据已经变得不那么昂贵,但有更多的数据需要存储,也带来了其他挑战。


"在过去的10到15年里,原始存储容量不再被认为是一个成本障碍,"PEER Group的产品传播者Doug Suerich说。"现在的限制因素是我们拥有太多的数据,而这是实际智能处理数据的能力。这只是巨大的数据量,因为工程师们希望机器学习能够帮助他们咀嚼这些数据,然后在草场中找到那些针。"


在数据量和数据处理的压力下,半导体公司已经开始将数据管理转移到云支持的技术上。


"云带来了容量和计算能力的好处,"proteanTecs的Eisen指出。"云的挑战是延迟和可访问性。没有任何应用能保证100%的正常运行时间。为此,你需要本地数据。"


    谁来负责?  


管理该基础设施对小型和大型公司来说都是一个难题。现在这是一个要求,但也不像听起来那么容易。


"人们低估了它的复杂性,"NI的Schuldenfrei说。"复杂的原因来自于多个因素。首先,真正的大数据很难管理。其次,无论你选择什么样的数据库,都需要大量的专业知识和对数据的理解,才能真正正确地架构数据。事实上,即使是做出正确的技术决策,也需要大量的知识和理解。"


在最后一点上,大家普遍认为。"有负责设置存储解决方案的基础设施团队,以及必须不断优化存储栈的数据库管理员,"英特尔的Desineni说。"在设置消费数据时,这两个角色往往不具备必要的领域专业知识,这意味着他们在很大程度上依赖于领域专家(测试专家或产品工程师)为他们定义详细的需求,而这可能会或可能不会有效地发生。"


没有数据停止分析,但错误的数据会产生问题。因此,需要在软件中编入数据质量政策,以保证数据的完整和准确。


"一个假设完美的数据管理系统将导致坏数据。干净的数据对于工程师依据产量反应是如此重要。然而这需要认识到事情会出错。"yieldHub的CEO John O'Donnell说。"例如,网络问题会导致数据加载不完整。只需将测试仪产生的数据量与上传到MES的数值进行比较,就可以检测到这种情况。"


    可维护性、安全性、经济性  


对IT基础设施的投资涉及到建立和维护一个系统。它还需要IT专业人员、工艺工程师和产品工程师共同设计一个安全且具有成本效益的系统。


"这些关键的基础设施不仅在工厂成立之初投资不足,而且许多公司仍然把IT基础设施当作一项投资,一旦购买后,就使其一成不变,一直运行到失效为止。"昂托的McIntyre认为。"先进制造业的供应链越来越复杂,要求这些IT系统成为持续投资和更新策略的一部分。"


那么,维护这些系统到底需要多少人呢?答案是,比建立它们所需的人数还要多。


"假设你需要10个人来构建系统,"Schuldenfrei说。"5年后,你需要的维护人员将超过10人。原因是你要继续维护你的遗留代码,而遗留代码正变得老旧和陈旧。当没有人知道如何处理它时,它的维护成本就会变得更高。同时,你还要进化你的下一代,因为你建立系统的技术即将过时。你在不断地增加你的投资。它永远不会下降。"


这种投资的一部分只是移动数据。无论是从原始美元还是资源的角度来看,更多的数据是很难移动的。一PB的数据涉及到通过电缆、光通道、无线以及可能的卫星进行电子传输。每秒钟只有这么多比特可以在一个通道上传输。


"挑战只是随着数据的增长而增长,"PEER集团的Suerich说。"这不是买一个更快的互联网连接那么简单。而是一切与之相关的东西,比如说你在各个国家工厂的生产线的直达能力。并不是每个国家,尤其是制造业的地方,都是同样的连接良好。那么当你得到这些海量数据的时候,安全的故事就变得更难了,因为仅仅是扫描这些数据量的IP泄露或者病毒就需要时间。"


在过去,很多公司甚至不会考虑将数据转移到云端。但在过去几年里,云已经成为一个很好的选择,因为数据托管公司认识到安全将是一个关键的卖点。数据分析公司经常教育客户了解他们的安全能力,在许多情况下,他们的安全能力比内部安全更好。


"数据在云端与内部相比更安全,"YieldHUB的O'Donnell说。"此外,云中数据库的大规模可扩展性比内部系统的成本更低。"


其他人也注意到了企业内部数据管理的成本影响。"这很快就会变得非常低效,而且成本非常高,"Synopsys的Simon说。"公司看重数据分析软件的成本,然而他们低估了IT基础设施的成本。IT基础设施加上数据库,再加上对该数据库在本地的管理,这是有成本的。你把它乘以20个站点,这与集中式解决方案相比,即使对于大公司来说,也变得非常昂贵。"


然而,使用云技术进行集中化并不意味着工厂放弃了本地数据。"云能力同时拥有存储和计算的优势。内部部署还具有24×7的正常运行时间等优势。你不能低估这对生产和业务连续性的价值或重要性,"Eisen解释说。"IT工程师已经学会了采用和创建混合解决方案,以最大限度地发挥所有世界的优点。"


    结论  


虽然人们一口气说了大数据和机器学习,但这种对制造业数据的分析仍处于起步阶段。鉴于人们认为缺乏IT基础设施投资,产生数据的公司需要在投资ML之前积累投资。


"数据是新的石油是最近一个通俗的成语,通常是为了鼓励采用人工智能分析,"英特尔的Desineni说。"我们的论点应该是先把数据当作一种资产。按摩它,呵护它,把它储存在美丽的木桶里,挥霍它,AI分析可以等待。"


工程师们有效地利用现有数据来解决产量和质量问题,并优化制造和测试步骤。然而,即使在今天,由于没有完整和干净的数据,两个制造步骤之间或两个参数之间的简单统计相关性也可能是不准确的。要解决这个问题,就需要加大对整个数据管理系统的投入。


"解决方案都是从正确有效的数据组织开始的。"昂拓的McIntyre说。"认识到数据存储成本与慢速产量提升、偏离、人力资源重新转向解决问题的成本相比是微不足道的,这将远远覆盖数据保留所需的资本投资。还需要认识到,不了解数据内容和用途的数据保留是无效的。"Fab和测试工程团队知道他们想要的数据。IT部门可以成功地与他们合作--只要上层管理人员在数据基础设施上进行投资。


84
54
0
66

相关资讯

  1. 1、微信朋友圈:“点赞营销”催生卖“赞”,2毛一个!1899
  2. 2、谷歌招聘人才的“九要”和“九不要”4368
  3. 3、运营的四个发展阶段,看看自己在哪个阶段,聊聊怎么升级打怪3963
  4. 4、2015年会不会是微信盛极而衰之年?3631
  5. 5、靠UGC模式产内容,能帮助传统媒体找到出路吗?4406
  6. 6、用户消费动机变动,高端品牌该如何投其所好?1001
  7. 7、手游为何能长江后浪推前浪?755
  8. 8、消费主义是如何将你洗脑4777
  9. 9、大公司VS小公司怎么选择?4820
  10. 10、B端教学产品应用策展思维,有效开展产品培训和运营541
全部评论(0)
我也有话说
0
收藏
点赞
顶部