GPU存储性能怎样去获得

支持     AI   人工智能和ML     机器学习   部署的数据中心依靠基于     图形   处理单元(     GPU   )的服务器为其计算密集型架构提供支持。到2024年,在多个行业中,GPU使用量的增长将使GPU服务器的复合年增长率超过31%。这意味着将有更多的系统架构师承担承担相应的职责,以确保GPU系统具有最高的性能和成本效益。

 GPU存储性能怎样去获得_设计制作_制造/封装

然而,为这些基于GPU的AI / ML工作负载优化     存储   并非易事。存储系统必须高速处理海量数据,与此同时需要注意以下两个挑战:

1)服务器利用率。GPU服务器对于训练大型AI / ML数据集所需的矩阵乘法和卷积非常高效。但是,GPU服务器的成本是典型     CPU   服务器的3倍。为了保持ROI,IT员工需要让GPU使用率足够饱和。但不幸的是,很多部署经验表明GPU仅有30%的使用率。

2)GPU存储瓶颈。ML训练数据集通常远远超过GPU的本地     RAM   容量,从而产生了一个I / O瓶颈,分析人员将其称为GPU存储瓶颈。AI和ML系统最终要等待访问存储资源,这是因为它们庞大的数据阻碍了及时访问,从而影响了性能。

为了解决这个问题,NVMe闪存固态硬盘逐渐取代了标准闪存固态硬盘,成为Al / ML存储的首选。NVMe支持大规模的IO并行性,性能约为同类SATA SSD的6倍,并且延迟降低了10倍,并且具有更高的电源效率。正如GPU推动了高性能计算的发展一样,NVMe闪存在降低延迟的同时,实现了更高的存储性能、带宽和吞吐量。NVMe闪存解决方案可以使AI和ML数据集加载到应用程序的速度更快,并且可以避免GPU匮乏。

此外,NVMe Over Fabrics可以虚拟化整个高速网络上的Nvme资源,通过NVMeoF技术可以更好的适用于AI和ML的存储架构。NVMeoF使GPU可以直接访问NVMe的弹性池,因此可以使用本地闪存性能来访问所有资源。它使AI数据科学家和HPC研究人员可以向应用程序提供更多数据,以便他们更快地获得更好的结果。

要获得最佳的GPU存储性能,就需要根据业务目标对基础架构进行微调。这里有四种方法可供考虑。

1.有效扩展GPU存储容量

例如,某存储公司为不需要运行自己的AI堆栈的组织提供了AI即服务解决方案。因此,这家公司需要最大的ROI和可扩展性。特别是对多租户的需求,这意味着为满足各种工作负载和客户端的性能要求,基础架构必须随时准备就绪。

该基础架构团队在部署其第一个GPU服务器系统的早期就了解到,本地GPU服务器的存储容量将太有限,只有4TB的本地存储,而客户的工作量则需要10到100 TB的数据。该团队研究了外部存储选项,并注意到,使用传统阵列它们将获得更多的容量,但性能最终会阻碍AI工作负载,因为应用程序需要将数据移入和移出GPU系统,从而中断工作流程并影响系统效率。

最终这家公司通过使用软件定义存储在快速的R     DMA   网络上合并NVMe闪存(一种将数据集加载速度提高10倍的方法),最终可以实现更高的GPU容量利用率,消除了GPU瓶颈并提高了ROI,因此现有的GPU变得更加充分利用。(注:参考lnstaDeep)

2.大规模调整性能

AI部署的快速增长和ML训练数据集的大小增加了计算基础架构的负担,STFC(The Science and     Te   chnology Facili     ti   es Council )则是这种典型的代表。尽管STFC已添加了高端GPU服务器以提供更高的计算支持,但STFC缺乏在数百个Researche     rs   中扩展资源所需的企业级存储功能。

通过在具有RDMA功能的高速网络(例如Infiniband或融合     以太网   (RoCE)v2上的RDMA)上实现NVMe-over-Fabrics协议,大型AI / ML用户组(例如STFC)可以虚拟化NVMe SSD在各种服务器上未使用的存储资源池,因此它们的性能就像在本地一样。通过这样做,可以在一个小时内完成机器学习培训任务,而以前则需要三到四天。即使具有复杂的模型训练任务,GPU存储也不再是瓶颈。

3.在并行文件系统下使用NVMe池化存储

当AI和ML应用程序涉及从许多GPU服务器访问大量小文件时,作为存储基础架构就必须部署并行分布式文件系统。并行文件系统还使存储更容易实现大多数AI / ML使用所需的高吞吐量和低延迟。在并行文件系统下具有快速、灵活的池化NVMe存储,可以改善对元数据的处理,从而实现更高的读取性能和更低的延迟,从而提高GPU服务器的利用率。

例如,一家超大型技术提供商最近推出了一种AI解决方案,用于预估保险公司使用的车辆碰撞场景。为了开发应用程序背后的AI逻辑,应用程序工作流涉及培训模型,方法是摄取多达2000万个小文件数据集,其中每个文件大小在150-700 KB之间。数据提取通常每8小时以100万个文件的速度或者每个客户端每秒最多35,000个文件进行。

通过在并行分布式文件系统下使用池化NVMe存储方法,该技术提供商消除了它遇到的存储瓶颈,并将存储性能提高了3-4倍。

4.检查特定于GPU的“高速公路”

新的数据中心架构正在以统一的方式提高服务器、网络和存储的性能。一种类似的方法于2019年秋季首次亮相,它将来自多个供应商的基础架构元素与GPU优化的网络和存储进行集成,以在GPU内存和存储之间打开直接的数据通道,从而完全绕开CPU。这使数据能够在GPU、存储和网络设备提供的“开放高速公路”上进行传输,从而实现了对NVMe企业级卓越性能的无障碍访问。

总结

AI和ML的创新步伐迅捷,这意味着当今的部署依赖及关键技术在一年前可能是不存在的,在明年也可能被新技术取代。现在精通微调GPU存储性能的IT团队已经意识到它们之前的许多新选择,可以实现最佳的系统利用率和ROI,从而为其组织带来竞争优势。

责任编辑:ct

80
160
0
89

相关资讯

  1. 1、研究人员正在研究一种新的冷却技术,使机器能像人的呼吸那样散热4461
  2. 2、济南市市中区无人值守智能警局正式亮相AI社会管理还有多远?154
  3. 3、魅族小金刚仅1128元兼具三星屏和索尼旗舰传感器2928
  4. 4、​有了索尼OLED电视A1,看电视绝不将就1628
  5. 5、京东与生态伙伴打造AI超级眼镜,计算机视觉技术全面产业赋能975
  6. 6、保险丝的外形介绍,主要的标志是什么?650
  7. 7、可穿戴传感器监控员工引发隐私问题争议4804
  8. 8、网易有道推出有道翻译王2.0Pro,预计翻译机市场两三年内成熟2247
  9. 9、OLED电视崛起面板供给有待提升3677
  10. 10、智能家居市场井喷之际,无线连接技术还有哪些可能3992
全部评论(0)
我也有话说
0
收藏
点赞
顶部