12月14日消息,NVIDIA今日宣布,将与IBM共同开发全新融合式基础架构,透过IBM SpectrumAI与NVIDIA DGX,协助企业快速部署AI基础架构并容易管理。
NVIDIA表示,现今海量资料正在推动AI创新,且并无放缓的趋势。而全球各大产业皆尝试努力加快资料传输并尽可能提高资料科学的生产力,关键在于开发与训练各种机器学习与深度学习作业的基础架构与软体,过程中面临的一大挑战便是如何有效率地执行AI计划,这正是IBM SpectrumAI与NVIDIA DGX将解决的问题。
透过IBM与NVIDIA共同开发的全新融合式基础架构,各组织能充分发挥整合运算、储存与网路所带来的优势,结合最新的系统与软体,支援从资料准备到训练与推论整个AI生命周期。
IBM推出了一款和英伟达合作设计的存储系统,用于人工智能工作负载及TensorFlow、PyTorch和Spark等数据工具的使用。
IBM软体定义储存针对AI资料传输提供绝佳的效能、弹性与延展性。针对机器学习以及深度学习,NVIDIA DGX-1提供最快的途径。两强联手将造就出一个整合安装、立即可用的AI基础架构解决方案,兼具成熟的生产力、灵活性以及扩充性。
据IDC预计,到2021年将有75%的企业应用采用人工智能。为了更好地应对这一不断增长的市场,IBM今天推出了一款功能强大的AI优化融合系统——Spectrum AI with Nvidia DGX,该系统结合了软件定义文件存储、全闪存和英伟达的DGX-1 GPU系统。
存储供应商采用全闪存来创建一个更适合人工智能工作负载和机器学习的架构,这种创建方式已经成为了一种广泛的趋势,IBM Spectrum AI正是在这种背景之下推出的。Pure Storage和英伟达已经合作就人工智能基础架构展开合作,前者瞄准了数据中心架构。NetApp现在的目标是成为数据管理玩家,而联想则在人工智能系统上展开合作。
IBM Spectrum AI with Nvidia DGX系统的关键部分包括:
1.DGX-1服务器
2.NVIDIA DGX软件堆栈,针对最大化GPU加速培训性能进行了优化,包含RAPIDS框架。
3.IBM Spectrum Scale v5,软件定义的文件存储,专为人工智能工作负载而设计,具有增强的小文件、元数据和随机IO性能。
4.NVMe全闪存存储,每2U构建块具有300TB,机架中的数据吞吐量高达120GB/s。
5.与IBM Spectrum Discover集成,可跨IBM Spectrum Scale和IBM Cloud Object Storage进行可扩展的数据治理和元数据标记。
带有Nvidia DGX的IBM Spectrum AI可通过IBM和英伟达的经销商获得,可以与IBM Spectrum Scale(一个人工智能和高性能计算系统)配合使用。IBM的存储单元具有人工智能工作负载、闪存、模型和机器学习的参考架构,并可以与AWS公共云服务以及IBM Cloud Object Storage、Spectrum Discover和Spectrum Scale配合使用。
如今市场中有越来越多专门为机器学习量身定制的数据中心平台。今年9月,思科推出了一款人工智能服务器,该服务器配置了8个Nvidia顶级的Tesla V100 GPU。今年早些时候,NetApp和Pure Storage推出采用了Nvidia DGX-1的AI优化平台。
正如其名,Spectrum AI with Nvidia DGX也是基于Nvidia DGX。与思科的服务器一样,DGX-1包括8个Tesla V100 GPU,超过45000个处理核心,其中大约5000个核心被成为Tensor Cores的专用电路,可以很好地运行机器学习模型。
根据Nvidia的说法,这款芯片让DGX-1能够提供超过千万亿次的计算能力。
IBM的新系统将DGX-1与其自己的Elastic Storage Server进行搭配,后者是IBM的一个存储平台,可以提供高达1PB的可用闪存容量,采用IBM Spectrum Scale管理软件。
采用Spectrum Scale的原因有几个,其中最主要的是Spectrum Scale被用于全球最强大的超级计算机Summit。除了能够容纳大量数据外,该软件还提供了广泛的管理功能,其中有一款工具可以让IT团队将环境中的一些记录卸载到公有云上。
此外,Spectrum AI with Nvidia DGX还采用了Nvidia两个月前发布的RAPIDS框架。这是一组可以与主流AI和分析工具一起安装库,让Nvidia的GPU释放更多的计算能力。
据IBM称,Spectrum AI with Nvidia DGX适用于各种规模的项目。企业可以使用一个Elastic Storage Server和少量DGX-1设置Spectrum AI with Nvidia DGX,或者部署多个机架的设备。配备了9个DGX-1设备的一个机架可以提供高达每秒120GB的数据吞吐量,IBM表示这比测试的所有竞争对手解决方案都要多。
IBM希望通过开源框架和开发人员利用英伟达受欢迎的程度。Nvidia DGX经常是数据科学家工作的基础平台,部署方式既有云端也有内部部署。