想要实现FPGA的CNN加速需要考虑以下内容_设计制作

网上对于 FPGA CNN加速的研究已经很多了，神经网络的硬件加速似乎已经满大街都是了，这里我们暂且不讨论谁做的好谁做的不好，我们只是根据许许多多的经验来总结一下实现硬件加速，需要哪些知识，考虑哪些因素。

很多人都说在做FPGA的神经网络加速，可是有多少人真正拿出了实际结果，可能大部分人就是用HLS（高层次综合）写了个四五层的小网络，或者简单实现了一下卷积操作。真正要用FPGA做加速，得先明白算法的整体流程以及数据的输入输出形式，然后结合FPGA的特点设计相应的加速结构，在结构设计层次里面涉及到一些关键的点。例如，如何加速原始卷积（winograd、fft或者其他），如何对数据进行复用减少数据的搬移次数，如何设计合理的流水线结构。在算法层次，需要对计算进行量化，因为现有的算法大部分都是浮点运算，FPGA 擅长定点运算，所以必须量化，卷积层量化方法有dynamic fixed point 方法，有聚类方法，也有mini float point 方法等等，当然除了卷积，还有softmax等分类算法如何量化，NMS如何在硬件上实现。另外目前的神经网络越做越大，FPGA资源有限，因此对网络进行裁剪也是一个需要关注的问题。

总的来说用FPGA 加速神经网络，是一个整体性工程，需要软件和硬件协同配合，另外硬件这边除了核心算法，还需要考虑数据的输入以及调度形式，可能需要用PCIE 等高速接口实时传入图像，再利用DDR3/4对计算的部分结果进行缓存，当网络确定，而一个FPGA 资源又不够用的时候，可能需要考虑两个FPGA 互联，那就需要用到光口或者其他高速接口，这些外围高速接口，如果之前没有接触过，任何一个都可能花费相当长的时间。所以说，做FPGA 加速，一个人是绝对不行的，另外，目前能够进行神经网络加速的FPGA ，xilinx 的UltraScale K/V/Zynq系列是比较合适的，但是这些属于高端FPGA，当然，不是说中低端不行，而是以目前主流网络和现有的优化手段，在资源较少的FPGA 上进行加速难度较大，而高端FPGA 价格都比较高，所以必须得考虑成本问题。

想要实现FPGA的CNN加速...

想要实现FPGA的CNN加速需要考虑以下内容

相关资讯