GPU介绍
GPU 最早是为生成基于多边形网络的计算机图形而设计的。在最近几年,由于近来计算机游戏和图形引擎领域的需求和复杂度需要,GPU 积累了强大的处理性能。英伟达是 GPU 领域的领军者,能生产有数千个内核的处理器,这些内核的设计工作效率可以达到 100%。实际上这些处理器也非常适用于运行神经网络和矩阵乘法方面的计算。注意,矩阵向量的乘法运算被认为是「尴尬的并行(embarrassingly parallel)」,因为它可以通过简单的算法扩展被并行化(它们缺少分支因而可以避免缓存信息丢失)。Titan X 是训练深度学习模型的一个最得力的助手。它拥有 3500 多个内核,每秒能够执行超过 11 万亿次浮点运算。更多测试性能方面的信息请参考这里。
由于 GPU 的超多核(~3500 个,对比 Intel Xeon 的 16 个/ Xeon Phi 的 32 个),英特尔的 CPU 和英伟达的 GPU 之间的竞争助长了后者的发展,使其 GPU 比 CPU 在时钟频率快 2~3 倍。GPU 核是更为复杂(分支预测和流程)的 CPU 核的流线型版本,但是前者许多都支持更高级别的并行运算,因而拥有更好的性能。
这种 GPU 很擅长训练深度学习系统——卷积神经网络或者循环神经网络。它们可以在仅仅几毫秒之内就运行一批 128 或 256 张图像。但是它们同时也会消耗大约 250 瓦的功率并且需要一个完整的计算机来支持运行,这又消耗了额外的 150 瓦的功率。一个高性能的 GPU 系统至少需要消耗 400 瓦的功率。
这并不适用于增强现实眼镜、无人机、手机、移动设备和小型机器人。甚至对于未来的消费级自动驾驶汽车来说也是不可接受的。
英伟达正在致力于开发效率更高的器件,比如 Tegra TX1、TX2(深度神经网络需要 12 瓦的能耗和每秒 ~100 千兆次浮点运算的性能,TX2 需要的更多)和更强大的 Drive PX(250 瓦,与一个 Titan X 的消耗量差不多)。
这里还要注意,在自动驾驶汽车和智能摄像机中,直播视频是必要的而图像批处理是不可能实现的,因为视频需要针对及时响应进行实时处理。
一般 GPU 的水平大约是 5 G-flops/s per W。如果我们想在移动系统中部署深度学习解决方案,那我们还需要更好的方法! 谢谢分享! 深度学习GPU """学好FPGA,海阔天空,人生能有几回从事FPGA,天高菜鸟飞,电路任我构,把电路用语言描述出来,综合成逻辑关系,然后在芯片中利用已有的触发器和LUT构成实际电路, 目前来说半定制FPGA芯片主要应用在军工领域较多,一些尖端科技领域,航天航空,以及日常通讯与图像处理算法,复杂工控FPGA也能得到很好应用,这就是FPGA的的本质。
钢铁石油在国家经济发展到一定程度,量就会减少,然后集成电路使用永远都在增加,随着中国的发展,集成电路将越来越发挥巨大作用,FPGA的前景一片大好。
学习技术的过程就是把脑海中的思想用语言表达出来,好的创意是编出好的程序的基石,多多扩大几自己专业知识背景,学习别人好的创意,这是如何学好FPGA的要领。
---札记(飞翔)""
"
感谢分享 GPU介绍:):):) 谢谢分享普及!
页:
[1]