ISDF2016经典之K3:英特尔SoC FPGA计算加速应用演示
本帖最后由 lcytms 于 2017-5-12 17:30 编辑ISDF2016经典之K3:英特尔SoC FPGA计算加速应用演示
参考链接:
https://www.altera.com.cn/events/asia/altera-soc-developers-forum/isdf-content.html
全部经典内容包括:
K系列的主题演讲(K1~K3);
A系列的硬件主题(A1~A12);
B系列的软件主题(B1~B10)。
K3指的是主题演讲keynote-3。
20161108 ISDF 2016,北京
英特尔公司Claude Li
主题演讲12’27’’
下载视频链接:
视频文件:ISDF2016-China-keynote-3.mp4
下载链接:https://www.altera.com.cn/content/dam/altera-www/global/zh_CN/video/ISDF2016-Beijing/ISDF2016-China-keynote-3.mp4
00
(杨旭)接下来,我再给大家展示一下Intel的SOC FPGA,它在端到端的系统当中,对一些特定的加速的应用。
在这,我要邀请Intel的同事,Claude Li上台。
有请Claude。
Claude你好!
您给大家介绍一下,今天你给大家演示一个什么样的精彩的demo。
(Claude)我今天给大家demo的,给大家展示的是一个基于我们Intel SOC FPGA的DPD的计算加速的一个应用。
OK。
大家对手机太熟悉了,大家已经离不开了。
大家都知道,手机通讯的实现是离不开成千上万的基站构成的蜂窝无线网络。
01
对于蜂窝无线网络来说,可能大部分人最熟悉的,就是显示在这个屏幕上的远程的射频单元。
在这里面,有天线,有功放,正是这两者将我们在网络中的数据,通过空中的无线信号,传输到大家的手机中去。
而特别是功放的传输功率,决定了我们的一个基站能够为多远范围的手机提供服务。
通常,在我们业界来说,如果没有DPD的技术的话,我们功放的效率不会超过20%。
也就是说,如果你期望20W的一个发送功率,那么你不得不用我们的功放单元提供超过100W的功率。
但是如果有了DPD的技术,我们在业界比较好的技术,能够将功放效率提高超过40%。
02
也就是说,你可能只需要提供不到50W的功率,给我的功放单元。
那就能达到同样的20W的发送功率。这是一个非常好的效率的提升。
所以说,DPD技术的实质是什么呢?
它实质是利用一系列的矩阵运算,来实时地跟踪、去逼近我们功放的工作状态,从而产生一系列的加权系数。
对于我们的发送信号,在它进入功放之前,进行预先的调整,然后充分的去利用功放的整个工作范围,从而达到一个更好的工作效率。
OK。
也就是说,我们功放效率的好坏,依赖于我们DPD技术的一个实现。
03
而DPD技术的实现的好坏是怎么衡量的呢?
就在于核心的那一系列矩阵运算的加速是否够快,是否能够更好地逼近我们功放的运行状态。
但是我们目前,或者说更传统的远端射频单元的信号处理平台里面,我们通常是有DSP处理器、FPGA加上微处理器这样构成的一个分立化的一个平台。
在这样的平台里面,我们FPGA作为一个数据通路,它会实现我们无线信号的调频、滤波,然后以及DPD处理的一个前向通路。
而我们的DSP处理器,会完成什么呢?
它会完成那一系列的矩阵运算操作,它来提取出我们,逼近我们功放工作状态,体现我们功放工作状态的加权系数。
04
然后在这两者之间,在DSP和FPGA之间,我们依赖于我们非常传统的一些32bit位宽的数据总线,完成在FPGA和DSP处理器之间的数据交互。
但是,随着我们无线蜂窝网络,从原来的2G GSM,到我们的3G,到我们现在的4G。
随着我们无线信号的带宽越来越宽,我们发现,在这样的一个处理平台里面,我们在FPGA和DSP处理器之间的这一条并行总线,往往成了我们提高我们DPD performance的性能的一个瓶颈。
为什么呢?
因为这条总线,它通常是32bit的一种并行的、对memory访问的一个总线。
它的工作主频不会太快,一般不会超过200M。
那也就是说,可能不能给你提供超过7Gbit的这样一个带宽。
05
而且由于它是一个半双工的、读写切换的一个总线,那么对于DPD这样一个需要实时双向交换数据的系统来说,特别是在我们现在的3G、4G。
我们采用了多天线的技术以后,这个接口经常就成了我们性能的一个瓶颈。
这个时候,我们来看一下,Intel SOC FPGA这个结构就不一样了。
大家仔细看一下,在我们的Intel SOC FPGA里面,我们提供了片上集成的处理器子系统,然后在它的外侧,实际上是我们FPGA的Fabric,我们之前俗称的FPGA的内核。
在这两者之间,我们提供了非常丰富的互连资源。
特别对于我们刚才提到的类似于DPD这样的应用,需要实时地双向的交换大规模数据的这种应用里面。
我们可以利用我们在片上互连中的这两条,超过128bit的双向的,可以跑到300MHz以上的这种高速双向总线,来实现我们的低延时、大数据量的一个传输。
本帖最后由 lcytms 于 2017-1-4 21:58 编辑
06
这样的一个结构,其实对于我们目前的,离我们越来越近的5G的网络,有更加现实的意义。
大家知道,对我们5G网络来说,我们提出了Gbit传输的带宽的市场需求。
为了满足这样的市场需求,在5G的标准里面,基本上空口里面一个关键性的,就是叫使用三维的波速成型技术。
来更好地控制在各个手机终端之间的干扰,以及提高更高的一个传输能量。
而这种三维的波速成型技术依赖于什么呢?
07
它是依赖于大规模阵列天线的一个硬件的平台。
所谓的大规模阵列天线,就是说,大家可能很熟悉原来的基站,可能我们基本上就两个天线,四个天线,或者TD的八个天线。
大家都已经觉得,基本上就这样做了。
但是我们的大规模智能天线的系统里面,我们的天线的元素基本上是64、128,甚至有256的天线元素。
这样的一个天线数量呢,相对于我们原来的3G甚至4G的网络来说,它有一个量上的增长。
那么也就意味着,我们的每一个你需要实现的,对每一个天线通道的提供的DPD的运算处理,也是原来的数倍。
应该是多一个数量级吧。
从8到64,或者128。
在这里呢,我们给大家准备了一个基于我们SOC 硬件的一个加速器的演示。
请我们的摄像师给大家一个特写。
08
这个风扇下面,实际上就是我们的SOC FPGA。
然后我们实质上在这个开发板上,通过这条网线,跟我们屏幕上显示的这台机器交换数据,以及我们的处理结果。
比较我们软件以及硬件加速器的一个结果,做这样的一个demo。
右下角实际上是我们利用FPGA资源实现了加速器的DPD的一个实现。
而在我们的左侧,左下角,实际上是一个纯粹的只利用FPGA内部处理器子系统来实现的一个纯软件的DPD实现的一个方案。
我们想通过这样一个demo,让大家感受一下,就说我们如果利用FPGA资源来实现了硬件加速之后,那我们DPD的一个速度将会变成什么样?
页:
[1]
2