集成电路技术分享 - Powered by Discuz! Archiver

lcytms 发表于 2017-1-4 21:35:47

ISDF2016经典之K3：英特尔SoC FPGA计算加速应用演示

本帖最后由 lcytms 于 2017-5-12 17:30 编辑

ISDF2016经典之K3：英特尔SoC FPGA计算加速应用演示

参考链接：
https://www.altera.com.cn/events/asia/altera-soc-developers-forum/isdf-content.html

全部经典内容包括：
K系列的主题演讲（K1~K3）；
A系列的硬件主题（A1~A12）；
B系列的软件主题（B1~B10）。

K3指的是主题演讲keynote-3。

20161108 ISDF 2016，北京
英特尔公司Claude Li
主题演讲12’27’’

下载视频链接：
视频文件：ISDF2016-China-keynote-3.mp4
下载链接：https://www.altera.com.cn/content/dam/altera-www/global/zh_CN/video/ISDF2016-Beijing/ISDF2016-China-keynote-3.mp4

lcytms 发表于 2017-1-4 21:48:13

00
（杨旭）接下来，我再给大家展示一下Intel的SOC FPGA，它在端到端的系统当中，对一些特定的加速的应用。
在这，我要邀请Intel的同事，Claude Li上台。
有请Claude。
Claude你好！
您给大家介绍一下，今天你给大家演示一个什么样的精彩的demo。

（Claude）我今天给大家demo的，给大家展示的是一个基于我们Intel SOC FPGA的DPD的计算加速的一个应用。
OK。
大家对手机太熟悉了，大家已经离不开了。
大家都知道，手机通讯的实现是离不开成千上万的基站构成的蜂窝无线网络。

lcytms 发表于 2017-1-4 21:50:07

01
对于蜂窝无线网络来说，可能大部分人最熟悉的，就是显示在这个屏幕上的远程的射频单元。
在这里面，有天线，有功放，正是这两者将我们在网络中的数据，通过空中的无线信号，传输到大家的手机中去。
而特别是功放的传输功率，决定了我们的一个基站能够为多远范围的手机提供服务。
通常，在我们业界来说，如果没有DPD的技术的话，我们功放的效率不会超过20%。
也就是说，如果你期望20W的一个发送功率，那么你不得不用我们的功放单元提供超过100W的功率。
但是如果有了DPD的技术，我们在业界比较好的技术，能够将功放效率提高超过40%。

lcytms 发表于 2017-1-4 21:50:44

02
也就是说，你可能只需要提供不到50W的功率，给我的功放单元。
那就能达到同样的20W的发送功率。这是一个非常好的效率的提升。
所以说，DPD技术的实质是什么呢？
它实质是利用一系列的矩阵运算，来实时地跟踪、去逼近我们功放的工作状态，从而产生一系列的加权系数。
对于我们的发送信号，在它进入功放之前，进行预先的调整，然后充分的去利用功放的整个工作范围，从而达到一个更好的工作效率。
OK。
也就是说，我们功放效率的好坏，依赖于我们DPD技术的一个实现。

lcytms 发表于 2017-1-4 21:51:28

03
而DPD技术的实现的好坏是怎么衡量的呢？
就在于核心的那一系列矩阵运算的加速是否够快，是否能够更好地逼近我们功放的运行状态。
但是我们目前，或者说更传统的远端射频单元的信号处理平台里面，我们通常是有DSP处理器、FPGA加上微处理器这样构成的一个分立化的一个平台。
在这样的平台里面，我们FPGA作为一个数据通路，它会实现我们无线信号的调频、滤波，然后以及DPD处理的一个前向通路。
而我们的DSP处理器，会完成什么呢？
它会完成那一系列的矩阵运算操作，它来提取出我们，逼近我们功放工作状态，体现我们功放工作状态的加权系数。

lcytms 发表于 2017-1-4 21:52:21

04
然后在这两者之间，在DSP和FPGA之间，我们依赖于我们非常传统的一些32bit位宽的数据总线，完成在FPGA和DSP处理器之间的数据交互。
但是，随着我们无线蜂窝网络，从原来的2G GSM，到我们的3G，到我们现在的4G。
随着我们无线信号的带宽越来越宽，我们发现，在这样的一个处理平台里面，我们在FPGA和DSP处理器之间的这一条并行总线，往往成了我们提高我们DPD performance的性能的一个瓶颈。
为什么呢？
因为这条总线，它通常是32bit的一种并行的、对memory访问的一个总线。
它的工作主频不会太快，一般不会超过200M。
那也就是说，可能不能给你提供超过7Gbit的这样一个带宽。

lcytms 发表于 2017-1-4 21:53:41

05
而且由于它是一个半双工的、读写切换的一个总线，那么对于DPD这样一个需要实时双向交换数据的系统来说，特别是在我们现在的3G、4G。
我们采用了多天线的技术以后，这个接口经常就成了我们性能的一个瓶颈。
这个时候，我们来看一下，Intel SOC FPGA这个结构就不一样了。
大家仔细看一下，在我们的Intel SOC FPGA里面，我们提供了片上集成的处理器子系统，然后在它的外侧，实际上是我们FPGA的Fabric，我们之前俗称的FPGA的内核。
在这两者之间，我们提供了非常丰富的互连资源。
特别对于我们刚才提到的类似于DPD这样的应用，需要实时地双向的交换大规模数据的这种应用里面。
我们可以利用我们在片上互连中的这两条，超过128bit的双向的，可以跑到300MHz以上的这种高速双向总线，来实现我们的低延时、大数据量的一个传输。

lcytms 发表于 2017-1-4 21:54:26

本帖最后由 lcytms 于 2017-1-4 21:58 编辑

06
这样的一个结构，其实对于我们目前的，离我们越来越近的5G的网络，有更加现实的意义。
大家知道，对我们5G网络来说，我们提出了Gbit传输的带宽的市场需求。
为了满足这样的市场需求，在5G的标准里面，基本上空口里面一个关键性的，就是叫使用三维的波速成型技术。
来更好地控制在各个手机终端之间的干扰，以及提高更高的一个传输能量。
而这种三维的波速成型技术依赖于什么呢？

lcytms 发表于 2017-1-4 21:56:12

07
它是依赖于大规模阵列天线的一个硬件的平台。
所谓的大规模阵列天线，就是说，大家可能很熟悉原来的基站，可能我们基本上就两个天线，四个天线，或者TD的八个天线。
大家都已经觉得，基本上就这样做了。
但是我们的大规模智能天线的系统里面，我们的天线的元素基本上是64、128，甚至有256的天线元素。
这样的一个天线数量呢，相对于我们原来的3G甚至4G的网络来说，它有一个量上的增长。
那么也就意味着，我们的每一个你需要实现的，对每一个天线通道的提供的DPD的运算处理，也是原来的数倍。
应该是多一个数量级吧。
从8到64，或者128。
在这里呢，我们给大家准备了一个基于我们SOC 硬件的一个加速器的演示。
请我们的摄像师给大家一个特写。

lcytms 发表于 2017-1-4 21:57:53

08
这个风扇下面，实际上就是我们的SOC FPGA。
然后我们实质上在这个开发板上，通过这条网线，跟我们屏幕上显示的这台机器交换数据，以及我们的处理结果。
比较我们软件以及硬件加速器的一个结果，做这样的一个demo。
右下角实际上是我们利用FPGA资源实现了加速器的DPD的一个实现。
而在我们的左侧，左下角，实际上是一个纯粹的只利用FPGA内部处理器子系统来实现的一个纯软件的DPD实现的一个方案。
我们想通过这样一个demo，让大家感受一下，就说我们如果利用FPGA资源来实现了硬件加速之后，那我们DPD的一个速度将会变成什么样？

页: [1] 2

fpga论坛|fpga设计论坛's Archiver

ISDF2016经典之K3：英特尔SoC FPGA计算加速应用演示