集成电路技术分享

 找回密码
 我要注册

QQ登录

只需一步,快速开始

搜索
查看: 1156|回复: 0

无线电应用发展

[复制链接]
zhiweiqiang33 发表于 2014-8-22 15:18:26 | 显示全部楼层 |阅读模式
新一代5G系统的设计十分复杂,而UltraScale器件内置的相关功能,能让这项工作变得更加简单。

Michel Pecot 赛灵思公司无线系统架构师

即将到来的5G无线通信系统似乎需要支持比目前使用的4G系统更大的带宽(200 MHz及以上),以及大型的天线阵列,以实现更高的载波频率,从而有可能构建小得多的天线元。这些所谓的大规模多输入多输出(MIMO)应用连同更加迫切的延迟需求可将设计复杂度提高一个数量级。

去年年底,赛灵思宣布推出20nmUltraScaleTM系列,目前第一款器件已在运输途中[1,2,3]。这项新技术与之前的28nm7 系列相比具有众多优势,尤其是在无线通信方面。确实,这款新型芯片与赛灵思Vivado®设计套件[4,5]工具的结合完美适用于新一代无线电应用等高性能信号处理设计。

我们来看看针对这类设计UltraScale器件有哪些优势,着重观察架构方面——尤其是当实现一些用于无线数字前端(DFE)应用的最常见功能时,这种增强功能会给DSP48Slice和Block RAM带来哪些优势。与7 系列相比,UltraScale系列可提供更加密集的布线和时钟资源,能够实现更高的设备利用率,尤其针对高速设计。但是,这些特性通常不能对设计架构产生直接影响,因此我们在这里不做讨论。

UltraScale架构增强功能简介

UltraScale 20nm架构不仅能随着几何节点的迁移提高集成能力,提升架构性能以及降低功率消耗,还包括一些显著增强的全新功能,可直接支持DFE应用。而这些功能对UltraScale Kintex®器件而言尤其重要,为此赛灵思已根据此类设计的需求进行了重大调整。

首先,这些器件包含多达5,520个DSP48Slice,这几乎是7 系列FPGA的最大数量(1,920)的三倍(Zynq® - 700 All Programmable SoC为2,020),因此,它可以实现高集成度。比如,一个中型UltraScale FPGA的瞬时带宽就能达到80到100 MHz,您可以利用这一带宽实现完整的8Tx/8Rx DFE系统,而在7 系列架构中,必须使用双芯片解决方案才能实现,因为每个芯片只能有效支持一个4x4系统。如欲了解有关这类设计各项功能的详细信息,敬请参阅赛灵思白皮书WP445“采用赛灵思All Programmable FPGAs以及SoC实现高速无线电设计”[6]。

SerDes可在最低速度等级器件上支持12.5 Gbps流量,实现最大JESD204B接口连接速度。

由于被动冷却的无线电施加了热限制,因此将复杂设计集成到单个器件要求大幅降低功耗,以散发热量。UltraScale系列在提供这项功能时,其静态功耗比同等规模的7 系列器件低10%-15%,动态功耗比类似设计低20%-25%。此外,赛灵思还大幅降低了UltraScale产品线的SerDes功耗。

此外,它还存在性能优势。最低速度等级UltraScale器件支持时钟速率高于500MHz的设计,而7 系列器件则要求达到中速等级。然而,即使这样,Block RAM从计时角度来看要求仍然严苛,并且必须选择WRITE_FIRST或NO_CHANGE模式以达到这种性能。不能使用READ_FIRST,因为它的限值在470MHz左右,而另外两种模式可达到530MHz。无论何时NO_CHANGE总是您的最佳选择,因为它同时还能实现最低功耗。

同样,SerDes可在最低UltraScale速度等级上支持高达12.5 Gbps流量,从而实现最大JESD204B接口连接速度,其应很快可在大多数DAC和ADC上实现。同样,最低的UltraScale速度等级还可支持两个最高CPRI等级(7级和8级,其流量分别为9.8304和10.1376Gbps)以及10GE接口,通常用于DFE系统。

此外,UltraScale Kintex资源组合更适合无线电应用,它能够实现逻辑资源的最佳用法。该DSP逻辑比尤其符合DFE设计的典型需求。确切地说,UltraScale Kintex器件拥有每千查找表(LUTs)8-8.5个DSP48Slice,而7 系列器件只有大概6个。

赛灵思还大幅增加了UltraScale架构的时钟和布线资源。这项增加提高了器件利用率,尤其针对高时钟速率设计。实际上,这样做减少了布线拥塞,设计人员可以实现更好的设计封装和LUT利用率,尤其是使LUT/SRL压缩变得更为高效。用户可以利用这项有意思的架构特性更好地打包设计,从而优化资源利用率以及动态功耗,其中相关逻辑的动态功耗下降系数可达1.7。LUT/SRL的压缩原理包括采用LUT6的两个输出在单个LUT内打包两个不同函数。这样,如果两个LUT5共享相同的输出或内存读取/写入地址,您可以将实现逻辑函数或内存的两个LUT5打包到一个LUT6中。同样,也可以将两个SRL16打包到一个LUT6中。

该特性对于数字无线电设计非常实用,该设计通常将共享同一地址的多个小内存(例如储存过滤系数的ROM)和很多短延迟线(不到16圈)集成到按时间排列的不同信号路径中。数据复用功能,尤其是双输入复用器,也将受益于这项特性。但是要想获得较高的时钟速率,必须谨慎使用LUT/SRL压缩。首先,必须用连接到O6/O5 LUT输出的两个触发器以避免发生任何计时问题。基于相同的原因,建议仅对相关逻辑使用这项功能,该策略还能起到限制布线拥塞的作用。

在UltraScale器件中,时钟架构和可配置逻辑块均有助于更好地利用器件。尽管CLB仍然以7 系列架构为基础,但现在每个CLB拥有单个Slice(而非两个),其中集成了8个6输入LUT和16个触发器。因此进位链有8位长,且提供更宽的输出复用器。另外,赛灵思还增加了控制集资源(也就是时钟,时钟使能和复位信号均共享于CLB中的存储组件)。

您需要登录后才可以回帖 登录 | 我要注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

QQ|小黑屋|手机版|Archiver|fpga论坛|fpga设计论坛 ( 京ICP备20003123号-1 )

GMT+8, 2024-12-23 22:51 , Processed in 0.058733 second(s), 23 queries .

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表