单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,9 DSP,技术及高速实时数字信号处理,9.1 DSP,技术,9.2,雷达数字信号处理,9.1 DSP,技术,一、,DSP,的分类,二、,DSP,芯片的运算速度,三、,TI DSP,四、,ADI,高性能,DSP,一、,DSP,的分类,二、,DSP,芯片的运算速度,运算速度是,DSP,芯片的一个最重要的性能指标,也是选择,DSP,芯片时所需要考虑的一个主要因素。,DSP,芯片的运算速度可以用以下几种性能指标来衡量:,(,1,)指令周期:,即执行一条指令所需的时间,通常以,ns,(,纳秒)为单位。如,TMS320LC549,80,在主频为,80MHz,时的指令周期为,125ns,;,(,2,),MAC,时间:,即一次乘法加上一次加法的时间。大部分,DSP,芯片可在一个指令周期内完成一次乘法和加法操作,如,TMS320LC549,80,的,MAC,时间就是,125ns,;,(,3,),FFT,执行时间:,即运行一个,N,点,FFT,程序所需的时间。由于,FFT,运算涉及的运算在数字信号处理中很有代表性,因此,FFT,运算时间常作为衡量,DSP,芯片运算能力的一个指标;,(,4,),MIPS,:,即每秒执行百万条指令。如,TMS320LC549,80,的处理能力为,80MIPS,,即每秒可执行八千万条指令;,(,5,),MOPS,:,即每秒执行百万次操作。如,TMS320C40,的运算能力为,275 MOPS,;,(,6,),MFLOPS,:,即每秒执行百万次浮点操作。如,TMS320C31,在主频为,40MHz,时的处理能力为,40 MFLOPS,;,(,7,),BOPS,:,即每秒执行十亿次操作。如,TMS320C80,的处理能力为,2 BOPS,。,DSP Market Share in 2003,Total Revenue: 6,130 Million US-$,C5000,C6000,C2000,Efficient Integration,for Control,DSC,Power Efficient,Performance,DSP,High Performance,C Efficiency,DSP,Texas Instruments DSP/DSC - Portfolio,TMS320 Family Branches,Texas Instruments TMS320 family,Different families and sub-families exist to support different markets.,Lowest Cost,Control Systems,Motor Control,Storage,Digital Ctrl Systems,C2000,C5000,Efficiency,Best MIPS per,Watt / Dollar / Size,Wireless phones,Internet audio players,Digital still cameras,Modems,Telephony,VoIP,C6000,Multi Channel and Multi Function Apps,Comm Infrastructure,Wireless Base-stations,DSL,Imaging,Multi-media Servers,Video,Performance,&,Best,Ease-of-Use,Control Performance,Future of Control: Improved Industrial Drive, Improved System Density for ONET, etc.,Multi-Function, Appliance & Consumer Control,F2801,100 MIPS,F2806,100 MIPS,F2808,100 MIPS,Software Compatible,F2810150 MIPS,In Silicon,Announced,High-Precision Uni-processor Control for Applications from Industrial Drives to Automotive,C2810,150 MIPS,C2811,150 MIPS,C2812,150 MIPS,Samples December 04,Higher performanceGreater integration,F2811150 MIPS,F2812150 MIPS,C24x,F24x,LC240xA,LF240xA,R2811150 MIPS,R2812150 MIPS,Roadmap of TMS320C2000 DSCs,TIMER,Flash,(words),ROM,(words),RAM,(words),CPU,ADC,McBSP,EXMIF,Watch Dog,SPI,SCI (UART),CAN,Volts (V),# I/O,Package,Resolution,CAP/QEP,PWM(CMP),Event Manager,32bit 32 bit 16 bit 16 bit 16 bit 16 bit 16 bit 16 bit 16 bit 16 bit 16 bit 16 bit 16 bit 16bit 16bit,18K 18K 2.5K 2.5K 1.0K 1.0K 1.0K 2.5K 1.5K 544 1.0K 544 544 544 544,32K 16K 6K 8K 4K,128K 64K 32K 32K 16K 8K 8K 8K8K 16K,6/6 6/6 6/4 6/4 3/2 3/2 1/0 6/4 6/4 3/2 1/0 3/23/24/23/2,16 16 16 16 8 8 7 16 16 8 7 8 8 12 8,7 7 4 4 2 2 2 4 4 2 2 2232,12-bit 12-bit 10-bit 10-bit 10-bit 10-bit 10-bit 10 bit 10-bit 10-bit 10-bit 10-bit10-bit 10-bit 10-bit,2 2 1 1 1 1 1 1 1 1 1 1 1 1 1,200ns 200ns 500ns 500ns 500ns 500ns 500ns 375ns 375ns 425ns 500ns 900ns 900ns 6.1us 900ns,1.8 core 1.8core 3.3 3.3 3.3 3.3 3.3 3.3 3.3 3.3 3.3 5.05.05.05.03.3 I/O 3.3 I/O,56 56 41 41 21 21 13 41 41 21 13 32262826,176LQFP 128LQFP 144LQPF 100LQPF 64LQFP 64PQFP 32LQFP 100LQFP 100LQFP 64PQFP 32LQFP 144LQFP 64PQFP 132PQFP64PQFP179u*BGA 68PLCC68PLCC,F2812 F2810 LF2407A LF2406A LF2403A LF2402A LF2401A LC2406A LC2404A LC2402A LC2401A F243 F241 F240 C242,Conv time,# ofChan,16 16 16 16 8 8 5 16 16 8 5 8 8 16 8,TIMER,BootROM,(words),MIPS,150 150 40 40 40 40 40 40 40 40 40 20 20 20 20,4K 4K 256 256 256 256 256,TI C2000: Portfolio for Embedded Applications,三、,TI DSP,1,、,TMS320F2812,高性能的静态,CMOS,工艺,可使主频达到,150MHz,(指令周期,6.67ns,);低功耗设计(,1.8V,和,3.3V,供电);,高性能的,32,位,CPU,。实现,16X16,和,32X32,乘操作,快速的中断操作,程序空间达,4M,,寻址空间达,4G,,在,C/C+,和汇编语言中代码可得到优化,还可向下兼容,TMS320F24X/LF240X,代码;,片上存储器:闪存,128K,字,单访问双口,RAM(SARAM)18K,字;,启动只读存储器,ROM 4K,字,具有软件启动模式包含标准的数学表;,时钟和系统控制采用锁相环技术,PLL,来控制系统各模块所需要的频率;,具有,3,个外部中断和外围中断扩展模块,PIE (Peripheral Interrupt Expansion),,,PIE,可支持多达,45,个外部中断;,128,位的代码安全模块,CSM(Code,Security Module),,更好地保护了开发者的知识产权;,具有,3,个,32,位的,CPU,定时器和适合电机控制的事件管理模块,EVA,和,EVB,;,具有很强的外围通讯功能:同步串行口,SPI,,通用异步串行口,SCI,,增强的,eCAN,和多通道缓存串行口,McBSP,;,多达,16,个通道、精度可达,12,位模拟,/,数字转换器,ADC,。,C281x Block Diagram,32x32 bit,Multiplier,Sectored,Flash,A(18-0),D(15-0),Program Bus,Data Bus,RAM,Boot,ROM,22,32-bit,Auxiliary,Registers,3,32 bit,Timers,Realtime,JTAG,CPU,Register Bus,R-M-W,Atomic,ALU,PIE Interrupt Manager,32,32,32,Event,Manager A,Event,Manager B,12-bit ADC,Watchdog,McBSP,CAN2.0B,SCI-A,SCI-B,SPI,GPIO,2,、,TMS320C3X,TMS320C30,采用改进的哈佛结构,其特点性能如下:,指令周期,33ns( 66MHz),、,60MFLOPS,、,33MIPS,总线,24bit,地址,,32bit,数据程序,扩展总线,14bit,地址,,32bit,数据程序;,6432bit,指令,Cache,;,16M,片外存储空间,数据程序混放,读单周期,写双周期;,片内,2K 32bit,双口,RAM,,,可分两组分别访问;,非标准,32,40 bit,浮点格式;,32,40 bit,浮点乘法器及,ALU,,,32bit,移位器;,并行乘累加操作;,8,个,40 bit,数据寄存器,,8,个,32 bit,辅助(寻址)寄存器;,片内,DMA,控制器;,寻址:循环、位反序;,单指令循环、程序块循环;,条件调用返回;,互锁操作;,2,个串口;,2,个定时器;,加载方式,32 bit,;,TI,仿真接口(非,JTAG,);,软硬件等待状态;,外部中断,4,个;,1024,点复数,FFT,:,1.67 ms,;,浮点求倒数,1155 ns,;,浮点求平方根倒数,1287 ns,;,封装,181 PGA,。,C31,是,C30,的简易型,区别在于没有扩展总线,仅有,1,个串口,,QFP132,封装,可用多种模式(,8bit,16bit,32bit,串口)加载且可重定位中断矢量表,而,C30,必须用,32 bit,存储器从,0,地址装入初始化程序代码。,C32,在,C31,的基础上对结构进一步简化,将片内,RAM,从,2K,32,位减少为,512,32,位,同样分成两个,256,字存储块,也具有像,C31,一样的多模式程序加载方法,此外在以下方面比,C31,有了增强和改进:,条件调用返回;,双通道,DMA,控制器,支持,8,16,32 bit,字宽的外部数据访问方式和,16,32 bit,字宽的外部程序访问;,外部管脚,PRGW,区分,16,32 bit,外部程序访问;,两个外存储器选通信号,STRBO,、,STRB1,和一个,I,O,选通,IOSTRB,,,分别对应各种字宽、等待状态、数据类型的三组总线控制寄存器;,两种低功耗模式;,PQFP144,封装,,40MHZ,50MHZ,60 MHZ,多种主频。,TI,推出了,TMS320VC33,,,VC33,采用高达,120MHZ,或,150MHZ,的主频,有,120,150MFLOPS,的峰值运算能力,片内,1Mbit RAM,,,程序代码与先前的,C3X,完全兼容,,VC33,本身结构功能也与,C31,兼容,采用,3. 3 V I,O,和,1. 8V,处理器核使功耗降低到,200 mw,,,而,C30,C31,C32,的功耗在,1.5,3W,之间。,TMS320C3X,可以用与浮点乘加相同的速度完成,32 bit,定点乘加,要注意的是,32 bit,定点乘限制输入数据为,16 bit,(,C32,),或,24 bit,(,C30,),,结果取,32 bit,。,TMS320VC33,的主要特点:,高性能浮点,DSP 13ns,指令周期、,150MFLOPS,34K32bit (1.1Mbit),片上双口,SRAM (2 16K+2 1K),、减少了外存(即减少了外部总线周期),速度等性能更高,5 PLL,允许外接低速晶振,非常低的功耗(功耗,200mW,),和价格(,100,),32bit,高性能,CPU,、,16/32,整数、,32/40,浮点操作,4,个内部解码页选通 与,I/O,及存储器器件简单接口 、减少了读取时间,32bit,位指令,24bit,位地址,8,个可扩展精密寄存器,1,个串口、,2,个,32bit,定时器、,DMA,协处理器协助,I/O,和,CPU,工作,144pin (LQFP) 132pinPQFP,具有,8,个辅助寄存器的两个地址产生器、两个辅助寄存器算术单元,两个低功耗模式,2,或,3,操作数指令,并行算术逻辑单元和单周期乘法器,块重复功能,带单周期分支的零顶环、条件调用和返回、支持多处理器的互所指令,总线控制寄存器配置选通控制等待状态产生,1.8V(Core),和,3.3V(I/O),供电,,C3X,在,1.5,3W,之间,JTAG,、,更快且支持多片,VC33,(,取代以前的,MPSD,仿真口),这种强大的硬件配置提供了以前单片难以获得的性能。,为什么要片内,RAM,大的,DSP,效率高?,目前,DSP,发展的片内存储器,RAM,越来越大,要设计高效的,DSP,系统,就应该选择片内,RAM,较大的,DSP,。,片内,RAM,同片外存储器相比,有以下优点:,片内,RAM,的速度较快,可以保证,DSP,无等待运行。,对于,C2000/C3x/C5000,系列,部分片内存储器可以在一个指令周期内访问两次,使得指令可以更加高效。,片内,RAM,运行稳定,不受外部的干扰影响,也不会干扰外部。,DSP,片内多总线,在访问片内,RAM,时,不会影响其它总线的访问,效率较高。,TMS320VC33,部分原理图,TMS320VC33,电路板图,3,、,TMS320C6701,TMS320C6701,主要特性包括:,时钟主频为,167M,(时钟周期为,6ns,),最高,6ns,的指令周期,每个周期可同时执行,8,条指令,高达,1GFLOPS,的运行能力;,硬件支持,IEEE,的单精度及双精度指令;,1Mbit,的片内,SRAM,,包括,64KB,的程序区和,64KB,的数据区;,32,位的外部存储器接口提供与同步存储器,(SBSRAM,、,SDRAM),及异步存储器,(SRAM,、,EPROM),的无缝连接;,由,8,个独立的运算功能单元和,32,个,32,位的通用寄存器组成。运算功能单元包括,4,个浮点的算术逻辑单元,ALU,,,2,个定点的,ALU,及,2,个浮点乘法器。,TMS320C6701,最突出的特点是采用了先进的,VLIW,(甚长指令字),CPU,核结构。,通用寄存器分成,A,、,B,两个寄存器文件。采用这种,VLIW,结构,,6701,可以一次读取,8,条,32,位的指令,将,8,条指令分配到,8,个不同的运算单元同时运算。这种片内并行结构是,6701,获得高运算能力的关键所在。另外,虽然,6701,一次同时读取和执行,8,条指令,但并不意味着一次同时执行,8,条有效的指令。运算单元、寄存器和内存资源冲突以及指令间的上下文依赖关系都会阻碍有效指令的并行执行。,6701,的运行效率随有效指令的并行程度的不同而不同,因此应用程序编写的好坏直接影响,6701,的运行效率。,四、,ADI,浮点,DSP,在构成多,DSP,方面,,ADSP Tiger SHARC,系列处理器有其自身的优势。在用,ADSP Tiger SHARC,处理器组成多,DSP,系统时,其本身就提供了实现互连所需的片内总线仲裁控制和特有的链路口,可以以各种拓扑结构互连,DSP,,满足一些大运算量的要求。尽管,TI,的,DSP,也可以互连,但是机制比较复杂。,ADI DSP,可以降低外围设计的复杂度,增强系统的稳定性。,TS201S,芯片,(600MHz),主要性能指标:,运行速度:,1.67ns,指令周期,每周期可执行,4,条指令;,DSP,内部有,2,个运算模块,支持的运算类型有:,32b,和,40b,浮点运算,,8b,、,6b,、,32b,及,64b,定点运算;,每秒可执行,12G,次,16b,定点运算或,3.6G,次浮点运算次;,采用单指令多数据,(SIMD),模式,可提供,4.8G/s,的,40b,乘加运算,;,外部总线,DMA,传输速率,1.2GB/s(,双向,),;,4,个链路口,(,每个链路口提供,1.2GB/s,的传输速率,可同,时进行,DMA,传输,),;,用于通过共享总线提供无缝连接的片内集成总线仲裁控制;,片上,SDRAM,控制器,片上,DMA,控制器,(,提供,14,条,DMA,通,道,),;,1024,点复,FFT,:,15.7us,;,FIR,(每阶):,0.83ns,。,9.2,雷达数字信号处理,一、功能及算法,二、结构体系,三、实现方法,一、功能及算法,1,、概述,主要完成模拟数字转换(,ADC,)、脉冲压缩(,PC,)、动目标检测(,MTD,),/,动目标显示(,MTI,)、相参积累(,FFT,)、恒虚警处理(,CFAR,)、数字模拟转换(,DAC,)等工作,在杂波背景下提取目标。,2,、,ADC,f,0,S(t,),I(n,),LPF,ADC,Q(n,),LPF,ADC,90,S(t,),I(n,),Q(n,),BPF,ADC,DSP,3,、脉冲压缩,a.,时域处理:非递归滤波器,h(0),h(N-2),h(1),h(2),h(N-1),x(n),Ts,Ts,Ts,y(n),b.,频域处理:采用正,反离散傅氏变换法,(,海明加权,),FFT,IFFT,ROM,谱相乘,LFM,信号脉冲压缩结果,4,、动目标检测(显示)(,MTD/MTI,),5,、恒虚警电路(,CFAR,),a,.,噪声电平恒定电路,(,慢门限,):,无杂波时采用的,CFAR,电路。,b.,距离单元平均恒虚警电路(快门限),二、雷达数字信号处理的体系结构,多指令单数据,MISD,结构,ADC,PC,MTD,CFAR,DAC,三、雷达数字信号处理的实现,1,、,ADC,:低通,/,带通信号、时钟,/,信号隔离、采样频率,2,、,PC,:,FIR,、正反,FFT,3,、,MTD/MTI/FFT,:数据重排、,FIR,组、,MTI+FFT,4,、,CFAR,:快、慢,,DSP,、,FPGA,5,、,DAC,:输出驱动、电平,