
1. 项目概述当FPGA遇见合成孔径手持超声的“小身材大能量”之路在医疗影像设备领域便携化与高性能似乎总是一对难以调和的矛盾。尤其是在超声成像这个场景里传统的大型推车式设备虽然能提供高清图像但其高昂的成本、庞大的体积和复杂的操作极大地限制了它在基层医疗、院前急救、家庭监护等场景的普及。作为一名长期混迹于嵌入式系统和医疗电子交叉领域的工程师我一直在思考能否用更精巧的硬件、更智能的算法做出一台既便宜又好用图像质量还不打折扣的手持超声这个问题的答案最终落在了FPGA现场可编程门阵列和合成孔径成像这两项技术的结合上。FPGA不是什么新鲜玩意儿但它那种“硬件可编程”的特性意味着我们可以把超声成像中最核心、最耗时的波束合成算法直接“烧”成硬件电路来执行。这比用通用处理器CPU或者图形处理器GPU软件计算要快得多也省电得多。而合成孔径成像则是一种“时间换空间”的智慧。我们不需要在探头里密密麻麻排布上百个物理通道那会极大增加成本和功耗而是用少数几个通道通过快速切换接收时序在时间维度上“合成”出一个大孔径接收阵列的效果从而显著提升图像分辨率。最近我和团队完成了一个原型机的设计与验证核心就是用一块中等规模的FPGA芯片Intel Cyclone IV EP4CE55搭配仅8个物理收发通道通过合成孔径技术实现了等效最高64通道的接收聚焦能力。实测下来在B模式和彩色多普勒C模式双模成像下能跑到22帧/秒的帧率侧向分辨率在浅表可达0.30毫米对比度噪声比CNR提升至7.58分贝而FPGA部分的功耗仅530毫瓦左右。这套方案为真正意义上的低成本、高性能手持超声指出了一条清晰的技术路径。无论你是医疗电子领域的硬件工程师、算法工程师还是对嵌入式高性能计算感兴趣的朋友相信这篇从零到一的实战记录都能给你带来一些启发。2. 系统核心架构与设计思路拆解2.1 为何选择FPGA合成孔径这条技术路线在手持设备的设计中我们永远在功耗、体积、成本和性能之间走钢丝。对于超声成像系统图像质量的核心在于波束合成——即如何将各个阵元接收到的微弱回波信号经过精确的延时和对齐变迹后叠加起来形成一条清晰的扫描线。这个过程计算量极大尤其是当通道数增多、扫描线密集时。传统的方案无外乎几种专用集成电路ASIC、通用处理器CPU/GPU和FPGA。ASIC性能功耗比最优但开发周期长、成本高且一旦流片算法就固化了缺乏灵活性不适合快速迭代的原型验证。CPU/GPU方案灵活但CPU的串行处理效率低GPU虽并行能力强但其功耗和硬件集成复杂度对便携设备是巨大挑战。FPGA恰恰找到了一个平衡点它拥有硬件级的并行处理速度和能效同时又具备可重构的灵活性允许我们快速实现并优化诸如动态聚焦、合成孔径等复杂算法。而合成孔径Synthetic Aperture技术则是为了解决物理通道数不足的瓶颈。想象一下你的探头只有8个“耳朵”接收通道但你想听清远处一个细微的声音。一个“耳朵”听不清但如果你让这8个“耳朵”快速移动到不同位置去听同一声音然后把听到的信息组合起来就能模拟出拥有很多“耳朵”的效果。在超声中我们通过电子开关快速切换接收通道的激活组合即接收孔径在一次发射后用多个不同的接收孔径去接收回波然后将这些数据在FPGA中合成等效于获得了更大的接收孔径。这样我们用8个物理通道和对应的8套前端电路就实现了最高64通道的接收效果在控制硬件复杂度和成本的同时大幅提升了图像质量。2.2 整体硬件架构分而治之的背靠背设计我们的原型机硬件架构采用了典型的“分而治之”思想将模拟高压发射Tx与模拟前端接收Rx物理分离形成了两个背靠背Back-to-Back的PCB板卡通过板对板连接器互联。这种设计有几个实实在在的好处信号隔离高压发射电路瞬间电压可达±50V甚至更高产生的噪声很容易干扰微伏级别的微弱回波接收电路。物理分离和合理的布局布线是保证接收信号信噪比SNR的基础。模块化与可升级Tx板和Rx板可以独立设计和优化。例如未来如果想升级发射通道数或更换更高性能的超声探头可能只需要重新设计Tx板Rx板和核心的FPGA处理板可以复用。散热管理发射电路是主要的功耗和发热源将其独立出来有助于进行针对性的散热设计。整个系统的信号流如下发射路径FPGA产生数字发射序列和精确延时 - 驱动芯片Pulser如HDL6M5584和高压开关Switcher如HDL6M06531B - 产生高压脉冲激励超声探头阵元。接收路径探头阵元接收回波信号 - 模拟前端芯片AFE如AFE5805进行低噪声放大、可变增益控制、滤波和模数转换ADC- 数字化的射频RF数据送入FPGA。处理核心FPGA是整个系统的大脑。它内部实现了扫描序列控制、发射波形与延时生成、接收波束合成含自动延时计算与分段变迹、数字解调DDC等所有实时信号处理流程。数据交互处理后的基带数据IQ信号通过USB接口上传至上位机如PC或平板进行进一步的图像处理如对数压缩、扫描转换、伪彩映射和显示。注意AFE芯片的选型至关重要。它需要具备多通道我们用了8通道、高采样率我们用到40MHz、低噪声和高动态范围。TI的AFE58xx系列是此类应用的常见选择它内部集成了低噪声放大器LNA、可编程增益放大器PGA、抗混叠滤波器和ADC极大简化了模拟接收链路的设计。3. 核心算法在FPGA中的实现与优化3.1 扫描序列时间与空间的交响乐超声成像是一行一行“画”出来的每一行扫描线都需要一次“发射-接收”周期。扫描序列控制器就是这支乐队的指挥它精确控制着何时发射、用哪些阵元发射、发射什么波形、随后用哪些阵元接收、接收多久。在我们的系统中一次完整的“扫描序列”定义了一次发射和与之对应的多次接收合成孔径。如图2所示我们固定使用一个8阵元的发射孔径Tx Aperture 0进行发射。发射完成后系统迅速切换到第一个8阵元的接收孔径Rx Aperture 0进行接收并在FPGA内部并行完成4条扫描线b0, b1, b2, b3的波束合成。这还没完系统保持发射状态不变快速切换到第二个接收孔径Rx Aperture 1再次接收并完成4条线的波束合成并将结果与上一次的进行叠加复合。如此循环最多可切换8个接收孔径最终将8次接收的数据合成等效于用一个64阵元的大孔径进行接收聚焦。为什么是4线并行这是一个权衡。更多的并行线数能直接提升帧率因为一次接收可以生成更多扫描线。但每增加一条并行线FPGA内就需要复制一套延时、变迹和累加逻辑消耗更多的逻辑和存储资源。经过综合评估4线并行能在我们选用的FPGA资源约5.5万逻辑单元和性能目标20帧/秒之间取得良好平衡。扫描序列的所有参数发射孔径、接收孔径、发射波形、脉冲重复频率PRF等都可通过FPGA内部的寄存器灵活配置从而支持B模式、彩色多普勒模式、频谱多普勒模式等多种成像模式。3.2 接收波束合成的两大核心优化自动延时与分段变迹波束合成的本质是“延时-求和”。每个接收通道的信号需要根据其阵元位置到成像点的距离进行精确的延时对齐然后乘以一个权重系数变迹窗以抑制旁瓣最后将所有通道的信号相加。在FPGA中实现动态聚焦每个成像点的延时都在变化的传统方法是查找表LUT即预先计算好所有通道、所有成像点的延时和变迹系数存储在外部或片内RAM中。这对于64通道、上万成像点的系统来说存储量是惊人的。为了在资源有限的FPGA内实现高效的64通道合成孔径波束合成我们引入了两项关键优化1. 自动延时计算Auto Delay Calculation我们摒弃了庞大的查找表采用了一种迭代算法来实时计算延时。其原理基于声波传播的几何关系公式1。通过巧妙的数学变换公式2-4我们将复杂的开方和除法运算转化为简单的整数加法和比较运算。具体在FPGA中我们为每个通道的每条扫描线预存两个初始参数α 和 β与阵元位置和波束偏转角度相关。然后为每个成像点对应一个采样时间点n通过迭代公式更新中间变量A(n)和B(n)并通过比较它们的大小来判断延时值k(n)是否需要增加。整个过程只需要几个加法器和寄存器无需乘法器或开方运算极大地节省了逻辑资源并实现了延时的实时、动态计算。2. 分段变迹Segmented Apodization变迹系数通常存储为一个二维表通道数 × 成像深度点数。对于4线并行接收如果每条线独立存储资源消耗将翻4倍。我们观察到对于相邻的4条扫描线其变迹系数分布形状相似只是中心位置有所偏移。因此我们可以将4条线的变迹窗合并成一个加宽的变迹窗数组如图5b所示。这样存储量从4份减少到1份。更进一步随着成像深度增加接收孔径会按恒定F数F#逐步扩大。这意味着变迹系数在相当一段深度内是保持不变的。因此我们将整个成像深度划分为16个区段在每个区段内变迹系数保持不变。只有当深度进入下一个区段时才切换到下一组变迹系数如图5c所示。通过“合并”与“分段”这两重优化我们将变迹系数的存储需求降低了数十倍使其能够轻松嵌入FPGA的片内存储器Block RAM中。实操心得在FPGA中实现这类算法一定要有“资源意识”。每增加一个乘法器或一块RAM都要问是否必要。迭代算法替代查找表是用计算时间但仍在单个时钟周期内完成换取了宝贵的存储资源这在FPGA设计中是非常经典的权衡策略。分段变迹的区段数我们选了16需要根据图像质量要求来微调区段太少会影响聚焦效果太多则节约资源的效果不明显。3.3 数字信号处理链从RF到IQ波束合成后得到的是射频RF信号它包含了丰富的组织信息但频率高中心频率7MHz数据量大不利于传输和后续处理。因此需要在FPGA内完成数字下变频DDC提取出基带的同相I和正交Q分量。我们的处理链如图7所示动态解调由于组织衰减回波的中心频率会随深度变化。我们采用了一个基于查找表的动态解调器其本振频率可以随深度编程调整以更好地匹配回波中心频率提高信噪比。低通滤波解调后会产生高频和低频分量需要用FIR低通滤波器滤除高频分量防止后续降采样时发生频谱混叠。我们设计了32组可配置的对称64阶FIR滤波器可以根据模式选择不同的滤波参数。降采样滤波后的数据速率仍然很高我们将其降采样到合适的速率最终输出I、Q两路数据。降采样不仅减少了数据量也为后续的上位机处理减轻了负担。至此所有前端的实时、高吞吐量信号处理均在FPGA内完成通过USB上传给上位机的已经是压缩过的基带IQ数据流极大降低了传输带宽要求和上位机的处理压力。4. 系统实现、测试与性能分析4.1 硬件实现与资源利用我们最终实现的PCBA尺寸为90mm x 33mm采用8层板设计非常紧凑。FPGA选用了IntelAltera的Cyclone IV EP4CE55这是一款中等规模、成本效益突出的器件。资源利用率报告是衡量设计是否优化的重要指标资源类型可用资源已用资源利用率逻辑单元 (Logic Cells)55,85641,13873.7%存储器比特 (Memory Bits)2,396,1601,586,17666.2%DSP模块 (18x18 Multipliers)15414392.9%这个利用率结果非常健康。逻辑单元和存储器用了约三分之二为未来的功能升级如更复杂的滤波算法留有余地。DSP模块利用率较高这符合预期因为波束合成中的变迹加权、解调中的乘法运算都需要大量乘法器。通过Quartus Prime的功耗分析工具估算在典型工作频率下FPGA部分的动态功耗约为530mW这对于手持设备来说是完全可以接受的。4.2 成像质量评估分辨率与对比度我们使用标准超声仿体包含点靶和囊性结构对系统成像性能进行了定量评估。测试条件128阵元线阵探头中心频率7.0MHz发射电压±50V采样频率40MHz。B模式成像我们变化合成孔径的数量从1到8观察图像质量的提升。如图9所示随着合成孔径数增加点靶的聚焦更锐利侧向分辨率提升囊性结构的边界更清晰内部更暗对比度提升。定量数据如下表所示合成孔径数 (等效通道数)侧向分辨率 10mm深度 (mm)侧向分辨率 20mm深度 (mm)对比度噪声比 (CNR, dB)1 (8通道)0.842.225.222 (16通道)0.521.156.014 (32通道)0.310.686.878 (64通道)0.300.487.58从数据可以清晰看出分辨率提升在浅层10mm孔径从1增加到4时分辨率改善明显0.84mm - 0.31mm从4到8时改善趋于平缓0.31mm - 0.30mm。这是因为当等效通道数达到一定数量约22通道后在当前设定的F数1.5下分辨率已接近衍射极限。在深层20mm提升效果更为显著因为大孔径对深部聚焦能力的改善更明显。对比度提升CNR从5.22dB稳步提升至7.58dB说明合成孔径技术有效抑制了旁瓣和噪声使得囊性区域与背景的区分度更高。4.3 多模态成像与帧率权衡一个实用的超声系统需要支持多种模式。我们的架构通过配置不同的扫描序列轻松实现了B模式、频谱多普勒D模式和彩色多普勒C模式。D模式频谱多普勒用于测量特定位置取样容积SV的血流速度。我们采用单孔径、单波束扫描以获取最高的时间分辨率。在PRF5kHz时能检测的最大血流速度约为28cm/s并可通过频谱包络估算心率约73.6 BPM。C模式彩色多普勒用于显示一个二维区域内的血流分布。这需要结合B模式图像定位然后在感兴趣区域ROI内进行多次扫描计算每一点的血流速度最后以彩色叠加在B模式图像上。这是计算量最大的模式。帧率是实时成像的关键。我们的系统优势在于灵活性可以通过调整合成孔径数和并行接收线数在图像质量空间分辨率和帧率时间分辨率之间进行权衡。下表展示了在PRF5kHz对应最大检测深度15.4cm时几种典型配置的帧率成像模式合成孔径数并行接收线数扫描线总数帧率 (FPS)说明B模式1412878高帧率基础图像B模式8412820高质量图像实时流畅C模式 (双模)1 (B) / 1 (C)4128 (B) / 768 (C)22彩色血流成像实时性佳C模式 (双模)4 (B) / 1 (C)4128 (B) / 768 (C)16更高B模式质量的彩色成像D模式1115000 (PRF)极高频谱更新率从表中可见通过4线并行接收技术即使在使用8个合成孔径等效64通道进行高质量B模式成像时帧率仍能达到20 FPS满足实时观察需求。在C模式双模成像下也能达到22 FPS保证了彩色血流的实时显示。这种可配置的灵活性使得医生可以根据不同的临床需求如观察静态器官或快速血流选择最优的成像参数。4.4 功耗分析与比较功耗是手持设备的生命线。我们系统的总功耗主要来源于三部分高压发射模块Tx、模拟接收前端RxAFE和数字处理模块FPGA等。数字端功耗FPGA功耗约530mWRx模块含AFE、SRAM等功耗约990mW数字部分总功耗约1420mW。作为对比文献中一款处理64通道数字数据的LightProbe模型其FPGA功耗就高达1800mW。我们的优化设计在数字端展现了显著的能效优势。模拟端功耗发射模块的功耗与发射脉冲次数周期数和电压直接相关。在±50V高压下B模式2个周期总功耗约2440mWC模式4个周期约3000mWD模式8个周期约3600mW。系统总功耗在典型的双模BC成像下系统总功耗可控制在3-4W之间。这意味着一个标准的USB Type-C接口支持5V/3A即15W供电足以满足系统需求无需外接笨重的电源适配器真正实现了便携性。5. 讨论、局限与未来展望5.1 优势总结与工程价值这套基于FPGA和合成孔径的手持超声原型系统其核心价值在于用精巧的硬件和智能的算法实现了高性能与低成本的统一。高性价比仅用8通道硬件通过合成孔径达到等效64通道的图像质量大幅降低了模拟前端AFE和高压发射电路的成本与复杂度这是系统能够“低成本”化的关键。低功耗通过FPGA的并行硬件加速和算法级优化自动延时、分段变迹将数字处理功耗控制在极低水平FPGA仅0.5W使得系统整体功耗满足电池供电要求。高灵活性FPGA的可编程特性使得系统能够快速适配不同的成像模式、探头甚至算法迭代。扫描序列、波束合成参数、滤波系数均可软件配置这是ASIC方案无法比拟的。图像质量达标0.30mm的侧向分辨率、7.58dB的CNR以及20FPS的帧率已经接近或达到了部分商用手持超声设备如Philips Lumify, Butterfly IQ的性能水平为临床诊断提供了可靠的基础。5.2 当前局限与挑战当然作为原型系统它也存在一些局限这也是我们后续改进的方向发射端瓶颈目前发射通道也只有8个这限制了发射声场的能量和信噪比SNR进而影响了图像的穿透力和对比度。这是当前图像质量进一步提升的主要瓶颈。好在我们的背靠背架构允许未来单独升级Tx板增加发射通道数。资源与功能的平衡FPGA资源虽有余量但若想实现更高级的功能如实时三维成像、更复杂的自适应波束合成现有资源可能吃紧。未来可考虑升级到更大规模的FPGA或使用SoC FPGA集成ARM处理器将部分后处理任务交给处理器。系统集成度目前是分板卡设计未来可以进一步集成缩小体积。同时需要开发更友好、更稳定的上位机软件和探头接口。5.3 未来演进方向这个原型为我们指明了几个有潜力的演进方向发射端合成孔径当前仅接收端采用合成孔径。未来可以探索发射端也采用合成孔径或平面波发射技术虽然会降低帧率但能进一步提升图像质量或实现超高速成像。与先进探头技术结合新兴的微机电系统MEMS超声换能器如压电微机械超声换能器PMUT或电容式微机械超声换能器CMUT具有更宽的带宽、更易与CMOS工艺集成等优势。我们的低功耗、可配置FPGA处理平台非常适合与这些新型探头对接开发出更轻薄、性能更优的超声贴片或穿戴设备。人工智能集成在FPGA内部或与之配套的处理器中集成轻量化的AI加速引擎用于实现图像的实时降噪、增强、分割甚至辅助诊断将是下一代智能超声设备的重要特征。回顾整个项目从算法仿真、FPGA编码、PCB设计到系统调试和图像优化每一步都充满了挑战。最深的体会是在资源受限的嵌入式系统里做高性能信号处理“优化”永远比“堆料”更重要。一个巧妙的迭代算法可能省下大块RAM一个精细的分段策略可能将存储需求压缩一个数量级。这种在算法、硬件架构和资源约束之间寻找最优解的过程正是嵌入式系统设计的魅力所在。这套基于FPGA的合成孔径超声系统架构就像搭好了一个高度可定制、能效出色的舞台后续无论是演出的剧目成像模式还是演员探头类型都有了更大的发挥空间。