
1. 项目概述面向5G超宽带的低复杂度线性化新思路在5G毫米波和超宽带应用里给功率放大器做线性化一直是个让人头疼的“成本-性能”平衡难题。传统数字预失真技术为了精准建模和补偿放大器的非线性往往需要高达信号带宽5倍甚至更高的采样率。这意味着面对一个800MHz的5G新空口信号你的ADC、DAC、基带处理单元都得工作在4GSPS以上的时钟频率。这不仅仅是钱的问题更是功耗、散热和系统复杂度的巨大挑战尤其是在大规模MIMO阵列中成百上千个通道的叠加效应会让这个成本问题变得难以承受。我最近在复现和深入研究东南大学团队在IEEE TMTT上发表的这篇关于线性分解数字预失真LD-DPD的论文感觉他们确实指出了一个很有潜力的方向。这项技术的核心目标非常明确在极低的过采样率低至1.5倍下实现与高采样率传统DPD相媲美甚至更优的线性化性能同时大幅降低计算复杂度。这听起来有点像“既要马儿跑又要马儿不吃草”但论文通过巧妙的数学重构和模型简化确实在理论和实验上都给出了令人信服的答案。对于从事射频功放线性化、5G/6G前端开发或者任何受限于采样带宽和计算资源的宽带系统工程师来说这篇文章提供的思路和实现细节都值得花时间啃一啃。简单来说LD-DPD不是对传统多项式模型的简单修修补补而是一种结构上的革新。它通过线性分解Linear Decomposition的方法将高维的非线性交叉项用一组低维的、经过阈值分割的基函数来逼近从而在保持模型精度的前提下砍掉了大量昂贵的乘法运算。更关键的是它通过引入“主导样本”和重构“丢失信息”巧妙地对抗了低采样率下的频谱混叠问题。下面我就结合自己的仿真和实验经验把这套技术的里里外外拆解清楚包括它的设计动机、核心算法、实操中的参数调优以及那些容易踩坑的细节。2. 核心挑战与设计动机为什么传统DPD在超宽带下“失灵”在深入LD-DPD的细节之前我们必须先搞清楚它要解决的根本问题。否则你可能会觉得这些复杂的公式只是数学游戏。2.1 超宽带带来的采样率困境传统的DPD系统无论是记忆多项式MP还是广义记忆多项式GMP其有效工作的一个隐含前提是系统的处理带宽包括基带、反馈环、数模/模数转换链必须足够宽能够无失真地覆盖预失真信号产生的频谱再生分量。一个经验法则是对于高峰均比的宽带信号DPD系统需要约5倍信号带宽的采样率才能保证性能。我们用数字来直观感受一下4G LTE-A (100MHz带宽)需要约500MSPS的采样率这在当前技术下是完全可以接受的。5G NR (800MHz连续带宽)需要约4GSPS的采样率这对于毫米波频段的射频芯片和高速数据转换器而言意味着极高的成本、功耗和设计难度。注意这里的“采样率”是一个泛指它对应的是整个信号链路的处理带宽需求。在基带BB它意味着数字信号处理单元的工作时钟在反馈环FB和发射链TX它意味着ADC/DAC的转换速率以及模拟器件的带宽。任何一环的带宽不足都会成为系统瓶颈。2.2 低采样率下的“阿喀琉斯之踵”频谱混叠当系统采样率Fs不足时比如仅采用1.5倍过采样率OSR会发生什么论文里用一张图讲得很明白频谱混叠。预失真过程本质上是在原信号基础上添加了新的非线性分量主要是三阶、五阶互调产物。这些分量会扩展到远超出原信号带宽的频率范围。如果采样率足够高这些高频分量能被完整采样然后在后续的滤波中被干净地滤除只留下我们需要的、用于抵消功放非线性的基带分量。但是当采样率不足时根据奈奎斯特采样定理这些高频分量会“折叠”回基带频率范围内与原始信号和有用的低阶失真分量混叠在一起。这种混叠是确定性的干扰无法通过简单的滤波去除。其结果就是DPD模型提取模块看到的“功放输出信号”是已经被混叠污染的信号基于此提取的预失真系数本身就是错误的自然无法实现有效线性化。2.3 现有方案的局限与LD-DPD的突破口面对这个挑战学术界已有一些尝试例如带宽受限最小二乘法在模型提取时直接约束带宽但性能损失较大。基于外推的反馈信号方法利用带限反馈信号外推完整信号对模型和算法要求高。使用sinc插值和带通滤波的方案如论文中对比的LBW模型这确实能缓解混叠但引入了大量的卷积运算计算复杂度FLOPs急剧上升硬件实现代价大。LD-DPD的突破口在于它换了一个思路与其在低采样率下苦苦挣扎于如何精确重构被混叠污染的信号不如直接修改DPD模型本身的结构使其在低采样率下天生就对混叠不敏感或者能利用混叠中的部分信息。它的核心思想可以概括为两点信息恢复通过线性插值利用相邻采样点来“猜测”那些因采样率不足而丢失的中间点信息如x(n0.5)并将这些重构的信息作为新的项加入到模型中从而等效地扩充了模型的“时间分辨率”。复杂度削减通过线性分解技术将传统多项式模型中昂贵的、高维的交叉项如|x(n)|^2 * x(n)用一组经过阈值分割的、线性的子分量组合来近似。这相当于用“分段线性”来逼近“高阶非线性”用加法为主的操作替代大量的乘法。3. LD-DPD技术原理深度拆解理解了“为什么”之后我们来看“怎么做”。这部分会涉及一些公式但我会尽量用工程化的语言解释清楚每一步的意图。3.1 从记忆多项式到“丢失信息”模型一切始于经典的记忆多项式模型y(n) Σ Σ c_{m,i} * |x(n-m)|^{2i} * x(n-m)其中x(n)是输入y(n)是模型输出m是记忆深度i是非线性阶数。假设我们现在工作在低采样率Fs α * BWα较小如1.5。论文的推导从一个简化模型开始无记忆的三阶非线性y(n) c0 * x(n) c1 * |x(n)|^2 * x(n)。关键的一步来了如果我们幻想有一个采样率翻倍的系统Fs‘ 2α * BW那么它的模型输出y_{2α}(n)会包含更多细节。将高采样率信号经过滤波、再降采样回低采样率得到的信号y‘_{α}(n)与直接在低采样率下建模得到的y_{α}(n)相比多出了一部分信息y_lost(n)。y‘_{α}(n) y_{α}(n) y_lost(n)这部分y_lost(n)就包含了因低采样率而丢失的、位于采样点之间的信息例如x(n0.5)。论文的核心洞见是如果我们能有效地恢复或近似y_lost(n)就能显著提升低采样率下的模型精度。3.2 线性插值与主导项引入如何恢复x(n0.5)这样的“半采样点”信息论文采用了最直观的线性插值x(n0.5) ≈ [x(n) x(n1)] / 2将这个近似关系代入y_lost(n)的表达式经过一系列三角恒等变换和简化例如假设相邻样本相位差很小φ_n - φ_{n1} ≈ 0y_lost(n)可以被表达为关于x(n)和x(n1)的函数。将这些新产生的项与原始的低采样率模型y_α(n)合并就得到了一个增强版的模型。这个新模型不仅包含了当前时刻n的项还引入了未来时刻n1甚至n2,n3...的样本这些被称为“主导项”。同时还产生了形如|x(n1)| * x(n)这样的交叉项它混合了不同时刻的样本信息。实操心得这里“假设相邻样本相位差很小”是一个重要的简化。在宽带OFDM或FBMC信号中这个假设通常成立因为子载波间隔相对带宽较小相邻I/Q样本的相位变化平缓。但对于某些极端调制的信号可能需要评估这个简化带来的影响。不过论文也指出由此引入的性能退化是有限的。将这一思路推广到更高的非线性阶数P阶和更深的记忆深度M就得到了论文中的公式(15)。这个模型已经具备了在低采样率下工作的潜力因为它通过主导项和交叉项隐式地补偿了因混叠丢失的信息。3.3 线性分解化“乘”为“加”的降复杂度魔法然而公式(15)仍然是一个多项式模型计算复杂度随着阶数P呈指数增长。硬件实现时大量的乘法运算尤其是复数乘法是资源消耗和功耗的主要来源。线性分解LD技术就是为了解决这个问题。它的思想非常巧妙分解幅度将输入信号的幅度|x(n)|取值范围假设归一化为[0,1]通过一组阈值β [β1, β2, ..., β_{K-1}]分割成K个区间。例如等间隔分割时阈值就是[1/K, 2/K, ..., (K-1)/K]。构建子分量对于每个区间k定义一个子分量z_k(n)。这个子分量的构造是当|x(n)|落在第k个区间时z_k(n) e^{jφ_n} * (一个常数)否则为0。通常这个常数可以设为1/K使得所有子分量的最大幅度一致。线性组合任何关于|x(n)|的多项式项如|x(n)|^i都可以用这K个子分量的线性加权和来高度近似。即Σ c_i * |x(n)|^i ≈ Σ w_k * z_k(n)。这带来的革命性好处是计算z_k(n)只需要比较判断落在哪个区间和赋值操作避免了昂贵的|x(n)|^i幂运算。更重要的是对于|x(n)|^i * |x(n-m)|^j这类双变量交叉项线性分解同样适用。我们可以构建关于|x(n)| * |x(n-m)|的子分量从而用线性组合来逼近高维非线性项。将线性分解应用到前述的增强版多项式模型公式15就得到了最终的LD-DPD模型公式26y‘_α(n) Σ Σ g^{(1)}_{m,k} [x(n-m)]_k Σ g^{(2)}_a x(na) Σ Σ Σ g^{(3)}_{a,m,k} [ |x(n-ma)| x(n-m) ]_k第一项传统记忆项的线性分解版本。第二项A个主导的线性项x(na)。第三项主导的交叉项的线性分解版本[|x(n-ma)| x(n-m)]_k。3.4 复杂度量化FLOPs说了算论文没有停留在定性的“复杂度降低”而是用**浮点运算次数FLOPs**进行了定量比较。这是一个非常工程化的评估方式。传统多项式模型核心运算是复数乘法尤其是高次幂运算|x|^2, |x|^4等每个都需要多次实数乘加。LD-DPD模型核心运算变为1) 计算输入信号的幅度|x(n)|一次复数乘法求模平方一次开方2) K路比较和门限判断3) 大量的复数加权累加主要是加法。论文给出了具体的FLOPs计算公式。在典型参数N40960样本 M7, A2, K4下LD-DPD的FLOPs约为262万次。而作为对比的LBW模型[28]由于涉及长滤波器的卷积运算FLOPs高达8397万次是前者的30多倍即使与性能接近的GMP模型相比LD-DPD的复杂度也显著更低。注意事项FLOPs是一个重要的理论指标但最终在FPGA或ASIC上实现时还需要考虑逻辑资源LUT/FF、DSP Slice的使用量、内存带宽以及流水线设计。线性分解带来的另一个潜在优势是它的判断和选择逻辑非常适合用硬件查找表LUT实现可以进一步优化。4. 实验验证与实操要点论文在2.4GHzSub-6GHz和28GHz毫米波两个频段使用5G NR信号进行了验证。我们不仅要看结果更要看如何复现和优化。4.1 测试平台搭建要点信号生成使用矢量信号发生器如RS SMW200A或高性能任意波形发生器。确保生成的5G NR波形如64-QAM的峰均比PAPR约9dB和带宽100MHz, 400MHz, 800MHz准确。务必进行峰均比削减CFR否则功放会工作在高回退区非线性特征不明显DPD效果也难以体现。功放选择Sub-6GHz论文使用了基于GaN晶体管Cree CGH40010的对称型Doherty功放。Doherty功放因其高效率特性非线性特别是AM/PM失真和记忆效应都更显著是DPD算法的“试金石”。毫米波使用了Ka波段功放模块。毫米波功放的增益和饱和功率通常较低需注意驱动级和末级之间的功率匹配确保被测功放工作在其非线性区接近P1dB。反馈环路这是DPD实验成败的关键。必须保证反馈通道的线性度足够高。通常需要在功放输出后接入一个高线性度的耦合器或衰减器将信号降至频谱分析仪如Keysight N9030A或RS FSW的安全输入功率范围内。反馈路径的群时延必须稳定任何微小的时延抖动都会导致模型提取失败。同步与对齐在PC上处理采集的I/Q数据时发射信号x(n)和反馈信号y(n)必须精确同步。通常采用互相关法寻找时延并用最小二乘法进行精细对齐。这一步的误差会直接转化为模型误差。4.2 模型参数设置与调优指南论文给出的参数是一个很好的起点但实际中需要根据你的功放特性和信号进行调整记忆深度 M通常从3开始尝试观察AM/AM、AM/PM曲线的“滞回”现象是否被建模。对于宽带信号和Doherty功放M可能需要到5-7。可以通过观察模型误差随M增加的变化曲线来选择当误差不再显著下降时即可。主导项长度 A论文中A2即使用x(n1)和x(n2)。A越大对混叠的补偿能力越强但也会增加模型系数。建议从A1开始逐步增加观察NRMSE的改善情况。通常A1或2已足够。线性分解子分量数 K论文中K4阈值设为[0.25, 0.5, 0.75]。这是LD-DPD的核心可调参数。K越大对非线性曲线的分段逼近越精细但系数也越多。对于大多数功放K3或4是一个较好的权衡点。阈值不一定非要等间隔可以根据功放AM/AM特性曲线的形状在增益压缩剧烈的区域设置更密集的阈值。过采样率 OSR (α)这是LD-DPD的优势所在。可以尝试从较低的OSR如1.2开始逐步提高到1.5、2.0观察性能提升与采样率成本的边际效应。论文结果表明在α1.5时LD-DPD性能已接近传统方法在α3时的水平。4.3 性能评估指标解读论文使用了多个指标我们需要理解其工程意义归一化均方根误差 (NRMSE)NRMSE sqrt( mean( |y_meas - y_pred|^2 ) ) / sqrt( mean( |y_meas|^2 ) )。这是最核心的时域精度指标直接反映了模型输出与实测功放输出的吻合程度。通常NRMSE低于3%可以认为模型精度很好低于5%是可接受范围。LD-DPD在800MHz/28GHz下将NRMSE从7.15%降至3.34%提升非常显著。功率谱密度 (PSD) 与误差谱频域指标看带内失真补偿情况和带外频谱再生。LD-DPD主要优化带内线性度符合5G mMIMO系统对ACPR要求降低的趋势从论文图12的PSD误差曲线可以看出其带内误差谱红色实线明显低于GMP和LBW模型。AM/AM、AM/PM曲线直观展示功放的静态非线性和记忆效应。DPD后AM/AM曲线应接近一条直线增益恒定AM/PM曲线应接近水平线相位恒定。论文图14显示LD-DPD有效地压缩了曲线的“云团”使其更集中。系数数量与FLOPs衡量复杂度的直接指标。LD-DPD在取得更优性能的同时系数数量和FLOPs都远低于对比模型这是其最大优势。5. 工程实现考量与常见问题排查将LD-DPD从论文算法落地到实际硬件如FPGA会遇到一系列工程挑战。5.1 定点化与量化噪声算法仿真通常在MATLAB/Python中用浮点数进行。但硬件实现必须使用定点数。信号与系数位宽I/Q信号通常用12-16位有符号整数表示。幅度|x|计算I^2 Q^2后位宽会扩展需谨慎处理溢出和截位。开方运算可以使用CORDIC算法或查找表实现。模型系数需要足够的动态范围。建议先用浮点模型训练分析系数的统计分布最大值、最小值、方差再确定整数位和小数位的分配。通常需要18-24位。线性分解的硬件实现阈值比较将计算得到的|x|与预设的阈值β_k进行比较。这可以通过一组并行的比较器实现。子分量生成根据比较结果生成K路子分量z_k(n)。每路子分量实际上是一个“门控”的相位旋转版本e^{jφ}。e^{jφ}可以通过查找I/|x|和Q/|x|即cosφ和sinφ得到。这里需要特别注意除以|x|的运算当|x|很小时会导致数值不稳定必须加入保护逻辑如设置一个最小分母值。流水线设计LD-DPD模型涉及大量并行和串行计算。需要精心设计流水线平衡各级的延迟以达成高时钟频率。主导项x(na)涉及未来样本需要引入相应的延迟线FIFO进行对齐。5.2 模型提取与自适应更新训练信号通常使用与业务信号统计特性带宽、调制方式、PAPR一致的信号进行初始训练。为了充分激发功放的非线性和记忆效应训练信号的峰值功率应使功放接近饱和。直接学习架构最常用的是间接学习架构或直接学习架构。LD-DPD模型是线性的关于系数g因此可以直接使用最小二乘法进行系数提取。求解方程Y X * G其中Y是功放输出向量X是由所有基函数[x(n-m)]_k,x(na),[|x(n-ma)| x(n-m)]_k构成的矩阵G是待求系数向量。系数更新策略块自适应采集一段数据如论文中N40960计算一组新系数整体更新。适合信道变化慢的场景。递归最小二乘如果要求实时跟踪可以使用RLS算法但计算量较大。重要提示LD-DPD模型中的主导项x(na)使用了未来样本。在实时预失真时必须引入至少A个样本的延迟以保证因果性。这在系统设计中必须考虑。5.3 常见问题与排查表问题现象可能原因排查步骤与解决方案DPD后性能无改善甚至恶化1. 反馈环路时延未对齐。2. 训练信号功率不足未进入功放非线性区。3. 模型阶数/记忆深度不足欠拟合。4. 定点化引入过大量化误差。1. 检查互相关算法确保时延估计准确。可手动微调时延观察NRMSE变化。2. 增大训练信号输入功率观察功放输出频谱是否出现明显失真。3. 逐步增加M和K观察NRMSE是否下降。注意避免过拟合。4. 回退到浮点仿真验证算法本身再逐步收紧定点位宽。带外频谱再生补偿不足1. LD-DPD模型本身侧重于带内线性化论文假设。2. 过采样率OSR过低丢失了过多带外信息。3. 模型非线性阶数不足。1. 这是LD-DPD的设计权衡。若系统对ACPR要求严格需适当提高OSR或结合其他带外优化技术。2. 尝试将OSR从1.5提高到2.0或2.5。3. 确保模型包含了足够的非线性阶数在LD中体现为K足够大。硬件实现后EVM指标不达标1. 定点运算中的溢出或截断误差累积。2. 流水线设计不当引入错误时序。3. 系数更新太慢无法跟踪功放特性变化如温度漂移。1. 使用仿真工具进行定点仿真监控中间变量动态范围。增加保护位。2. 进行详细的时序仿真确保数据对齐。检查FIFO的读写指针。3. 缩短系数更新周期或引入基于查找表的温度补偿。模型提取时矩阵X病态1. 训练信号激励不充分未能覆盖功放的整个动态范围。2. 基函数之间存在强相关性共线性。1. 使用更长的、功率变化更丰富的训练序列。2. 对于LD-DPD其基函数通过线性分解已一定程度上降低了相关性。可尝试使用正交匹配追踪等算法进行系数提取或加入轻微的L2正则化。6. 总结与展望线性分解数字预失真技术为5G及未来超宽带系统的功放线性化提供了一个极具吸引力的解决方案。它精准地命中了当前产业界的痛点在毫米波频段实现超宽带信号处理时对高采样率、高功耗、高成本硬件的依赖。通过这次对论文的深度拆解和延伸思考我们可以清晰地看到LD-DPD的技术脉络它以对抗频谱混叠为出发点通过引入主导项和交叉项来恢复低采样率下的丢失信息同时它用线性分解这一“数学魔术”将计算复杂度高昂的高维多项式项转化为主要由加法和比较构成的线性组合从而在保证精度的前提下实现了复杂度的数量级降低。从我个人的工程实践角度来看这项技术的价值不仅在于论文中的那几个百分比NRMSE的提升更在于它打开了一扇窗让我们看到通过算法和模型结构的创新是有可能打破“性能提升必然伴随复杂度激增”的惯性的。这对于推动5G毫米波基站的大规模商用尤其是降低 Massive MIMO AAU 的功耗和成本有着实实在在的意义。当然LD-DPD也并非万能。它更侧重于带内线性度的优化在需要极端带外抑制的场景下可能需要与其他技术结合。此外线性分解中阈值的选择、子分量数K的优化都可以结合具体功放的特性和机器学习方法进行更精细的调优。未来如何将这种模型与深度学习等AI方法结合实现自适应参数配置或许是一个有趣的研究方向。无论如何这篇论文的工作给出了一个坚实而优美的范例。它告诉我们在通往更高效、更经济的无线通信系统的道路上深耕底层算法依然能收获丰硕的果实。