量子比特读取优化:基于匹配滤波器与轻量神经网络的软硬件协同方案

发布时间:2026/5/23 12:22:48

量子比特读取优化:基于匹配滤波器与轻量神经网络的软硬件协同方案 1. 项目概述为什么量子比特读取是当前量子计算的瓶颈在实验室里调试超导量子比特的这些年我深刻体会到量子计算系统就像一个精密但脆弱的交响乐团而量子比特的读取操作就是那个决定整场演出成败的“指挥棒”。它负责将量子世界那玄妙的叠加态翻译成我们经典计算机能理解的0和1。听起来很酷对吧但现实是这个“翻译”过程充满了噪声、延迟和不确定性往往是整个量子电路中最慢、最容易出错的一环。传统的读取方案比如简单的阈值判别或者基础的线性分类器在面对超导量子比特那微弱的、被噪声淹没的微波信号时常常力不从心。信号之间的串扰Crosstalk——一个谐振器的信号泄露到另一个——会严重污染数据而为了从噪声中提取出有效信号我们又不得不延长读取时间但这又增加了量子比特在测量过程中自发弛豫从|1态掉到|0态的概率形成了一个令人头疼的“精度-速度”权衡困境。我这次要分享的正是我们团队围绕这个核心痛点折腾了大半年的一套软硬件协同优化方案。它的核心思想并不复杂用更聪明的信号处理前端匹配滤波器来提纯信号再用一个轻量但高效的神经网络大脑来做最终判决。但魔鬼藏在细节里如何设计这个前端如何让神经网络既准又快还能塞进FPGA里实时跑起来这里面每一步都是坑。最终我们把这个称为HERQULES的架构在五比特芯片上把单比特读取精度从基线方案的97%左右提升到了99%同时将判别延迟降低了两个数量级并且神奇地让系统支持了“可变速度”的读取模式。下面我就把这套方案的里里外外、设计思路、实操细节以及我们踩过的那些坑毫无保留地拆解给你看。2. 核心架构设计从“蛮力分析”到“智能提纯”在深入代码和电路之前我们必须先想清楚面对一个被噪声包裹的量子信号我们到底要解决什么问题我们的设计目标非常明确第一高保真度即极低的误判率第二低延迟以满足量子纠错等应用的实时反馈需求第三硬件友好能在FPGA或RFSoC射频片上系统上高效实现为未来扩展到数百上千个比特铺平道路。2.1 传统方案的局限与我们的破局思路早期的方案比如直接对读取信号的I/Q两路数据进行采样然后扔给一个深度神经网络比如全连接网络去分类。这种方法理论上能拟合任何复杂模式但问题也很突出网络庞大、训练耗时、推理延迟高最关键的是它没有利用量子读取信号本身的物理特性属于一种“蛮力”分析。这导致它对硬件资源极其贪婪很难集成到紧耦合的控制系统中。我们的破局点在于“分而治之”和“先验知识注入”。量子比特的读取信号并非完全随机的噪声它的时域包络、弛豫过程都遵循一定的物理模型。我们能不能先用一个专门的模块把信号中最具判别力的特征“榨取”出来再交给一个小巧的神经网络做简单分类呢这就是HERQULES双级流水线架构的由来第一级基于物理模型的信号提纯匹配滤波器MF第二级基于数据驱动的智能判别前馈神经网络FNN。2.2 核心组件一匹配滤波器——信号提纯的“物理学家”匹配滤波器Matched Filter, MF不是什么新概念在通信和雷达领域它是提取已知信号、最大化信噪比SNR的标准工具。在量子读取的语境下它的作用堪称魔法。它的工作原理是这样的我们事先通过标定获取量子比特在|0态和|1态时其读取谐振器反射的微波信号的典型波形称为模板。这个波形包含了信号随时间变化的幅度和相位信息。匹配滤波器的权重就直接由这两个模板信号的差|0迹线 - |1迹线的均值除以方差来定义。你可以把它理解为一个“最懂量子信号”的卷积核当输入一个真实的、充满噪声的读取信号时MF会计算该信号与理想模板的互相关。信号中与模板匹配的部分会得到加强而不相关的噪声则会被抑制从而在输出端得到一个信噪比大幅提升的标量值。在我们的实现中我们对I和Q两路正交信号分别应用MF这样就得到了两个特征值。这一步的妙处在于它将长达数千个采样点例如1微秒500 MS/s 500个点的原始时间序列压缩成了仅仅2个最具信息量的特征。数据维度的暴降是后续神经网络能够做得小而快的前提。2.3 核心组件二残差匹配滤波器——捕捉弛豫动力学的“侦探”然而标准的MF假设信号是稳定的。但超导量子比特在读取过程中可能发生弛豫即从|1态跃迁到|0态。这会导致信号波形畸变如果只用稳定的|0和|1模板MF可能会丢失这部分关键信息。为此我们引入了残差匹配滤波器Residual Matched Filter, RMF。它的设计非常巧妙我们额外训练一个MF但它的目标不是区分|0和|1而是区分“发生了弛豫的迹线”和“稳定的基态|0迹线”。具体操作是在准备训练数据时我们故意在部分|1态读取中引入弛豫过程可以通过延长读取时间或选择T1时间较短的比特来自然获得然后用这些“弛豫迹线”和纯净的|0迹线来训练这个特殊的RMF。RMF的作用就像一个侦探专门负责嗅探信号中是否存在非稳态的弛豫成分。它输出的特征值反映了当前信号偏离稳定基态的程度。将MF和RMF的输出共4个特征一起送入后续的神经网络就等于同时告诉了网络“这是不是|0或|1的信号”以及“这个信号在测量过程中有没有发生跳变”。这为神经网络提供了更丰富的上下文极大地提升了其对弛豫错误的鲁棒性。2.4 核心组件三轻量级前馈神经网络——高效判别的“法官”经过MF和RMF的提纯我们得到了一个高度浓缩的、信噪比提升的4维特征向量。现在只需要一个简单的“法官”来做出最终判决。我们选择了一个极简的前馈神经网络FNN结构可以是 [4 - 8 - 2] 或 [4 - 16 - 2]即一个仅有一个隐藏层的微型网络。为什么不用更深的网络原因有三首先输入特征已经过高度优化线性可分性很强复杂网络容易过拟合。其次我们的目标是在FPGA上实现纳秒级延迟小网络意味着极少的乘加运算和极低的资源占用。最后小网络的训练速度快参数少有利于在量子处理器频繁的校准周期中快速更新。这个FNN的输出层使用Softmax激活函数直接给出输入信号属于|0态和|1态的概率。我们取概率大的类别作为判别结果。整个HERQULES流水线ADC采样 - I/Q解调 - MF/RMF特征提取 - FNN分类形成了从模拟信号到量子比特状态的端到端、低延迟判别通道。3. 实操要点从数据准备到硬件部署的全流程拆解理论很美好但把HERQLES跑起来每一步都有需要注意的细节。下面我结合我们的五比特实验数据把关键实操步骤和避坑指南梳理出来。3.1 数据采集与数据集构建一切始于高质量的数据。你需要为每个待测的量子比特或频率复用的一组比特采集足量的“迹线”数据。步骤一基础状态制备与测量初始化量子处理器确保所有比特处于基态|0。对目标比特i执行以下操作序列|0态数据不施加任何操作直接进行读取脉冲采集I/Q信号迹线。重复数万次。|1态数据施加一个π脉冲X门将比特i激发到|1态然后立即进行读取脉冲采集迹线。重复数万次。对于需要训练RMF的情况你还需要采集“弛豫迹线”。一种方法是在施加π脉冲后等待一个与比特T1时间可比拟的延迟再进行读取这样有很大概率捕获到弛豫事件。步骤二数据预处理与标注对齐确保所有迹线在时间轴上对齐通常以读取脉冲的起始点为时间零点。降噪可选可以先应用一个简单的移动平均滤波器滤除部分高频噪声但注意不要破坏信号特征。构建数据集每条迹线是一个长度为L如500的复数序列IjQ。为其打上标签|0态标签为[1, 0]|1态标签为[0, 1]。对于RMF弛豫迹线和|0迹线构成二分类数据集。划分按比例例如我们采用 9750:5250:35000将数据划分为训练集、验证集和测试集。务必确保不同集合的数据来自独立的实验回合shot以避免数据泄露。避坑指南数据量是关键。我们最初只用了几千条数据训练发现网络在测试集上表现不稳定泛化能力差。将数据量提升到数万条后性能才趋于稳定。图15的训练曲线也表明当训练样本超过1500后精度提升变得平缓但为了鲁棒性更多的数据是有益的。3.2 匹配滤波器权重的计算与优化MF的权重计算虽然公式简单但实操中有技巧。计算公式MF_envelope mean(Tr_0 - Tr_1) / var(Tr_0 - Tr_1)这里Tr_0和Tr_1分别是所有|0和|1迹线构成的矩阵相减后得到差分迹线矩阵。求均值和方差是沿着“迹线数量”这个维度进行的最终得到一个长度为L的权重向量。实操要点去基线漂移在计算前建议先去除每条迹线的直流偏移计算每个trace的均值并减去。因为实验室环境下的微波链路增益可能缓慢漂移会影响MF权重的准确性。加权平均对于mean(Tr_0 - Tr_1)直接使用算术平均可能对异常值敏感。可以考虑使用中位数或截尾均值以获得更稳健的模板。验证权重将计算出的MF权重可视化它应该大致呈现出读取脉冲的时域包络形状。如果形状怪异或噪声极大需要检查数据质量或预处理步骤。RMF权重的计算过程完全类似只是将Tr_1替换为“弛豫迹线”集合。3.3 神经网络的训练与调参尽管网络很小但训练不当依然得不到好结果。模型定义PyTorch示例import torch.nn as nn class QubitReadoutFNN(nn.Module): def __init__(self, input_dim4, hidden_dim8): super().__init__() self.net nn.Sequential( nn.Linear(input_dim, hidden_dim), nn.ReLU(), nn.Linear(hidden_dim, 2) ) def forward(self, x): return self.net(x)训练关键点输入标准化MF/RMF输出的4个特征值其数值范围可能差异很大。务必进行标准化减去均值除以标准差使用训练集的统计量来处理验证集和测试集。这是稳定训练、加速收敛的关键。损失函数使用交叉熵损失nn.CrossEntropyLoss它直接适用于我们的分类任务。优化器与学习率Adam优化器通常是不错的选择。初始学习率可以设在1e-3到1e-4之间并配合学习率调度器如ReduceLROnPlateau当验证集损失停滞时自动降低学习率。正则化由于网络小、数据量相对充足过拟合风险不高但可以加入轻微的L2权重衰减如1e-4或Dropout如rate0.1来进一步提升泛化能力。早停持续监控验证集上的准确率。当连续多个epoch验证准确率不再提升时停止训练并回滚到验证集性能最佳的模型参数。性能评估 不要只看整体准确率。务必计算每个比特的保真度FidelityF_0(基态保真度): 当比特准备在|0时被判为|0的概率。F_1(激发态保真度): 当比特准备在|1时被判为|1的概率。单比特平均保真度:(F_0 F_1) / 2。多比特累积保真度:(F_1 * F_2 * ... * F_N)^(1/N)即几何平均。这比算术平均更能反映系统整体性能。3.4 串扰抑制的实测效果分析串扰是多比特并行读取的宿敌。在我们的五比特设备上我们定量评估了HERQULES的串扰抑制能力。我们计算了“交叉保真度Cross-Fidelity”它量化了当比特j被准备在某个态时对比特i的测量结果产生的影响。表2的数据非常能说明问题与使用线性SVM作为判别器的设计相比采用神经网络MF-RMF-NN的方案在汉明距离为1即物理上相邻的谐振器的情况下将交叉保真度的平均值降低了3倍以上。这意味着由读取谐振器耦合带来的串扰被显著抑制了。为什么神经网络能更好地抑制串扰线性分类器如SVM只能在特征空间画出一个超平面来分隔数据。而串扰噪声往往是非线性的、与多个比特状态相关的。即使经过MF预处理残留的串扰特征可能依然复杂。小型神经网络虽然只有一层非线性激活函数但其拟合复杂决策边界的能力远强于线性模型因此能够学习到这些残留的串扰模式并将其从判别依据中剔除。这对于提升多比特并行读取的保真度至关重要因为相关的错误在量子纠错中更难被检测和修正。4. 实现“可变速度”读取不重新训练的动态优化传统基于神经网络的判别器有一个致命缺点输入层维度与读取时长采样点数L绑定。一旦你想缩短读取时间就必须重新采集数据、重新训练网络流程繁琐且不实用。HERQULES的架构天然支持“可变速度”读取这是其一大亮点。其秘诀就在于MF/RMF这个前端。无论输入迹线多长MF/RMF都将其压缩为固定长度的特征向量例如4维。因此只要在训练阶段使用完整的、足够长的迹线例如1微秒来训练MF和FNN训练完成后我们就可以在推理阶段动态地截取更短的迹线例如750纳秒、500纳秒进行前向传播。操作流程如下训练阶段使用标准时长如1μs的完整迹线数据集训练MF/RMF权重和FNN参数。校准/探索阶段在测试集上逐步缩短用于MF计算的迹线长度从1μs往下减。对于每个缩短的时长用同样的MF权重仅取前对应时间点的权重和FNN参数计算累积保真度。绘制“保真度 vs. 读取时长”曲线如图11a所示。应用阶段根据曲线为每个比特或整个系统选择一个在保真度饱和点附近的、尽可能短的读取时长。在后续的量子算法执行中就采用这个优化后的时长进行读取。这样做的好处零重训练开销无需为每个可能的读取时长维护多个模型。比特级优化如图表3所示不同比特的弛豫时间T1和信噪比不同其保真度随读取时长下降的速度也不同。我们可以为每个比特定制最优读取时长。例如在我们的数据中Qubit 5在500ns时保真度仍有0.977而Qubit 1则降至0.629。编译器可以将需要频繁测量的辅助比特ancilla qubit映射到像Qubit 5这样能快速读取的物理比特上。提升系统吞吐量对于量子相位估计QPE这类需要中途测量和反馈的算法缩短读取时间能直接减少电路的总执行时间如图11b提升算法效率。5. 硬件部署与资源评估如何塞进FPGA再好的算法不能实时跑在控制硬件上也是白搭。HERQULES的硬件友好性是其核心优势之一。我们使用Xilinx Zynq MPSoC平台进行了实现评估。5.1 流水线硬件架构整个判别流程可以在FPGA逻辑内实现一个高度流水化的数据通路ADC接口接收来自量子芯片的数字化I/Q信号流。解调与累加可选如果ADC输出是中频信号需先进行数字下变频DDC至基带。这部分在QICK等RFSoC框架中已有现成IP核。匹配滤波器MF/RMF实现为两个并行的乘累加MAC单元。每个时钟周期输入一个采样点I和Q值与预存储的权重系数相乘并累加。L个周期后输出一个特征值。由于MF权重是固定的这可以用一个高度优化的定点数乘法器链实现。特征拼接与标准化将两个MF和两个RMF的输出共4个值拼接并减去预存的均值、除以标准差标准化参数可存储在片上内存中。前馈神经网络FNN实现为一个两层的全连接网络。隐藏层4个输入8个神经元。计算ReLU(W1 * x b1)。这需要32次乘法和8次加法以及一个ReLU查找表。输出层8个输入2个神经元。计算W2 * h b2然后通过Softmax得到概率。这需要16次乘法和2次加法。Softmax硬件实现Softmax需要指数和除法运算成本较高。一个实用的简化是由于我们只关心两个输出中谁更大可以只比较W2[0]*h b2[0]和W2[1]*h b2[1]的大小省去Softmax的精确计算。这称为“得分比较”在硬件上只需一个比较器。5.2 资源消耗与延迟分析我们使用高层次综合工具如hls4ml将训练好的PyTorch模型转换为HLS代码再经Vivado HLS综合评估了资源占用和延迟。关键发现对应表4资源占用极低在Xilinx xczu7ev芯片上即使设置较低的复用因子Reuse Factor4即乘法器复用程度低并行度高整个HERQULES判别器的查找表LUT利用率也仅为7.79%。DSP和BRAM的占用更低。这意味着单个FPGA可以轻松部署数十个这样的判别器通道服务于多组频分复用的量子比特。延迟极短在RF4的配置下判别延迟仅为8个时钟周期以250MHz时钟估算延迟约32纳秒。这比基线方案需要数百到数千个周期快了两个数量级。如此低的延迟对于量子纠错中的实时解码和反馈至关重要。与基线方案的对比基线方案一个大型FNN直接处理原始迹线的LUT利用率轻松超过100%即单个FPGA无法实现即使通过极高的复用因子RF1000将利用率降到216%其延迟也高达4000多个周期完全无法满足实时性要求。部署建议定点量化在部署到FPGA前务必将网络权重和激活值从浮点数量化为定点数如Q格式。我们实验发现使用16位定点数8位整数8位小数在绝大多数情况下能保持精度损失在0.1%以内同时大幅节省DSP和逻辑资源。流水线设计将MF计算、标准化、神经网络计算设计成流水线。当第N个读取窗口的MF还在计算时第N-1个窗口的数据可以进入神经网络层计算。这样可以实现每个时钟周期吞入一个新采样点每L个周期吐出一个判别结果的吞吐率。利用RFSoC特性现代量子控制系统如QICK、Presto都基于RFSoC其内部集成了高速ADC/DAC和可编程逻辑PL。HERQULES的判别器可以作为一个IP核集成到PL中与ADC数据流直接对接实现从信号采集到比特状态判别的全硬件化、超低延迟处理。据我们估算在资源利用率80%的假设下单个RFSoC控制器可以支持超过50个量子比特的并行读取。6. 系统级影响从NISQ应用到量子纠错优化读取不仅仅是提升一个指标它能为整个量子计算栈带来连锁性的性能提升。6.1 对NISQ算法保真度的提升我们使用Qiskit Aer模拟器在从IBM Hanoi后端导出的噪声模型基础上将读取错误率分别设置为基线方案0.9122累积保真度和HERQULES方案0.9266累积保真度运行了一系列标准的NISQ基准测试如QFT、GHZ、BV、QAOA。结果图12在所有测试的基准电路上HERQULES都带来了保真度的提升。提升幅度从3%到超过30%不等其中20比特的Bernstein-Vazirani算法提升最为显著。这表明在近期的含噪声量子计算机上提升读取保真度是改善算法输出质量的一个非常有效的途径。即使门错误率等其他噪声源不变更准的读取也能直接带来更可靠的计算结果。6.2 对量子纠错码的关键意义对于追求容错量子计算的长远目标读取性能的影响更为深远。我们使用Stim模拟器分析了表面码一种主流的量子纠错码的逻辑错误率。核心结论图13读取错误会直接抬高量子纠错码的“错误阈值”。图中显示对于一个距离为7的表面码当平均读取错误率ε_R从0%增加到1%时逻辑错误率曲线整体上移。这意味着要获得相同的逻辑保护水平物理门错误率必须压得更低。一个糟糕的读取系统会直接抵消你在降低门错误率上付出的巨大努力。HERQULES的贡献在于两方面降低ε_R通过更高的判别精度直接降低了原始的读取错误率。缩短纠错周期通过支持更快的读取可以缩短表面码中“综合征测量”周期的时间。如图14b所示在读取时间占比较大的系统中如IBM的某些后端将读取时间缩短25%可以将综合征生成周期时间减少约16%。更短的周期意味着在固定的相干时间内可以执行更多轮的纠错从而能容忍更高的物理错误率或者对逻辑比特提供更强的保护。6.3 训练开销与系统集成考量最后谈谈实际部署中的工程问题。HERQULES的小型化带来了一个额外优势训练速度极快。如表5所示完整的mf-rmf-nn方案总训练时间仅为19分钟而基线的大型FNN方案需要38分钟。如果只使用MF而不使用RMF训练时间更是缩短到3分钟。更短的训练时间对于量子处理器的日常校准流程至关重要。像SNAKE这类自动校准优化器需要反复运行参数扫描和模型训练。将每次迭代的训练时间减半意味着总的校准时间可以大幅缩短提高了机器的可用性。在系统集成方面现有的RFSoC控制框架如QICK, Presto已经支持了信号解调、滤波等标准模块。HERQULES引入的唯一新模块是小型FNN由于其资源占用极小可以很容易地作为自定义IP核集成进去。未来随着比特数增长可以采用“一组复用比特共享一个判别器”或“所有比特共享一个更大判别器”的架构进行扩展并利用FPGA神经网络加速器领域的研究成果如循环权重矩阵、资源分区等来进一步提升能效比。

相关新闻