光束显示如何实现微秒级追踪?PSD与时空编码LED方案解析

发布时间:2026/5/28 9:16:43

光束显示如何实现微秒级追踪?PSD与时空编码LED方案解析 1. 项目概述为什么光束显示需要微秒级追踪在增强现实AR领域一个长期困扰工程师和用户体验设计师的难题是“头显太重了”。传统AR眼镜或头盔HMD为了提供沉浸式体验不得不把处理器、电池、传感器、显示模组和光学镜片全部塞进一个戴在头上的设备里。这直接导致了设备笨重、发热严重、续航短戴久了脖子和鼻梁都受不了。为了解决这个根本性的舒适度问题学术界和工业界提出了一个巧妙的思路光束显示。光束显示的核心思想是“化整为零”。它把最重、最热、最耗电的计算和图像生成单元——也就是投影仪和主机——从头上拿下来放在环境里比如桌面上或天花板上。然后通过一套精密的光束转向系统将生成的图像像手电筒的光束一样远程、实时地投射到用户戴着的、极其轻薄的被动式眼镜上。这副眼镜本身没有复杂的电子设备只负责接收光信号并将其导向人眼因此可以做得像普通眼镜一样轻。这个构想听起来很美但它引入了一个前所未有的技术挑战追踪延迟必须低到极致。为什么光束显示对延迟如此苛刻想象一下你戴着一副轻便的眼镜在房间里走动头顶的投影仪需要把一束光精准地打在你眼镜上那块可能只有指甲盖大小的微型屏幕上。如果你的头稍微动了一下而追踪系统反应慢了哪怕几毫秒这束光就会“打偏”完全错过屏幕。结果就是你眼前的图像会瞬间消失或剧烈抖动。这不像传统VR头显图像只是“漂移”一下你还能看见在光束显示里追踪延迟直接决定了图像是“有”还是“无”。根据相关研究在典型的头部运动速度下要实现亚像素级的稳定投影整个系统的运动到光子延迟需要低于55.5微秒。这是一个近乎严酷的要求。因此构建光束显示系统的核心就变成了如何实现一套超低延迟、高精度的头部6自由度6-DoF追踪系统。6-DoF指的是三个平移上下、左右、前后和三个旋转俯仰、偏航、翻滚自由度完整描述头部在空间中的位姿。现有的方案如高速摄像头、事件相机等要么受限于图像处理的计算延迟通常1毫秒要么系统过于复杂。而BeamStellar项目选择了一条不同的技术路径结合位置敏感探测器PSD和时空编码的LED阵列目标直指亚毫秒级的6-DoF追踪。我拆解过不少追踪方案这种将模拟传感的快速性与数字处理的灵活性相结合的思路在追求极限延迟的场景下往往能带来意想不到的突破。2. 核心方案解析PSD与时空LED编码如何协同工作要理解BeamStellar的巧妙之处我们需要先拆解它的两个核心部件位置敏感探测器和时空编码的LED阵列。这套组合拳的精髓在于用最“笨”的模拟传感器结合最“聪明”的编码策略绕开了最耗时的计算步骤。2.1 位置敏感探测器放弃图像直取坐标传统基于摄像头的追踪其流程可以概括为拍照 - 传输整张图片 - CPU/GPU进行复杂的图像处理去噪、特征提取、匹配- 解算位姿。其中图像处理和特征匹配是主要的延迟和算力消耗大户。PSD则走了另一条路。它是一种模拟光学传感器其表面是一个连续的光敏面。当一束光比如一个LED的光点照射到PSD表面时它会根据光斑的能量中心位置在四个电极上产生比例不同的光电流。通过一个简单的模拟电路PSD可以直接输出两个电压信号X和Y这两个电压值就直接对应了光斑质心在传感器平面上的坐标。注意PSD输出的不是像素图像而是坐标这省去了从“一堆像素”到“一个坐标点”的所有中间图像处理步骤其响应速度仅受限于传感器本身的物理带宽BeamStellar使用的PSD带宽为15kHz延迟可以低至微秒级。这是实现超低延迟追踪的物理基础。但是单个PSD只能追踪一个光点只能得到2D坐标信息无法直接获得深度距离和旋转信息。这就需要引入第二个核心多LED阵列及其编码策略。2.2 时空编码LED阵列让一个传感器看清四个点为了获得6-DoF位姿我们至少需要追踪三个不在同一直线上的点。BeamStellar在眼镜框的四个角上各放置了一个红外LED。如果这四个LED同时常亮在PSD上就会形成四个重叠的光斑PSD只能输出它们的“混合”质心无法区分彼此系统就“瞎”了。解决方案是时分复用也就是时空编码。系统让这四个LED按照一个固定的、已知的时序轮流闪烁。例如在一个周期内LED1亮100微秒 - 熄灭 - LED2亮100微秒 - 熄灭 - LED3亮100微秒 - 熄灭 - LED4亮100微秒 - 熄灭 - 短暂停顿 - 进入下一个周期。这样在任意时刻PSD“看到”的都只有一个明确的光点。通过同步这个闪烁时序FPGA可以轻松地将连续到来的坐标数据流按时间窗口分割成四个独立的数据包每个数据包对应一个特定的LED。于是我们用一个PSD就获得了四个点在二维传感器平面上的投影坐标。2.3 从2D投影点到6-DoF位姿IPPE算法现在我们有了四个已知的3D空间点它们在眼镜框上的物理位置是预先测量好的以及它们在PSD传感器平面上的2D投影坐标。这就构成了一个经典的透视n点问题。我们需要找到一个相机在这里是PSD的位姿旋转和平移使得这组3D点经过投影后能最好地匹配观测到的2D点。BeamStellar选择了IPPE算法。这是一个专门为共面点集设计的闭式解算法。我们的四个LED安装在眼镜框上近似处于同一个平面正好满足IPPE的前提条件。相比于需要迭代求解的PnP算法IPPE的闭式解意味着它可以通过一系列确定的矩阵运算直接得到结果计算速度极快且确定性高没有迭代收敛的问题非常适合在FPGA这种并行硬件上实现。整个数据流的闭环是这样的眼镜上的LED按序闪烁 - PSD感知到光斑并输出模拟坐标 - ADC将模拟信号数字化 - FPGA接收数字信号根据时序分离出四个LED的坐标 - FPGA运行IPPE算法解算出眼镜完整的6-DoF位姿 - 位姿数据用于计算光束转向镜所需的调整角度 - 驱动转向镜转动使投影光束重新对准眼镜屏幕。3. 硬件系统深度拆解从传感器到FPGA的微秒级流水线纸上谈兵终觉浅我们深入到BeamStellar的硬件实现层面看看每一个环节是如何为“快”这个目标服务的。这套系统的设计充满了工程上的权衡与巧思。3.1 光学与传感单元共光路设计系统的“眼睛”和“手”是集成在一起的。如图1所示PSD传感和投影仪显示的光路通过分光镜等光学元件进行了共光路设计。这意味着它们共享同一个视场看向同一个方向。这样设计的好处是巨大的传感和显示的坐标系在物理上就是对齐的。我们无需在软件中进行复杂的坐标变换来对齐追踪系统和投影系统简化了校准流程也从根本上减少了因坐标系转换带来的潜在误差和延迟。PSD模块选用了Thorlabs的PDP90A其核心优势是0.75微米的分辨率和15kHz的带宽。配合的控制器KPA101工作在开环模式以保持纯粹的模拟响应速度。转镜选用的是Optotune的MR-E-2其更新频率为10kHz这意味着它每100微秒就能接收一次新的角度指令并开始运动为快速跟踪提供了执行端的保障。3.2 信号链的神经中枢FPGA与高速ADC这是整个系统低延迟的数字心脏。模拟世界到数字世界的桥梁是关键。ADC选型团队没有选择常见的Δ-Σ型ADC虽然它精度高但通常有较长的流水线延迟。他们选择了逐次逼近寄存器型ADC。SAR-ADC的转换速度极快延迟可预测且极短微秒级非常适合这种对时序要求苛刻的实时采样场景。具体型号是Analog Devices的AD4630-1616位分辨率2 MSPS每秒百万次采样的采样率。FPGA的核心作用FPGA在这里扮演了“硬实时”处理器的角色。它通过高速SPI接口使用了双倍数据率DDR技术以提升带宽从ADC读取数据。一旦四个LED的数据采集完成一个周期FPGA内部的定制流水线立即启动。信号分段根据LED闪烁的固定时序FPGA逻辑将连续的数据流准确地切割成四个“桶”分别对应四个LED。坐标平均在每个LED的发光时段内FPGA会采集多个样本例如中间1/3时段的60个点并计算平均值以抑制噪声得到更稳定的坐标值。位姿解算IPPE算法被直接编译成硬件描述语言在FPGA的逻辑单元中并行执行。几个小型矩阵的乘法和求逆运算对于FPGA来说几乎是瞬间完成的。直接内存访问计算出的位姿数据通过DMA直接写入共享RAM供ARM CPU在Zynq SoC上或后续的渲染管线读取避免了CPU中断和拷贝带来的延迟。3.3 眼镜端设计轻量化与驱动眼镜的目标是被动、轻便。当前的原型机重150克含电池已经接近普通AR眼镜的重量。眼镜上集成了一个微控制器负责严格按照预设的时序驱动四个高功率红外LED闪烁。LED的选型也有讲究波长更短的光如蓝光在PSD上的响应速度更快但需要更高的能量才能达到相同的信号强度波长更长的光如红外光更省电但响应稍慢。团队在眼镜上预留了多种LED的安装位便于测试和权衡响应速度与功耗。4. 延迟分析与性能实测430微秒是如何达成的低延迟不是一个模糊的概念必须被精确地测量和分解。BeamStellar论文中提供了一个清晰的延迟分解框图这是评估此类系统性能的范本。我们将总延迟分解为几个可测量的阶段t1 (LED发射与采样间隔约366 µs)这是由LED闪烁时序决定的基础周期。从第一个LED开始发光到第四个LED的有效采样窗口结束取其中间2/3的时间总共约366微秒。这是系统刷新率的理论上限。t2 (FPGA位姿估计约31 µs)这是FPGA在收齐四个LED数据后执行IPPE算法计算出6-DoF位姿所花费的时间。得益于FPGA的并行计算能力这个时间被压缩到了极短。t3 (镜面校正计算约5 µs)根据计算出的位姿解算出转向镜需要偏转的角度Δx, Δy。这部分计算量很小。t4 (指令传输约28 µs)将角度指令通过SPI总线发送给转向镜控制器的时间。t5 (镜面转动延迟可变)这是转向镜物理上从一个角度转动到另一个角度所需的时间取决于镜子的转动惯量和驱动能力与电子处理流水线无关。t1 t2 t3 t4 ≈ 430 µs。这就是BeamStellar系统从头部运动被LED光信号捕获到生成控制指令的电子处理总延迟。这个数字已经进入了亚毫秒范畴对于光束显示应用来说是一个里程碑式的成果。它意味着在用户头部开始运动后的不到0.5毫秒内系统就已经“知道”了新的头部位置并开始指挥光束转向。实操心得在追求极限延迟的系统里每一微秒都要计较。团队的选择体现了清晰的权衡用PSD替代摄像头牺牲了丰富的图像信息换来了极致的传感速度用FPGA实现IPPE算法牺牲了算法的灵活性比如很难在FPGA上运行复杂的神经网络换来了确定性的、硬件加速的计算速度用时空编码的LED增加了眼镜端的复杂度但让单PSD追踪多目标成为可能简化了基站端。这种“用复杂度换速度并将复杂度转移到可接受的地方”的思路是嵌入式实时系统设计的精髓。5. 系统校准与环境挑战从原理到可用的关键一步一个在实验室里能跑通的原理样机要变成一个稳定可用的系统校准和鲁棒性设计是绕不开的坎。BeamStellar在这方面也面临着自己的挑战。5.1 双阶段校准流程PSD内参校准就像相机需要标定内参焦距、主点、畸变一样PSD也需要标定。我们需要建立PSD输出的电压值(X, Y)与实际光线入射角度之间的精确映射关系。由于PSD不“看”图像传统的棋盘格标定法不适用。论文中提到可能需要制作一个平面LED网格标定板通过精确控制每个LED亮起并记录PSD输出来拟合出这个映射模型。投影-传感联合校准在共光路设计中我们需要确保PSD感知到的“前方”和投影仪投射出的“前方”是严格对齐的。这涉及到对转向镜的零位、扫描非线性等进行校准。可以借鉴已有光束显示研究中的镜子模型通过让系统追踪一个已知轨迹的靶标来反推和补偿系统中的静态偏差。5.2 环境光干扰应对PSD对光强最集中的点最敏感这是它的优势但也带来了挑战环境中如果有非常强的点光源比如阳光直射、强烈的聚光灯可能会干扰甚至淹没LED的信号。系统采用了多重防护光学路径屏蔽用遮光筒将PSD的感光路径封闭起来只允许从镜头方向来的光进入。光学滤波在PSD前加装窄带滤光片只允许LED发出的特定波长如950nm红外光通过大幅抑制环境中的杂散光。光学聚焦通过透镜将远处的LED光点尽可能小地聚焦在PSD表面提高能量密度使其信号强度远高于背景光的平均水平。反向偏压给PSD施加反向偏置电压可以提高其灵敏度和响应速度进一步增强信噪比。6. 局限性与未来演进方向BeamStellar作为一个研究原型清晰地展示了PSD时空LED编码路径的可行性但距离一个成熟的消费级产品还有很长的路要走。追踪范围有限单个PSD的视场角是有限的这限制了用户的头部可移动范围。未来的系统可能需要多个PSD传感器阵列或者结合其他广域、低精度的传感器如IMU进行融合在用户大幅移动时进行粗跟踪和引导。多用户支持当前系统只能追踪一副眼镜。要支持多用户需要为每副眼镜设计不同的LED闪烁编码如不同的频率或编码序列并在FPGA中实现多通道解码这对信号处理能力提出了更高要求。遮挡问题如果LED被手或其他物体完全遮挡追踪会立刻中断。这是所有光学追踪系统的通病。可能的解决方案是结合惯性测量单元在光学信号丢失的短时间内行航位推算保持追踪的连续性。系统集成度目前的系统是桌面式的原型。真正的光束显示系统需要将投影仪、PSD、转向镜、计算单元高度集成可能做成一个天花板吊装或桌面台灯式的设备这对光学设计、散热和工业设计都是挑战。延迟的进一步压缩430微秒是电子处理延迟转向镜的机械响应延迟是另一个瓶颈。采用更轻、更快的MEMS微镜或者探索其他非机械式的光束偏转技术如光学相控阵是进一步降低总延迟的方向。从我过去调试高带宽数据采集系统的经验来看BeamStellar方案最吸引人的地方在于其概念的简洁性和延迟的极致性。它没有试图用更强大的算力去暴力解决延迟问题而是通过传感器原理和系统架构的创新从物理层面规避了最大的延迟源。这种思路对于解决其他领域的实时控制问题也具有很强的启发性。当然这套系统的复杂度从摄像头转移到了光学校准和时序同步上这对工程师的跨学科能力提出了更高要求。不过当你的性能指标需要从“毫秒”进入“微秒”时代时这种架构上的根本性改变往往是唯一的选择。

相关新闻