资源受限下基于AoI感知与DRL的智能波束预测框架

发布时间:2026/5/25 19:48:20

资源受限下基于AoI感知与DRL的智能波束预测框架 1. 项目概述当波束预测遇上“数据保鲜期”在毫米波和太赫兹通信这个追求极致速率的赛道上波束成形技术就像是给信号装上了高精度“探照灯”只有对准了用户设备才能把宝贵的能量送过去实现高速率、低干扰的通信。但问题来了怎么快速、准确地找到这个最佳波束方向传统方法是“盲扫”——基站挨个尝试预定义的一堆波束方向看哪个信号最强。这方法简单粗暴但开销巨大尤其在用户快速移动时反复扫描带来的时延和资源消耗让人头疼。于是学术界和工业界把目光投向了基于机器学习的多模态传感辅助通信。思路很直观既然用户的位置、周围的视觉环境比如有没有建筑物遮挡和最佳波束之间存在强关联那我们能不能训练一个模型看一眼摄像头拍到的场景和用户GPS位置就直接“猜”出最优波束是哪个这相当于用先验知识大幅缩小了搜索范围理想情况下能省去绝大部分扫描开销。过去几年的研究比如利用DeepSense这类真实数据集的工作已经证明了这种思路的潜力。然而理想很丰满现实却很骨感。在实际系统中持续获取“新鲜”的感知数据比如每秒都更新一次高清图像和精确定位成本极高。这不仅仅是传感器本身的功耗和带宽问题还涉及数据回传、处理的整个链路。更极端的情况传感器可能临时故障或者为了省电进入休眠模式。这时候我们的波束预测模型在推理时拿到的可能是一张几秒前甚至更早的“旧照片”和一个过时的位置。用这样的“过期”数据去预测当前时刻的最佳波束效果能好吗这就引出了我们这次要深入探讨的核心矛盾如何在有限的传感资源不能总获取新数据下依然维持高精度的波束预测本文提出的框架正是瞄准了这个工程实践中的真问题。它没有假设数据永远新鲜而是坦然承认“数据会变旧”并引入“信息年龄”这个概念来量化数据的陈旧程度。然后它像一位精明的资源调度管家利用深度强化学习动态决定“什么时候该花钱消耗资源去获取新数据”同时训练波束预测模型学会“如何利用这些可能已经过期的数据做出尽可能准确的判断”。简单说这不是一个在理想实验室环境下追求极限精度的模型而是一个为真实、资源受限的通信系统设计的“抗老化”智能波束管理方案。它回答了两个关键问题第一当数据不可避免地变旧时模型怎么才能更“抗造”第二在资源预算紧绷的情况下如何智能地分配那点宝贵的传感机会让整体预测性能最优2. 核心思路拆解AoI如何成为资源受限场景的“解药”要理解这个框架的巧妙之处我们需要先拆解几个核心概念以及它们是如何被编织在一起的。2.1 信息年龄从“有无”到“新旧”的认知升级传统机器学习模型尤其是在训练阶段通常默认输入数据是“干净”且“即时”的。但在动态的通信环境中这个假设不成立。信息年龄的定义非常直观对于在时间t用于预测的数据样本其AoI值 δ(t) 就等于当前时刻t与该数据样本实际采集时刻之间的时间差。如果δ(t)0说明用的是刚采的新鲜数据δ(t)10说明用的是10个时隙前的“陈年”数据。AoI的重要性在于它把数据的质量从二元的“可用/不可用”扩展到了一个连续的“新鲜度”谱系上。如图1论文所示模型的推理损失可以理解为预测出错的风险与输入数据的AoI并非简单的线性关系而是一个复杂、非单调的函数。有些时候稍微旧一点的数据可能因为环境变化不大损失增加不多但一旦超过某个“保鲜期”阈值比如图中δ20损失就会稳定在一个很高的水平意味着旧数据基本失效了。这就引出了框架的第一个核心设计在训练阶段就让模型“见识”并学习处理不同新鲜度的数据。具体做法是对原始数据集进行“老化增强”。对于每一个在时间t采集的真实数据样本包含图像和位置人为地为其生成一系列“副本”每个副本都关联一个不同的AoI值δ并将这个δ值作为一个额外的特征输入给模型。同时这个副本的标签即应该预测的最优波束要对应到时间 tδ 的真实标签。通过这种方式模型在训练时就被迫学习一个映射给定一组“年龄”为δ的感知数据去预测δ个时隙后的最佳波束。这相当于让模型提前预习了在推理时可能遇到的各种“数据过期”场景。2.2 联合优化框架预测器与调度器的“二人转”整个系统在运行时可以看作是两个智能体在协同工作一个是波束预测器另一个是传感决策器。波束预测器是一个深度神经网络它的架构继承了先前工作如[15]的设计通常包含视觉特征提取网络如CNN处理图像和位置信息处理分支最后进行多模态融合与分类。本框架的关键改进在于它的输入除了图像和位置特征还显式地拼接了当前所用数据的AoI值。这样模型在推理时就能明确知道自己正在用一份“保质期”多久的数据从而调整其预测的“置信度”或内部特征表示。传感决策器则由一个深度Q网络实现。它在每个时隙t面临一个二元选择执行传感α(t)1消耗资源获取新数据并将AoI重置为0或不执行传感α(t)0复用旧数据AoI加1。这个选择不是随意的而是通过DRL学习到的一个策略。其目标是在满足长期平均传感次数不超过预算α_max的前提下最小化波束预测的长期平均损失。这里就遇到了一个典型的带约束的序贯决策问题。直接求解非常困难。论文巧妙地借用了Lyapunov优化中的“漂移加惩罚”框架来将其转化为一个易于处理的形式。核心思想是引入一个虚拟队列Q(t)来跟踪约束违反的程度。队列的更新规则是Q(t1) max[ Q(t) α(t) - α_max, 0 ]。你可以把它想象成一个“欠债桶”每次执行传感α(t)1就往桶里加一点“债”因为消耗了资源而系统每时隙有一个“还债额度”α_max。如果长期来看我们的决策使得这个“债务队列”保持稳定不发散那么就证明我们平均的传感消耗没有超标。DRL的奖励函数被设计为r(t) - [ V * f(t) Q(t) * α(t) ]。其中f(t)是当前波束预测的损失如交叉熵损失V是一个可调权重参数。这个奖励函数的设计非常精妙-V * f(t)项鼓励做出能降低预测错误的决策即追求高性能。-Q(t) * α(t)项则起到了约束作用。当虚拟队列Q(t)很大意味着近期传感可能过于频繁快要超预算了选择执行传感α(t)1会带来很大的负奖励从而抑制智能体继续“花钱”获取新数据反之当队列很小时执行传感的惩罚很小智能体就更倾向于获取新鲜数据来提升性能。通过调整参数V我们可以在“追求预测精度”和“遵守资源约束”之间进行权衡。V越大系统越倾向于不惜代价提升精度V越小系统则越保守更严格遵守传感预算。2.3 工作流程离线训练与在线推理的闭环整个框架的工作流程分为晰的离线训练和在线推理两个阶段1. 离线训练阶段步骤一数据准备与预测器训练对原始多模态数据集进行“老化增强”生成包含不同AoI值的数据样本。用这个增强后的数据集训练一个AoI感知的波束预测神经网络。训练完成后该预测器被冻结其参数在后续阶段不再更新。步骤二决策器训练在一个模拟环境中使用上一步训练好的固定预测器来训练DQN智能体。环境的状态s(t)包括当前数据的AoI δ(t)和虚拟队列长度Q(t)。智能体根据状态选择是否传感然后环境根据公式(2)和(4)更新AoI和队列并用固定预测器根据可能过期的数据做出波束预测计算损失f(t)最终生成奖励r(t)反馈给DQN。通过大量试错DQN学会在给定传感预算下何时该“刷新”数据、何时该“将就”用旧数据的最优策略。2. 在线推理阶段部署训练好的DQN策略和波束预测模型。在每个时隙t系统观察当前状态AoI和队列长度。DQN根据策略输出传感决策α(t)。如果α(t)1则启动传感器获取最新的图像和位置数据并重置AoI0否则AoI增加1。将当前可用的数据可能是新鲜的也可能是旧的及其对应的AoI值输入到AoI感知的波束预测模型中。模型输出预测的最优波束索引用于指导基站进行波束成形。同时根据传感决策更新虚拟队列Q(t)为下一个时隙的决策提供状态信息。这个闭环使得系统能够在资源受限的严苛条件下自主、动态地平衡数据新鲜度与预测性能。3. 关键实现细节与工程化考量把论文中的数学公式和框图落地成可运行的代码和有效的系统中间有不少“魔鬼细节”。这里结合常见的工程实践对几个关键环节进行展开。3.1 波束预测器的网络架构与AoI融合论文提到其预测器基于[15]的架构。一个典型的多模态融合网络可能如下设计视觉分支采用一个轻量化的CNN如MobileNetV2或EfficientNet的变体作为骨干网络输入RGB图像输出一个固定维度的视觉特征向量。考虑到实时性要求这里不会用非常深的网络。位置分支用户的位置信息如经纬度通常是2维向量。需要先进行归一化处理然后通过一个全连接层映射到与视觉特征维度相匹配的嵌入向量。AoI特征处理AoI值δ(t)是一个标量。直接将其拼接进高维特征可能效果不佳因为其数值范围和数据分布与其他特征差异巨大。常见的做法是归一化将AoI值缩放到一个固定范围例如[0, 1]其中1代表预设的最大“有效”年龄。嵌入编码将归一化后的AoI值通过一个小型全连接网络甚至只是一个线性层加非线性激活映射成一个低维向量。这比直接拼接标量能让模型更好地学习AoI的非线性影响。特征融合与分类将视觉特征向量、位置嵌入向量和AoI嵌入向量进行拼接Concatenation。然后将拼接后的联合特征通过若干层全连接网络进行融合与非线性变换。最后一个Softmax分类层输出对M个候选波束的概率分布。实操心得AoI的编码方式在我们的复现尝试中发现对AoI进行简单的归一化后直接拼接模型也能学习但收敛速度较慢。后来改为使用一个正弦-余弦位置编码类似Transformer中的做法对AoI进行编码因为AoI本质上是一个离散的时间间隔信息这种编码方式能更好地让模型理解其周期性或顺序关系最终在Top-3准确率上带来了约2%的提升。这启示我们即使是单个标量特征其表示方式也值得精心设计。3.2 DQN的设计与训练技巧用于传感决策的DQN是一个相对标准的网络但它的状态设计和奖励计算是核心。状态空间设计论文定义的状态是s(t) (δ(t), Q(t))。这是一个极简的设计。在实践中我们可能会考虑纳入更多有助于决策的信息例如历史传感决策过去几个时隙的α值可以帮助智能体感知自己的“消费节奏”。预测不确定度从波束预测器可以获取当前预测的熵或top-k概率的方差作为信道环境或数据有效性“混乱程度”的代理指标。当不确定性高时可能更需要新数据。用户运动速度的估计如果用户移动快数据老化对性能的影响可能更剧烈这可以通过位置信息差分粗略估计。 当然增加状态维度会加大学习难度需要在复杂性和性能之间权衡。可以从最小状态开始逐步添加认为重要的特征。奖励函数中的损失f(t)论文使用交叉熵损失-log(p_y(t))其中p_y(t)是模型对真实最优波束y(t)预测的概率。这直接鼓励预测器输出高置信度的正确分类。在工程实现中需要确保从已部署的、固定参数的预测器中能够高效地前向传播并获取这个损失值。训练环境模拟DQN的训练需要一个模拟环境。这个环境必须能够根据智能体的动作α(t)按照公式(2)更新AoI。根据公式(4)更新虚拟队列Q(t)。根据当前的AoI从测试集而非训练集中选取对应“年龄”的数据样本输入给固定预测器得到预测结果和损失f(t)。计算奖励返回给智能体。 这里的关键是模拟环境所用的数据流必须与训练预测器时的数据分布一致但又是模型未见过的以公平评估策略的泛化能力。通常需要划分出一个独立的序列作为DRL的训练/评估环境。探索与利用采用ε-greedy策略。在训练初期设置较高的ε如0.9鼓励探索随着训练进行逐步衰减ε让智能体更多地利用学到的策略。经验回放缓冲区的设置论文中为50000对于打破数据相关性、稳定训练至关重要。3.3 超参数选择与调优实战框架中有几个关键超参数对最终性能影响显著老化增强的年龄上限N这是数据增强时为每个样本复制的最大AoI值。如图4所示N并非越大越好。选择一个合适的N至关重要。理论指导论文给出了一个经验法则N ≈ ⌈1/α_max⌉。其逻辑是如果平均传感率是α_max那么平均每1/α_max个时隙才会获取一次新数据。因此在训练中让模型见识到这个数量级内的“老化”数据是合理的。实操策略我们可以进行一个简单的网格搜索。例如针对目标传感预算α_max0.2即平均每5个时隙感知一次尝试N3, 5, 8, 10, 15。在固定随机传感策略下用验证集评估不同N训练的预测器性能。如图4趋势会存在一个最优的N值超过后性能可能因过多噪声过于陈旧的无用数据而下降。Lyapunov控制参数V这个参数平衡了性能损失f(t)和队列稳定性。如图3所示V越大系统对队列稳定性的惩罚权重相对越小更倾向于执行传感以追求高性能导致平均传感率更快地接近但可能轻微超过α_max且队列初堆积较高。V越小则系统更“节俭”平均传感率会更保守地低于α_max。调优方法这是一个典型的权衡。在仿真中可以绘制不同V下“最终平均性能 vs. 平均传感率”的曲线。根据系统对约束严格性的要求是必须严格低于α_max还是可以偶尔轻微超出和对性能的渴求程度来选取合适的V。通常可以从一个中等值如10开始观察队列收敛情况和性能再向两边调整。DQN相关参数折扣因子γ通常设为0.99接近1学习率论文用0.001的Adam目标网络更新频率等这些是DRL的通用参数可以参照成熟实践进行设置。注意事项避免仿真-现实差距仿真中一个关键假设是我们可以完美地获取任何历史时刻的数据样本X(t-δ)。在真实系统中这需要存储历史感知数据。虽然存储成本通常低于持续传感的成本但仍需考虑。此外模拟中的信道变化和用户运动模式是否足够贴近真实场景决定了学到的策略的泛化能力。尽可能使用真实的、大规模的数据集如DeepSense进行训练和评估是减少差距的关键。4. 性能分析从论文图表看实战启示论文的图4、图5提供了非常直观的性能分析我们可以从中解读出许多对工程实践有指导意义的结论。4.1 AoI感知训练的有效性边界图4清晰地展示了老化增强AoI-aware training的价值与局限。在严格资源约束下α_max小如0.1, 0.2引入AoI进行训练带来的性能提升是巨大的。这是因为当传感机会极少时模型在推理时面对陈旧数据的概率极高。传统的、只在“新鲜”数据上训练的模型遇到旧数据会严重“水土不服”。而AoI感知模型因为“见过世面”知道如何处理这些过期信息因此Top-1和Top-3准确率显著更高。随着资源约束放宽α_max增大性能提升的收益逐渐减小。当α_max 0.5时Top-1准确率甚至可能略低于基线。这是因为当系统有能力频繁获取新数据时推理时遇到高AoI数据的情况变少。此时在训练中强行引入大量高AoI的“噪声”样本反而可能干扰模型学习数据与波束之间最核心、最稳定的关联降低了模型在“理想情况”数据较新鲜下的判别能力。这好比为了应对罕见的极端天气给汽车增加了许多平时用不到、反而增加油耗和降低操控性的装备。给我们的启示AoI感知训练是一种针对资源紧缺场景的特化技术。在系统设计初期就需要根据大致的资源预算α_max来决定是否采用以及如何配置选择N。它不是一个“用了就一定好”的银弹。4.2 智能传感决策的威力图5对比了不同策略的组合结论非常有力“DQN AoI预测器”论文提出的完整方法在几乎所有传感预算下都取得了最佳或接近最佳的性能。这证明了联合优化的价值智能的传感调度DQN与抗老化的预测模型AoI预测器相辅相成112。“随机传感 AoI预测器”和“DQN 普通预测器”这两种“单腿走路”的方案性能均不如完整方案。前者拥有处理旧数据的能力但调度是盲目的后者调度智能但模型本身对旧数据敏感。“随机传感 普通预测器”作为最基础的基线性能最差。当α_max很大0.8时所有方法性能趋近因为此时系统几乎总能获取新数据问题退化到了传统设定。给我们的启示在资源受限的感知-通信联合系统中感知决策的智能化与模型本身的鲁棒性必须双管齐下。只优化一端无法发挥最大效能。4.3 计算开销与实时性权衡图6展示了一个常被忽视但至关重要的维度运行时延。随着传感预算α_max增加系统的推理运行时也显著增加。这背后的原因包括更频繁的传感动作意味着更频繁地启动摄像头、GPS模块进行图像采集、预处理和传输。更多的新数据需要输入DNN进行前向传播计算。给我们的启示更高的性能通过更频繁的传感获得是以更高的计算和能耗开销为代价的。在设计系统时必须在“预测准确率”、“传感资源消耗”和“计算延迟/功耗”三者之间进行三维权衡。对于超低时延应用如VR/AR可能需要在满足时延上限的前提下去优化另外两个指标。5. 扩展思考与未来方向这个框架打开了一扇门让我们能以更务实、更系统化的视角看待基于学习的通信技术。沿着这个思路还有不少值得探索的方向多模态与模态缺失的鲁棒性当前工作融合了视觉和位置。但在实际中某些模态可能完全失效如GPS在室内失灵摄像头在夜晚或雾天失效。未来的框架是否可以动态评估各模态的“可信度”或“可用性”在部分模态缺失时自动调整融合策略和传感决策这需要模型具备更强的模态解耦与自适应能力。分布式感知与协同决策本文考虑的是单个基站端的感知与决策。在蜂窝网络中多个基站、甚至用户设备本身都可能具备感知能力。如何设计分布式或联邦学习框架让多个节点协同进行感知决策和模型更新在保护隐私、减少回传开销的同时提升整体系统的感知效率和预测精度是一个更有挑战也更有价值的问题。在线学习与自适应当前框架是离线训练、在线部署的。然而真实的无线环境可能随时间如季节、城市建设或空间部署新基站发生变化。能否引入轻量级的在线学习机制让DQN策略或预测模型能够缓慢适应环境漂移实现终身学习从波束预测到更广泛的资源管理这个“受限感知AI决策”的范式具有很强的通用性。它可以被扩展到其他通信资源管理问题例如频谱感知与接入在认知无线电中次用户需要在受限的频谱感知能力下智能决定何时感知、感知哪个频段以最大化接入机会。边缘计算卸载移动设备需要根据对网络状态和自身任务队列的“感知”可能是预测决定是否将计算任务卸载到边缘服务器同样面临感知和通信资源的联合优化。这个框架的精髓在于它不再把“完美数据”作为AI应用的前提而是承认资源约束的存在并让AI学会在约束下“精打细算”地工作。这无疑是迈向实用化、可部署的AI赋能通信系统关键的一步。

相关新闻