3.47 室内环境下全向成像孪生神经网络机器人定位的实验评价

发布时间:2026/6/1 10:57:40

3.47 室内环境下全向成像孪生神经网络机器人定位的实验评价 %3.47 基于全向图像的孪生神经网络在室内机器人定位中的实验评估article{cabrera2024experimental,title{An experimental evaluation of Siamese Neural Networks for robot localization using omnidirectional imaging in indoor environments},author{Cabrera, Juan Jos{\e} and Rom{\a}n, Vicente and Gil, Arturo and Reinoso, Oscar and Pay{\a}, Luis},journal{Artificial Intelligence Review},volume{57},number{8},pages{198},year{2024},publisher{Springer}}豆包阅读这篇 2024 年发表于Artificial Intelligence Review的论文核心是用孪生神经网络Siamese Neural Network, SNN结合全景视觉解决室内移动机器人全局定位问题并通过大量实验验证网络结构、训练参数与数据增强对定位效果的影响。一、研究背景与目标核心问题室内移动机器人自主导航的关键是全局定位传统视觉定位依赖 SIFT/ORB 等局部特征或全局描述子对光照变化、图像模糊鲁棒性差全景相机虽能提供 360° 环境信息但缺乏高效的特征匹配与相似度计算方法。研究目标验证孪生神经网络用全景图像建模室内环境、完成图像检索与定位的可行性。实现两大任务房间判别判断两张图是否来自同一房间、全局定位直接估计机器人位姿。优化网络结构、训练参数提升对光照变化、模糊、旋转等真实场景干扰的鲁棒性。创新点首次将孪生神经网络系统性用于全景视觉的室内机器人全局定位。设计专用光照增强数据增强策略模拟真实环境光影变化。完整对比不同 CNN 主干、全连接层、训练配比的效果给出最优配置。二、核心方法孪生神经网络定位框架1. 孪生网络基础结构由两个共享权重的 CNN 分支组成输入两张全景图128×512 分辨率。每个 CNN 输出全局图像描述子通过欧氏距离计算描述子差异衡量图像相似度。损失函数对比损失Contrastive Loss让同位置 / 同房间描述子距离小不同位置 / 房间距离大。2. 两大定位任务设计1房间判别Room Discrimination输入成对全景图标签0 同房间、1 不同房间。输出网络预测相似度阈值 0.5 区分是否同房间。目的验证网络对环境语义区域的区分能力为全局定位铺垫。2全局定位Global Localization前提预先生成环境视觉地图含全景图、对应位姿、房间信息。流程测试图→孪生网络生成描述子→与地图描述子匹配→距离最小的地图位姿即为定位结果。标签规则同房间按位姿欧氏距离归一化赋值不同房间直接标 1。3. 网络组件与参数设置特征提取主干对比多种 CNNAlexNet、DenseNet、VGG11/13/16/19含 BN 版本、2 种简易 3 层 CNN。特征聚合层用全连接层压缩高维特征为紧凑描述子测试 3 组配置500–500–5、500–100–10、1000–1000–10。训练超参优化器SGD学习率 0.001动量 0.9批量大小16/256训练轮次7–30 轮。数据增强核心创新专为光照变化、机器人运动设计分局部 / 全局 / 组合效果局部模拟灯泡、方形 / 梯形光斑、阴影衰减。全局整体明暗、锐化 / 模糊、对比度、饱和度、任意角度旋转适配全景 360°。组合多光影效果叠加提升泛化性。4. 实验数据集采用COLD-Freiburg 室内全景数据集覆盖 9 个房间走廊、办公室、图书馆、浴室等含阴天、夜晚、晴天三种光照训练集 18486 张原始图三种光照。训练集 2977856 张增强图仅阴天原图增强。测试集阴天 / 夜晚 / 晴天各独立子集共 7416 张视觉地图556 张阴天采样图。三、实验结果与分析1. 房间判别任务最优主干VGG13/VGG16 表现最佳全局准确率达 96.16%同房间准确率 98.90%不同房间 93.41%。训练配比影响同房间 10% 不同房间 90%配比效果最优平衡两类判别精度。批量大小小批量16较大批量256精度更高。全连接层1000–1000–10 结构判别效果最好。2. 全局定位任务核心指标平均绝对误差MAE、均方误差MSE、Top1% 召回率。最优配置主干VGG16全连接层500–500–5泛化性最强跨光照稳定。训练配比同房间 40% 不同房间 60%全局 MAE 最低至0.509m。数据增强效果阴天误差降低约12cm夜晚降低约20cm。晴天误差上升增强无法完全模拟真实强光环境。结论数据增强显著提升阴天 / 夜晚鲁棒性是弱光定位的关键优化手段。光照鲁棒性网络在阴天、夜晚表现最优晴天因光照剧烈变化精度下降符合真实室内场景规律。3. 与现有方法对比本文方法在阴天、夜晚定位误差低于 AlexNet、EfficientNet、HOG、GIST等传统 / 单 CNN 方法。晴天场景精度略低于 EfficientNet核心原因是损失函数与全景图预处理方式差异。四、结论与局限1. 核心结论孪生神经网络非常适合全景视觉机器人定位可高效完成图像检索与位姿估计。VGG16500-500-5 全连接层 4:6 训练配比是室内定位最优配置。专用光照数据增强大幅提升阴天 / 夜晚定位精度是弱光环境必备策略。对比损失函数存在优化空间导致同 / 不同房间判别精度此消彼长。2. 研究局限对晴天强光等极端光照变化鲁棒性不足。仅验证室内环境未拓展至复杂室外场景。仅使用视觉传感器未融合 LiDAR 等多传感器信息。3. 未来工作将方法拓展至室外非结构化环境。融合LiDAR与视觉数据提升定位鲁棒性。替换对比损失为Circle Loss等更灵活的损失函数优化相似度学习。代码开源https://github.com/juanjo-cabrera/IndoorLocalizationSNN五、关键贡献总结验证了孪生神经网络在全景视觉室内定位的有效性提供完整实验范式。提出光照自适应数据增强显著提升弱光定位性能。给出可直接落地的网络结构与训练参数最优组合为工程应用提供参考。系统对比现有方法证明该方案在阴天 / 夜晚场景的先进性。摘要本文的目的是利用安装在机器人上的折射式视觉系统获取的全方位图像来解决定位问题。为此我们探索了孪生神经网络在使用全景图像作为唯一信息源来建模室内环境方面的潜力。孪生神经网络的特点是能够在两个输入数据之间生成相似性函数在这种情况下是在两个全景图像之间。本研究使用由两个卷积神经网络(CNN)组成的孪生神经网络。每个CNN的输出是用于描述每个图像的描述符。通过测量这些描述符之间的距离来计算图像的相异度。这一事实使孪生神经网络特别适合执行图像检索任务。首先我们评估一个与定位密切相关的初始任务即检测两个图像是在同一个房间还是在不同的房间拍摄的。接下来我们在全球本地化问题的背景下评估暹罗神经网络。在各种光照条件下尤其是使用在多云和夜间条件下拍摄的图像时该方法的结果优于以前使用COLD-Freiburg数据集解决定位任务的技术。定位全方位成像整体描述移动机器人孪生神经网络1.前言在过去的几年里视觉传感器在移动机器人的地图构建和定位领域得到了广泛的应用(Hu等人2020年钟等人2018年)。特别是在地图上进行定位的能力对于开发能够在真实运行条件下导航的自主机器人。人们对使用视觉传感器从环境中获取信息的兴趣仍然很高。摄像头可以以相对较低的成本从环境中捕捉大量信息并且可以在室内和室外区域使用。此外这些图像还允许执行其他高度专业化的任务如目标识别和人物检测。在可用来捕获视觉信息的配置中全向视觉传感器在移动机器人中的使用已经变得普遍。全方位摄像机获取覆盖机器人周围360°视野的图像(Junior等人2016)。因此它们通常用于解决导航任务(Rituerto等人2010)。摄像机提供的大量信息需要强大的技术来提取和描述相关的视觉信息。已经考虑了不同的范例来提取这一相关信息。第一组技术集中于检测、描述和跟踪场景沿线的一些地标或局部特征(曹等人2020年林等人2020)。地图绘制和本地化任务中使用了不同的本地特征包括SIFT、SURF和ORB描述符(E.Rublee和Bradski2011)。然后例如可以通过词袋模型(RaúL Mur-Artal和TardóS 2015)获得对每个图像的全球描述。第二组技术将每个场景作为一个整体进行处理并为每个图像构建包含其全球外观信息的唯一描述符(KorRapati和Mezouar 2017Khaliq等人)。2019年)。最后硬件的发展导致许多作者使用人工智能(AI)技术从图像中提取相关信息。具体地说卷积神经网络(CNN)已经被提出来解决不同的计算机视觉和机器人任务。例如Xu等人。(2019)和Leyva-Vallina等人。(2019)提出了基于CNN的全局外观描述子以获得机器人最可能的姿势。总而言之整体描述方法产生的地图中存储了一组机器人姿势及其关联的描述符。这样机器人的每个姿态都由一个整体描述符来表示这种表示法基于描述符间的两两比较得到了简单的定位算法。在这篇手稿中我们评估了孪生神经网络在图像描述和机器人定位方面的应用。孪生神经网络允许同时评估两个图像其方式是在输出端提供相似性度量。因此它们有可能解决位置的视觉识别和估计移动机器人的位置。在本文中我们对这一潜力进行了评估。本文的主要贡献可以概括为以下几点。1.利用全景图像作为唯一的信息源探讨了暹罗神经网络对室内环境建模的能力。2.我们对暹罗神经网络进行了训练和评估目的是检测两个图像是在同一个房间还是在不同的房间拍摄的。3.将暹罗神经网络训练成一个全局图像检索问题来估计机器人的位置。4.详细研究了暹罗神经网络的结构和相关参数对网络性能的影响。此外我们还分析了对实际操作条件下可能出现的一些常见视觉现象的鲁棒性如光照条件的变化或图像模糊。2 相关工作如前所述孪生神经网络能够从输入数据对中生成相似性函数。它们可以看作是由两个神经网络组成的上层建筑。这些架构接受两个不同的输入并提供单一输出。底层网络共享相同的权重并且可以使用不同的函数来确定单个输出。它们最初是在1993年提出的目的是区分正确的签名和伪造的签名(Bromley等人1993年)。从那时起这些体系结构在不同的知识领域被提出。例如Thiolliere等人2015提出了一种用于音频和语音信号处理的暹罗神经网络郑等人2019)将此体系结构用于比较DNA序列或Jeon等人2019)将其用于药物发现目的。此外Parajuli et al.(2017)开发了孪生神经网络来跟踪心脏运动Sandouk和Chen(2017)提出了一种暹孪生架构来识别音乐标签。最近苏尔贾西奇等人提出了自己的看法。(2022)使用这种架构进行多目标跟踪(MOT)和人员重新识别。在过去的几年里人工智能总体上特别是CNN已经被用于移动机器人领域的各种目的。例如用于地图绘制(Sinha等人2018年Moolan-Feroze等人。2019年)、定位(Weinzaepfel等人2019年卡塔内奥等人。2019年)、导航(赵等人2018年Ma等人。2019)和同步本地化和地图绘制(Lu和Lu 2019Liu et al.2019年)。关于基于人工智能使用的移动机器人任务的完整最先进的审查可以在(Cebollada等人)中找到。2020)。人工智能在移动机器人领域的其他应用包括自动驾驶导航(Polvara等人)。2018年Organisciak等人。2020)、人脸检测和识别(Wang等人2017年胡等人。2021)、对象识别和分类(Zaki等人2019年冯等人。以及地图绘制和定位(Holliday和Dudek 2018Ruan等人)。2019年)。卷积神经网络(CNN)是人工智能工具中最流行的技术。目前由于它们在许多实际应用中的成功表现它们被用于许多地图和定位任务。它们被设计成接收图像作为输入它们的结构是专门创建的以获得合成其中信息的描述符(Chollet等人。2018年)。因此它们可以用来描述图像的全局外观。从这个意义上讲Cebollada等人。(2019)提出了用CNN获得的整体描述符在拓扑模型中进行定位研究它们对光照变化的抵抗能力。此外Xu等人也提出了自己的观点。(2019)和Leyva-Vallina等人。(2019)提出了这些技术来获得最可能的机器人位置。此外Ballesta et al.(2021)研究了使用CNN和回归层作为全局外观描述符的本地化任务。最近Rostkowska和Skrzypczyński(2023年)使用高效网模型(Tan和Le 2019)将全向图像嵌入到单个描述符中然后使用K最近邻算法来稳健预测给定数据库(MAP)中的拓扑位置。对此本工作实现了Facebook AI相似度搜索(Faiss)图书馆(Johnson等人2019)以使用KD-树高效地执行最近邻居搜索。一些众所周知的体系结构已经被用作基本结构来开发用于机器人导航目的的新的改进型网络。AlexNet(Krizevsky等人)2012年)、VGG16(Simonyan和Zisserman 2014)、GoogLeNet(Szegedy等人)。2015)或NetVLAD(Arandjelovic等人2016)是其中的一部分。本文提出的卷积神经网络可用于构成孪生神经网络。在机器人学领域它们很少被使用下面提到在该领域提出这种结构的一些研究。例如Utkin等人。(2017)使用孪生神经网络通过检测机器人行为中的异常来支持机器人的安全控制。(2018)提出了一种机器人拾取和放置系统能够使用暹罗神经网络在杂乱的环境中识别和抓住已知和新的物体。此外Li和Zhang(2019)使用VGG16网络来整合用于目标检测和跟踪的孪生结构。此外张和鹏(2019)提出了一项研究在该研究中孪生网络之后是实时视觉跟踪背景下的完全连接层或区域建议网络结构。关于机器人定位任务Leyva-Vallina等人已经提出使用暹罗神经网络来解决花园环境中的位置识别问题(Leyva-Vallina等人)。2019年、2021年)。此外该架构已被提出用于使用LiDAR扫描进行定位(Yen等人。2018年Chen等人。2022年)。本文研究了基于全景图像的移动机器人定位问题详细研究了孪生神经网络的不同结构和训练结构。为此我们提出了一种初步的方法来训练和测试网络区分在同一房间和不同房间捕获的图像的能力。此外在本研究中我们还使用孪生神经网络来解决全局定位问题。3 基于孪生神经网络的视觉定位孪生神经网络可以被描述为一个上层建筑它至少包括下面的两个不同的神经网络。权重在网络之间共享并且通过组合两个网络的输出来生成单个输出。图1显示了孪生神经网络体系结构的一般表示。图 1 就是孪生神经网络的标准结构两个共享权重的 CNN输入两张图输出两个特征用特征距离表示图像相似度用来做机器人定位。在本工作中我们使用卷积神经网络来整合暹罗神经网络的两个分支。每个CNN的输出是用于表征每个输入图像的描述符。通过测量这些描述符之间的距离来计算输入图像的相异度。这样当训练的图像属于同一类别时暹罗神经网络就可以被训练成类似的描述符。这一事实使暹罗神经网络特别适合执行图像检索任务。此外值得注意的是网络的输出、训练和性能直接取决于·用于提取图像主要特征的子网络W1和W2中使用的体系结构。·将特征映射从卷积层转换为描述符矢量。·嵌入这对输入图像的输出描述符的维度。·使用可用图像进行的培训。特别是每个类别的图像的标签和比例。在本文中我们分析了这些项目对机器人视觉定位的影响。在这个意义上我们假设环境的可视地图最初是可用的。为了获得这张地图机器人在整个区域内移动沿着轨迹捕捉全方位的图像。首先将图像转换为全景格式(在本工作中大小为128×512)得到集合这些图像是从N个视点捕获的其姿势是已知的并被存储此外拍摄照片的房间也是已知的因此可以使用一组标签在定位期间使用所建议的架构每个图像将被嵌入到单个描述符中从而产生机器人所遵循的轨迹包括具有不同视觉信息的不同房间。在我们的工作中这些房间包括一条走廊一些办公室一个图书馆和一个浴室。考虑到这些事实初始地图由图像集合、它们的姿势和捕获图像的房间组成利用这些信息一些孪生神经网络被训练来解决定位问题。3.1 房间判别在本小节中我们评估一项与定位相关的基础任务以研究孪生神经网络能否区分在同一房间拍摄的图像与在不同房间拍摄的图像。为此我们使用随机抽取的、来自同一房间和 / 或不同房间的图像对对模型进行训练与测试。3.2 全局定位在本研究中我们假设环境地图已预先建立如前文所述。绝对定位问题通过将测试图像与地图中的所有图像直接进行比对来解决。这一比对过程借助地图中每张图像对应的描述fi完成。机器人的位姿由地图中相似度最高的描述子所对应的位姿确定。本方法仅使用纯视觉信息求解问题并假设机器人先前位姿的信息不可用。4 深度学习工具的体系结构和训练用于分类任务的经典CNN的结构可以分为两个不同的阶段(Cebollada等人。2019)特征学习和分类阶段。使用多个卷积层来提取特征而分类任务可以使用完全连通层和最终的Softmax函数来构建。在我们的方法中分类阶段被特征聚集阶段所取代。在这个意义上特征提取阶段输出多个特征图这些特征图被平坦化为向量并通过完全连通的层来降维。该阶段允许为每个输入图像生成单个描述向量。因此该模型提供了两个向量⃗f0和⃗f1(每个输入图像一个)。在比较阶段使用欧几里得距离比较这些描述符。这种结构如图2所示。图2图 2 展示了本文用于室内机器人全景视觉定位的孪生神经网络详细架构。网络包含两个共享权重的分支每个分支由基于 AlexNet 的特征学习模块与三层全连接的特征聚合模块组成将输入的全景图像转化为紧凑的全局描述子并通过计算描述子间的欧氏距离实现图像相似度判断最终完成房间判别与全局定位。一、图 2 整体是什么图 2 孪生神经网络 以 AlexNet 为特征提取器 特征聚合层 相似度计算专门用来把两张全景图 → 变成两个特征向量 → 算距离 → 判断是否同房间 / 同位置。二、图里每一部分逐行解释1. 两个输入图像I₀128×512×3、I₁128×512×3机器人拍摄的全景图固定尺寸 128×512彩色 3 通道。可能是同位置 / 不同位置 / 同房间 / 不同房间。2. 两个完全相同的分支共享权重左右两边结构一模一样、权重完全共享这是孪生网络的核心。 每个分支分为两大阶段Feature learning phase特征学习阶段Flattening phase特征展平 聚合阶段3. 第一阶段Feature learning特征提取论文这里用的是AlexNet结构Conv1 → Pooling → Conv2 → Pooling → Conv3 → Conv4 → Conv5 → Pooling作用从图像里提取高级视觉特征墙角、门、桌子、光照纹理等。输出一堆特征图feature maps不是向量。4. 第二阶段Flattening phase特征展平与压缩把高维特征图变成紧凑的一维描述子Flatten展平把多维特征图拉成一条长向量。全连接层 FC第一层 FC-500第二层 FC-500第三层 FC-5最终输出一个长度为 5 的特征向量 F这就是图像的全局描述子。5. 最终计算相似度 / 距离两个分支分别输出F₀和F₁后计算欧氏距离距离越小 → 图像越相似 → 位置越近距离越大 → 图像越不相似 → 位置越远这就是论文做房间判别和全局定位的核心依据。因此在训练过程中网络的权重被更新以获得最优的全局描述符。比较后将它们与相似性标签(1相异0相似)之间的距离作为损失函数的数据。在我们的例子中使用的损失函数是对比损失函数。其中y是相似性标签\(\alpha\)是边界。间隔定义了描述符周围的边界因此只有当不同的图像对的距离在该边界内时它们才对损失函数有贡献(Hadsell等人。2006)。对比损失的核心思想是让 “同类样本” 的特征距离尽量小让 “异类样本” 的特征距离至少达到一个边界值\(\alpha\)从而学习到具有区分性的图像描述子实现房间判别与定位。对比损失Contrastive Loss公式是孪生神经网络训练的核心目标函数4.1 参数和网络在这篇手稿中我们比较了特征学习阶段的不同网络。作为特征聚集阶段的输入我们考虑在Alexnet的最后一卷积层中计算的表示(Krizhevsky等人。2012)DenseNet(他等人VGG11、VGG13、VGG16和VGG19(Simonyan和Zisserman2014年)。AlexNet是CNN的开创性架构因其在ImageNet大规模视觉识别挑战赛(ILSVRC)2012中的成功而闻名。视觉几何组(VGG)网络进一步促进了图像分类问题的进展在ImageNet以外的各种任务和数据集上的表现优于基准(Bayraktar等人。2019年、2020年)。VGG网络的主要区别在于卷积层的数量分别为11、13、16和19层。表1给出了这些CNN的特征提取层。此外还评估了用三个常规2D层创建的两个简单网络(表2)。为简洁起见未示出REU激活层但它们已在每一个Cv2d层之后使用。特征提取层在表1和表2中用黑色表示。不同的特征学习结构在第5节中被评估。表 1 展示了论文中对比的 6 种 CNN 主干网络AlexNet、DenseNet、VGG11/13/16/19的完整结构配置包括卷积层conv2d池化层maxpool/averagepool全连接层fc以及后续的特征聚合层蓝色标出所有网络的输入都是128×512 的 RGB 全景图像表2的目的对比预训练的大型 CNNAlexNet/VGG/DenseNet测试两个从零训练的简易 CNN看轻量化模型能否胜任室内定位任务。输入和其他网络一样固定为128×512 RGB全景图像。结构3 层卷积层 1 层池化层 3 层全连接特征聚合层蓝色标出无预训练权重所有参数随机初始化。关键细节说明ReLU 激活和表 1 一样表中省略了 ReLU 层但每个conv2d之后都接了 ReLU 激活函数。蓝色层含义fc-500、fc-500、fc-5是特征聚合层和表 1 的配置完全一致保证了不同 CNN 主干在输出描述子时的维度统一。无预训练两个 Simple 网络都是随机初始化从零训练没有用 ImageNet 预训练权重这样可以和预训练的 AlexNet/VGG 等形成公平对比验证 “是否必须用预训练模型”。在所有情况下特征提取阶段输出通过展平来自最后的MaxPool或AveragePool层的特征地图而获得的高维向量。因此如果描述符是从该层提取的则通过最近邻搜索来比较描述符的计算量将是昂贵的。为了缓解这个问题我们使用完全连通的层将平坦的矢量压缩成紧凑的全局矢量描述符这可以用于有效的检索如(Schaupp等人)所示。2019年)。这些层在表1和表2中显示为蓝色。作为全局基线使用了三个完全连通的层但考虑了不同的版本具有不同数量的神经元。在评估过程中使用的不同层如表3所示。表3定义了 3 种不同的全连接层FC结构用于把 CNN 主干输出的高维特征压缩成低维的全局图像描述子方便后续做相似度匹配与定位。 所有配置都是 3 层全连接层只是每层的神经元数量不同。4.2 数据集和数据扩充4.2.1训练和测试数据集实验中使用的图像来自室内数据集(Pronobis和Caputo2009)。这个数据库是由安装在移动机器人上的全方位视觉传感器捕获的该传感器跟踪访问了9个不同房间的不同轨迹。考虑了各种照明条件来捕捉这组图像。表4显示了本研究中使用的每个数据集的每个房间的图像数量。考虑了两个训练集训练集1包括在多云、晴朗和夜间光照条件下捕获的8486幅图像(冷-弗莱堡部分A路径2云3弗莱堡部分A路径2夜间1弗莱堡部分A路径2晴天3)。通过对训练集1的云序列应用数据增强来获得训练集2从而生成977,856个图像。关于测试集考虑了四个不同的集测试集1由2595个多云光照条件下的图像(冷弗赖堡A部分路径2云2)组成测试集2包含在夜间光照条件下捕获的图像并由2707个图像组成(冷弗赖堡A部分路径2夜间2)测试集3由2114个阳光光照条件下的图像组成(冷弗赖堡A部分路径2晴天2)以及测试集4由先前测试集中的所有图像组成。应当注意在所有情况下测试集中的图像都不同于构成训练集的图像。最后对测试集1在多云光照条件下的路径进行采样得到视觉地图共获得556张图像。

相关新闻