【论文学习】GiTNet:一种基于图的轨迹引导网络,用于注视监督的医学图像分割

发布时间:2026/6/25 19:09:09

【论文学习】GiTNet:一种基于图的轨迹引导网络,用于注视监督的医学图像分割 GiTNet作者Shaoxuan Wu 等卷期日期2026年7月DOI 于4月登记核心以眼动轨迹作为弱监督信号用图结构建模视线与病灶区域的关系。GiTNet: A graph-based trajectory-informed network for gaze-supervised medical image segmentationGiTNet一种基于图的轨迹引导网络用于注视监督的医学图像分割理解注视监督传统方法需要医生手工精确勾画轮廓来训练AI成本极高。而“注视监督”只用采集医生阅片时的视线轨迹注视点序列作为监督信号。医生只需自然地看图像不用动手画AI就通过“看”医生在关注哪里来学习应该分割哪里。这是一种弱监督学习。基于图的轨迹引导它把医生视线产生的轨迹点构建成一个图结构点作为节点注视的先后转移关系作为边通过图神经网络来建模和推理轨迹中蕴含的语义关系。这个图网络会引导分割网络去重点关注医生注视过的、信息量丰富的区域从而完成精确分割。摘要为医学图像分割创建全标注标签既耗时又昂贵这凸显了亟需高效的标注方案来减轻工作负担。眼动追踪提供了一种经济的解决方案可无缝融入临床医生的工作流程为分割任务提供相关监督。然而注视点固有的不准确性和模糊性会为分割提供错误的监督信号且编码了丰富时序和结构上下文的动态轨迹未得到充分有效的利用导致嵌入在注视中的语义信息未能被充分利用。这阻碍了注视监督的有效性并削弱了模型在模糊区域精确勾画器官和病灶边界的能力。为解决这些挑战我们提出了基于图的轨迹引导网络GiTNet该网络融合静态注视点与动态轨迹全面建模复杂的解剖关系及潜在病灶区域并通过轨迹关系对齐TRA约束图拓扑结构以增强模型对解剖和病灶相关区域的聚焦能力。此外我们引入了邻居感知伪监督NAP该机制聚合图中相邻节点的语义信息以降低注视中的噪声和不确定性。同时图表示一致性GRC通过施加扰动并保持节点和边的一致性增强了模型学习复杂空间结构的能力并提升了监督效果。实验结果表明在两个公开数据集上GiTNet 均优于现有的最先进弱监督方法。我们的代码见 https://github.com/IPMI-NWU/GiTNet。引言医学图像分割通过识别医学图像中的相关结构在疾病早期检测、准确诊断和手术规划中起着至关重要的作用Qureshi 等2023。然而要达到高精度和稳健的泛化能力通常需要大量标注数据Shen 等2023。由于医学图像标注需要经验丰富的临床医生的专业知识这一过程不仅耗时而且成本高昂成为医学图像分割技术广泛临床应用的重大障碍Tajbakhsh 等2020。为降低标注成本弱监督学习在医学图像分割中日益受到重视。通过利用成本更低且更易获取的弱标注模态如边界框Wei 等2023、点Zhai 等2023或涂鸦Wong 等2025Zhang 和 Zhuang2022a模型可以获得稀疏监督。然而这些方法往往依赖静态标注无法捕捉临床医生的认知模式Zhong 等2024。此外此类标注类型仍需要专业临床医生投入额外时间干扰临床工作流程进一步加重医务人员的负担Wang 等2022。近期研究表明来自临床专家的注视数据可作为一种独特且高效的弱监督来源。由生物驱动的注视自然反映了临床医生在医学图像中对器官结构和潜在病灶的注意力Bhattacharya 等2022。这一信息不仅揭示了感兴趣区域还提供了关于临床医生如何整合不同区域的特征以做出诊断决策的洞察Saab 等2021。与传统标注技术相比注视可通过眼动仪自动记录既具有成本效益又易于融入临床工作流程Zhong 等2024。然而注视数据也带来若干挑战。尽管它为分割提供了洞察但有效利用编码时序和结构关系的动态轨迹仍然困难。当前方法通常依赖静态特征如注视点位置作为辅助先验忽视了更具诊断意义的动态注视轨迹Wang 等2022Ma 等2023Wang 等2024。因此模型理解解剖区域之间复杂关系的能力受到阻碍影响了在模糊区域准确识别器官和病灶边界的能力。实际上注视轨迹反映了临床医生在复杂视觉分析中的图像解读过程并传递了丰富的上下文和空间结构信息这对医学图像理解和病灶定位至关重要Bisogni 等2024。CNNHe 等2016和 TransformerDosovitskiy 等2021等主流架构在建模图像区域间的高阶关系方面存在局限。相比之下GNN 在表征结构化关系和捕获图像内部空间依赖方面展现出巨大潜力Han 等2022。基于此我们提出了基于图的轨迹引导网络GiTNet它从注视中全面学习临床医生的视觉搜索行为。GiTNet 根据图像区域间的特征相似性动态构建图结构有效捕获高阶关系。此外我们引入轨迹关系对齐TRA模块调整图结构的空间拓扑以匹配临床医生的注视路径。这种对齐增强了模型感知复杂解剖结构和潜在病灶的能力。此外由于探索性注视和其他人为因素的影响注视数据本身含有噪声和模糊性。虽然一些方法尝试通过多阈值策略和模型集成来解决这一问题Zhong 等2024Chen 等2025但二值化常引入错误标签削弱了监督信号的可靠性并影响分割性能。为应对这一挑战我们将图像划分为前景、背景和不确定区域其中不确定区域包含注视信息模糊的区域。然后我们提出邻居感知伪监督NAP模块该模块基于图结构中邻近节点的特征推断不确定区域的伪标签。NAP 有效减轻了弱标签错误的影响并提升了监督的整体质量。此外我们引入图表示一致性GRC模块强制图结构在扰动下的稳定性以增强模型对复杂空间结构的理解并进一步加强监督约束。本文的主要贡献如下1我们提出用于注视监督医学图像分割的 GiTNet它在图像区域间构建图结构并利用动态轨迹约束图的空间拓扑同时融合静态注视点以捕获注意力分布。2在 GiTNet 中TRA 模块约束图结构的空间拓扑与临床医生的注视轨迹对齐从而增强模型聚焦于解剖相关结构和病灶区域的能力。3NAP 模块基于图中邻近节点的语义关系推断不确定区域的标签。通过结合 GRC 来强制图结构在扰动下的稳定性我们强化了监督约束并增强了模型理解复杂空间结构的能力。4在两个公开数据集上的大量实验表明GiTNet 优于现有的弱监督医学图像分割方法。理解与传统标注技术相比注视可通过眼动仪自动记录既具有成本效益又易于融入临床工作流程Zhong 等2024。眼动仪一种记录视线轨迹的设备自动录下他们看了哪里这个过程不需要医生做任何额外操作不影响他们原本的工作数据就自动采集到了成本低得多。相关工作弱监督医学图像分割近年来医学图像分割在全监督学习下取得了实质性进展Zhang 等2024。大规模像素级标注的可用性使得器官和病灶区域的精确勾画成为可能。尽管取得了进展但密集标签依赖临床医生并且涉及劳动密集、耗时的标注流程Jiao 等2024。高昂的标注成本和较差的可扩展性阻碍了全监督方法在真实临床环境中的适应性应用。为缓解这些挑战弱监督医学图像分割引起了越来越多的关注。弱监督方法不依赖密集监督而是利用经济且易于获取的标注形式Misera 等2024包括图像级标签Chen 等2022Yang 等2025、点标注Zhai 等2023Chu 等2025、边界框Wei 等2023Chi 等2025以及涂鸦标注Li 等2024Wong 等2025。图像级标签所需的标注工作量最小便于大规模训练点标注以有限的用户交互引入局部空间线索边界框提供相对明确的区域约束涂鸦标注则在保持低标注成本的同时灵活地传递结构信息。总体而言这些策略在保留稀疏但信息丰富的监督信号的同时大幅减轻了标注负担。然而弱监督存在固有的局限性。生成标注仍然需要临床医生的明确参与这阻碍了其与常规诊断工作流程的无缝整合并带来了额外的时间和工作负担Wang 等2022。此外静态标注无法捕捉临床医生的认知模式也缺乏卓越分割性能所必需的诊断级解剖细节。因此这些方法在性能和成本方面都面临重大挑战。为进一步提升性能交互式医学图像分割已被探索包括通过点击、轮廓调整或区域编辑进行迭代优化Huang 等2024Cheng 等2025。尽管通过有限的用户交互可显著提升质量但持续的人工参与和频繁的反馈仍然必不可少这限制了其在高通量临床环境中的可扩展性。这些局限性促使研究者探索更自然、低干扰且信息丰富的监督来源包括临床医生在常规诊断过程中产生的注视数据。注视引导的医学图像分析注视反映了人类的视觉注意力分布及其背后的认知行为在医学图像分析领域受到越来越多的关注。其应用涵盖自监督和弱监督方法以及分类、检测和分割任务Saab 等2021Bhattacharya 等2022Kong 等2024。与传统的弱标注相比注视数据可被动采集无需给临床医生带来额外的操作负担与真实诊断工作流程高度契合Alsharid 等2022。一些研究将注视转化为注意力图其中高密度区域被视为解剖结构随后引入注意力一致性约束来引导网络关注与专家视觉行为一致的特征Wang 等2022。另一类工作利用注视来抑制或屏蔽不相关的背景区域从而减少对非诊断性线索的依赖缓解捷径学习问题Ma 等2023Wu 等2024Wang 等2023。此外注视数据还通过掩码策略或具有相似注视模式的样本对齐等方式被整合到预训练和表征学习阶段Zhao 等2026Wang 等2025。尽管取得了令人鼓舞的结果但注视通常被视为粗略的空间先验相关研究多集中于分类或检测任务。一些研究尝试将注视用作弱监督。一类方法将注视作为辅助监督或额外输入以修正分割错误或丰富特征编码Xie 等2025Wang 等2023。尽管带来了可测量的性能提升但这些方法仍然依赖全标注。另一类研究则将注视视为独立的弱监督。例如通过对注视热图应用不同阈值一些方法引导多分支网络从多角度学习人类注意力从而缓解注视噪声问题Zhong 等2024。此外注视信息已被与视觉-语言模型相结合将专家的注视模式与语义文本线索融合以增强诊断推理能力Chen 等2025。尽管取得了显著进展但注视中固有的时序动态和轨迹结构经常被忽视。注视轨迹编码了临床医生的认知策略和解剖推理过程为理解结构关系提供了宝贵的洞察。因此有效建模和利用动态轨迹信息是一个关键且有前景的研究方向。方法本文提出基于图的轨迹引导网络GiTNet该网络融合动态注视轨迹与静态注视点用于弱监督医学图像分割。注视数据反映了临床医生的诊断策略但这种行为数据难以映射为精确的任务相关监督。此外注视常伴随噪声和不确定性这限制了其在医学图像分割中的效用。为应对这些挑战我们引入了轨迹关系对齐TRA通过图结构显式建模注视轨迹从而增强模型的感知能力。此外我们将图像划分为前景、背景和不确定区域。邻居感知伪监督NAP旨在基于图结构中相邻节点为不确定区域推断伪标签有效减轻错误影响并提升整体监督质量。我们还引入了图表示一致性GRC模块强制原始图与扰动图之间的结构一致性从而强化监督约束。下面我们将详细描述架构及各模块。GiTNet 架构包括 CNN 和 Transformer 在内的主流架构已广泛应用于医学图像分析。然而这类架构在显式捕获图像区域间高阶关系方面仍存在局限Han 等2022。GNN 在表示结构化关系和建模图像内空间依赖关系方面具有明显优势Wang 等2024。通过图表示可以更有效地表征区域间关系为嵌入和利用注视轨迹提供了一个自然且灵活的框架。如图 1 所示GiTNet 学习临床医生在诊断过程中的注意力分布与轨迹对图结构中的节点进行分类并识别图像分割模式。GiTNet 架构由 GNN 块和采样层组成。图一图1. GiTNet的示意图展示了用于图构建和消息传递的GNN模块及采样层该模型由静态注视图以及通过轨迹关系对齐模块校准后的动态轨迹共同监督。给定输入图像 和通过拼图增强得到的扰动图像 我们首先通过 stem 层进行四倍下采样操作。随后将得到的特征图划分为多个块并通过 GNN 块分别构建对应的图 和扰动图 。在每个 GNN 块内根据当前特征表示动态重建图并应用图卷积操作来聚合和变换节点特征。这些操作能够逐步提取语义信息。特征随后通过采样层、跳跃连接和分割头生成最终预测 和 。在扰动策略中我们采用了自监督学习中广泛使用的拼图增强技术来增强图像理解Bucci 等2022。通过打乱全局空间布局同时保留纹理拼图增强加强了模型捕获空间关系和结构细节的能力Zhang 等2025。为了纳入注视中的静态注视点信息我们处理原始注视数据应用 I2MC 算法Nyström 和 Holmqvist2010提取注视点并使用二维高斯滤波器生成注意力图 。通过对 应用背景阈值 和前景阈值 注视图 被分割为三个区域背景 ≤ 、不确定区域 和前景 ≥ 。不确定区域被视为噪声排除在监督之外。分割损失定义如下其中 ℒ 表示部分交叉熵损失coor 指注视图 所定义区域内的像素坐标集合。完整性损失 ℒ 1 − cos(, ) 常用于弱监督学习可有效减轻噪声干扰。 表示通过连通分量分析剔除非最大连通区域后得到的结果。函数 cos(⋅, ⋅) 指余弦相似度定义为在 GiTNet 中GNN 块将图像显式表示为图并通过聚合和变换操作学习特征。给定特征图 ∈ R× ×将其划分为节点集 {1, 2, … , }其中 ∗ 每个节点对应一个图像块。对于每个节点 ∈ R在特征空间中应用 KNN 来确定邻居节点集 ()然后在节点与其邻居之间构建边 。采用欧氏距离量化节点对之间的不相似性选择 个最近邻作为邻居本文中 9。最终的图表示为由节点集和边集组成的结构 {, ℰ}。在消息传递和特征学习过程中节点表示通过如下聚合与变换操作进行更新其中 (⋅) 表示全连接层(⋅) 表示最大相对图卷积Li 等2019见图 2。图二图2. 基于邻域感知的伪监督模块利用不确定节点图结构中相邻节点的信息推断伪标签以实现增强型监督。图表示一致性通过强化原始图与扰动图之间的一致性约束提升了模型对复杂空间关系的理解能力。轨迹关系对齐现有方法通常依赖静态信息如注视点位置和持续时间但忽略了动态注视轨迹中蕴含的时空结构信息从而限制了模型感知复杂解剖结构和潜在病灶的能力。相比之下轨迹捕捉了临床医生在诊断过程中的视觉搜索路径并提供丰富的空间上下文和结构引导。我们提出 TRA 模块在轨迹层面引入空间拓扑约束。具体而言对于具有 个节点的图结构节点间的结构关系由距离矩阵 定义其中 ∈ R 表示第 个节点及其特征表示。轨迹序列表示为 {1, 2, … , }其中 ∈ 表示第 个注视点对应于图结构中的一个节点。序列 反映了区域间的时间跳跃关系。基于 我们定义轨迹连接矩阵 ∈ R× 来捕捉沿注意力路径的结构关系其中 表示节点间的直接视觉转移。为引导图结构 更好地对齐临床医生的视觉路径我们设计轨迹关联对齐损失如下其中 ⊗ 表示逐点相乘 ∈ R× 为零矩阵ℒBCE 表示二元交叉熵损失计算如下TRA 设计鼓励轨迹与模型的图结构对齐从而增强模型对解剖相关区域和病灶相关区域的联合感知能力。邻居感知伪监督模糊的注视数据导致错误的监督对模型性能产生不利影响。为解决这一挑战NAP 利用不确定区域内相邻节点的信息来推断伪标签从而改善注视数据模糊区域的监督质量如图 2 所示。对于由网络中的 GNN 块构建、分别对应输入图像 和扰动图像 的图 和 节点根据其在注视图 中的位置分为两类(1) 确定节点 包含前景和背景以及 (2) 不确定节点 。然后NAP 应用稳定性门将不确定节点集 划分为稳定节点 定义如下其中 表示 中的不确定节点^ 表示 中同一位置的对应不确定节点。阈值 定义为所有稳定节点间的平均余弦相似度。为估计该值首先在不使用 NAP 模块的情况下进行实验获得一个模型。然后收集所有训练样本中稳定节点的余弦相似度值并计算其均值得到 0.968。相应公式如下其中 表示 中的确定节点^ 为 中对应的节点。对于每个稳定节点 其伪标签基于相邻节点 () 估计如下其中 (⋅) 表示节点的类别前景节点取值为 1背景节点取值为 −1不确定节点取值为 0。指示函数 I(⋅) 若条件成立则返回 1否则返回 −1。为所有稳定节点估计标签后生成伪标签 。NAP 损失函数定义为其中 ′ 和 ′ 分别表示通过伪监督头获得的 和 中各节点的预测值。图表示一致性为进一步加强监督并提升对复杂空间结构的学习性能引入了 GRC。该模块通过对原始图与扰动图之间的节点特征和边结构施加双重一致性约束来增强结构感知。扰动图由拼图增强图像通过 stem 和若干 GNN 块构建而成。理想情况下它应具有与原始图相同的节点特征和边结构。具体而言采用余弦相似度度量原始图和扰动图中对应节点特征表示之间的相似性确保节点特征表示的一致性。节点一致性损失定义如下其中 和 ̂ 分别表示原始图 和扰动图 中的对应节点。ℒ 促使扰动图中节点特征的方向与原始图保持一致从而提高模型的稳定性。此外为了保持图结构的整体空间拓扑进一步约束节点间的边结构。基于节点特征计算原始图和扰动图的结构距离矩阵如下通过矩阵差的 Frobenius 范数度量图之间的结构差异边结构一致性损失定义为其中 ℒ 促使原始图和扰动图之间的拓扑结构保持稳定这有助于模型更有效地捕获图像内部的复杂空间依赖关系。特征一致性正则化的总损失表示为在上采样阶段每个 GNN 模块之后对图结构应用 TRA、NAP 和 GRC 策略。GiTNet 的最终优化目标定义为实验数据集与实验细节遵循 Zhong 等人 (2024) 的实验设置GiTNet 在 KvasirSEG (Jha 等人2020) 和 NCI-ISBI (Bloch 等人2013) 数据集上进行评估。KvasirSEG 数据集用于胃肠道图像中的息肉分割包含 900 张训练图像和 100 张测试图像。NCI-ISBI 数据集用于 T2 加权 MRI 图像的前列腺分割包含 789 张训练图像和 117 张测试图像。注视标注来自 Zhong 等人 (2024)。如图 3 所示第一列为原始图像第二列为真实标签第三列展示了对注视数据应用高斯滤波后生成的注意力图第四列描绘了临床医生的轨迹。蓝线表示注视路径箭头指示方向圆点标记注视点其中红点和蓝点分别代表起点和终点。评估采用标准指标包括 Dice 系数和标注时间 (AT)。图三图3展示了两个数据集的可视化结果第一行呈现Kvasir-SEG数据集中的示例第二行则展示NCI- ISBI 数据集中的示例。注视标注的流程来自 Zhong 等人 (2024)。每位标注者在实验前进行九点校准。标注过程中工作流程包含两步(1) 标注者先进行初步粗扫然后对感兴趣的目标进行详细检查(2) 完成标注后标注者按键进入下一张图像。注视数据使用 SR Research EyeLink 1000 Plus 眼动仪以单眼模式记录。系统采样率为 1000 Hz平均注视误差不超过 0.5° 视角。参与者与显示屏保持 46–55 cm 的观看距离并使用下巴托固定头部位置。所有实验均在配备 PyTorch 的 NVIDIA 3080Ti GPU (12 GB) 上进行。训练采用 Adam 优化器共训练 100 个 epoch学习率为 1×10⁻⁴批量大小为 4。 和 分别设为 0.3 和 0.6。经统计分析公式 (9) 中的 0.968。公式 (17) 中的超参数 、 和 均设为 0.5。每次实验结果以三次独立试验的均值 ± 标准差进行评估。与最先进方法的比较定量结果如表 1 所示我们在 NCI-ISBI 和 KvasirSEG 数据集上针对五种不同的弱监督类型进行了定量比较包括全标注黑色三角 ▴、边界框标注橙色梅花 ♣、点标注绿色菱形 ⧫、涂鸦标注蓝色黑桃 ♠和注视标注红色方块 ■。在全监督设置下比较的方法包括 U-Net (Ronneberger 等人2015)、TransUNet (Chen 等人2021)、nnU-Net (Isensee 等人2021)以及我们方法在全监督下的两个变体GiTNet 和 GiTNet。前者表示将我们的网络直接适配到全监督设置中后者则从 GiTNet 中移除了 TRA 模块因此 GiTNet的训练仅依赖真实掩膜不包含临床医生的动态轨迹。对于边界框监督比较了使用伪标签的 BoxInst (Tian 等人2021) 和 BoxTeacher (Cheng 等人2023)。在点监督场景下比较了 PointSup (Cheng 等人2022) 和 AGMM (Wu 等人2023)后者是一种可推广用于点和涂鸦标注的方法。对于涂鸦监督比较包括采用一致性学习的 CycleMix (Zhang 和 Zhuang2022a)、ShapePU (Zhang 和 Zhuang2022b)以及使用伪标签的 ScribFormer (Li 等人2024)。在注视监督中将通用方法如 U-Net、TransUNet 和 nnU-Net与注视监督方法如 GazeMedSeg (Zhong 等人2024) 和 Chen 等人 (2025) 的方法进行了比较。所有结果均以均值 ± 标准差展示。如表 1 所示所提出的 GiTNet 方法在注视监督场景下表现出卓越的性能在 NCI-ISBI 和 KvasirSEG 数据集上分别取得了 80.99% 和 80.97% 的平均 Dice 分数超越了现有的最先进方法。与 U-Net、TransUNet、nnU-Net 和 GazeMedSeg 相比GiTNet 在 Dice 分数上均有统计学显著提升经 Wilcoxon 检验 0.05确认。与 Chen 等人 (2025) 的方法相比GiTNet 在 NCI-ISBI 数据集上取得了统计学显著的性能优势。值得注意的是Chen 等人 (2025) 的方法依赖额外的大规模视觉-语言模型和基于 RoBERTa 的文本编码器这些组件显著增加了计算和存储开销并影响了与注视监督方法比较的公平性。与最佳的边界框监督方法 BoxTeacher 相比GiTNet 分别高出 5.39% 和 7.64%。在涂鸦监督场景下GiTNet 相较于 ScribFormer 提升了 6.68% 和 5.10%。注视监督在医学图像分割中展现出巨大潜力。与全监督方法相比GiTNet 性能与 U-Net 相近但落后于 nnU-Net不过其标注速度比全监督快近九倍。此外当 GiTNet 迁移到全监督时其性能比 nnUNet 高出 1.11% 和 3.93%。移除注视信息后GiTNet* 仍超越 nnU-Net凸显了 GiTNet 在捕获复杂结构信息和增强分割能力方面带来的改进。在全监督设置下该方法在两个数据集上表现出不同的性能NCI-ISBI 上的 Dice 低于 KvasirSEG。这一差异可归因于成像特性和任务复杂度的不同。NCI-ISBI 数据集涉及基于 MRI 的前列腺分割其低对比度和模糊边界使得结构难以捕获而 KvasirSEG 由内窥镜图像组成息肉相对于周围组织呈现较高对比度。然而在弱监督设置下该方法在两个数据集上取得了更一致的性能。弱监督对精细空间对比度和精确边界信息的依赖较小使模型能够在不同成像特征的数据集上表现更稳定。表一五种标注类型中不同方法的比较结果。注视监督与完全监督下的最优方法以粗体标示次优方法则以下划线标示。AT表示对应每种标注类型的标注时间。定性可视化图 4 展示了我们的方法与多种最先进方法在 NCI-ISBI 数据集上的定性比较。图中红色区域表示过分割绿色区域表示欠分割。对于前列腺器官分割GiTNet 在边界完整性和结构一致性方面展现出卓越的稳定性和准确性。如第一行所示传统方法如 nnU-Net、TransUNet边界模糊而基于涂鸦的方法由于监督稀疏出现了严重的过分割ScribFormer或欠分割CycleMix, ShapePU导致前列腺器官识别不完整。此外GiTNet 在小目标上也保持稳定性能。第二行中其他方法表现出不同程度的错误包括缺失组织区域欠分割或错误扩张过分割。这些结果表明GiTNet 有效利用轨迹信息来提升网络对器官结构和形状细节的理解从而减少分割偏差。此外由于注视数据固有的噪声传统方法如 nnU-Net、TransUNet、U-Net易出现性能不稳定导致分割结果不完整。相比之下GiTNet 引入不确定性引导的标签策略有效区分噪声区域并利用基于邻居的推理生成高质量伪标签为网络提供更可靠的监督信号。图四图4. GiTNet与其它前沿方法在NCI- ISBI 数据集上的定性比较。过度分割区域以红色标示欠分割区域以绿色标示。图 5 展示了我们的方法与几种先进方法在 KvasirSEG 数据集上的定性比较结果。该数据集因息肉与周围组织在纹理和颜色上的高度相似性而极具挑战。在第一行示例中尽管所有方法都有一定程度的分割错误但 GiTNet 的欠分割问题明显更少整体性能最优。传统方法如 nnU-Net 和 TransUNet 倾向于遗漏某些病变区域。在第四行展示的小尺寸病变场景中GiTNet 成功检测到小息肉。反之像 ScribFormer 这样的弱监督方法由于弱标签空间信息稀疏且不稳定存在严重的过分割问题将背景区域误分类为病灶。另外基于注视热图的 GazeMedSeg 方法也表现出明显的过分割问题尤其是在小目标场景下这表明仅依赖静态注视点不足以提供有效的结构约束。nnU-Net 等传统方法同样未能充分保持目标结构限制了其实际诊断支持能力。相比之下GiTNet 通过基于不确定性的区域划分策略有效减轻了注视数据中的噪声干扰从而增强了分割结果的稳定性。图五图5. GiTNet与其它前沿方法在KvasirSEG数据集上的定性比较。过度分割区域以红色标示欠分割区域以绿色标示。消融研究不同组件的贡献表 2 展示了 GiTNet 各模块在 NCI-ISBI 和 KvasirSEG 数据集上的性能贡献。在仅使用注视监督 ℒ 的基线设置下模型在两个数据集上分别取得了 78.14% 和 77.78% 的 Dice 分数。引入 ℒ 带来了性能提升。当加入 TRA 模块时Dice 分数提升至 79.26% 和 78.85%验证了 TRA 通过有效整合临床医生的视觉信息增强了模型感知复杂空间结构的能力。进一步引入 GRC 增强了图结构的稳定性并细化了局部细节表示使 Dice 分数达到 80.28% 和 79.88%。最后NAP 通过为不确定区域推断伪标签来强化监督信号在两个数据集上分别达到了 80.99% 和 80.97% 的最优性能。这些结果体现了所有模块协同作用所带来的整体性能提升。此外在保持其他损失函数不变、仅移除 ℒ 的情况下模型在两个数据集上的性能均下降这证实了 ℒ 的有效性及其在提升模型稳定性方面的作用。表二TRA 模块的有效性TRA 模块通过整合从临床医生收集的动态轨迹来细化图的空间拓扑。沿轨迹顺序访问的节点被鼓励在特征空间中形成更一致的表示从而增强模型准确聚焦于解剖和病变相关区域的能力。注视包含注视点和眼跳眼跳主要对应注视点间的快速转移在预处理阶段被移除。如图 3 所示预处理抑制了探索性视觉搜索行为产生集中于目标区域的轨迹为注视监督和引入 TRA 模块提供了可靠基础。TRA 并非强制执行来自注视的刚性约束而是通过在特征空间中施加相对关系约束来引入软监督。这种设计降低了对个体扫描习惯和运动偏差的敏感性。为深入探究 TRA 的潜在机制我们使用随机轨迹以及包含 20% 和 50% 轨迹的子集进行了实验结果见表 3。当轨迹被削弱或随机化时观察到性能下降这表明性能提升来源于轨迹中嵌入的有意义的视觉注意线索。尽管人类注视固有噪声但 TRA 作用于多层次下采样特征每个节点对应原图中的一片区域而非单个像素部分缓解了注视位移噪声的影响。此外静态弱监督通常源自离散注视点使用交叉熵损失优化对小目标提供的约束有限。相比之下TRA 将监督更均匀地分布在图节点上增强了对小目标和局部结构细节的敏感性。表三不确定性与 NAP 的有效性为验证不确定性区域划分策略的有效性在 U-Net 和 TransUNet 上进行了实验如表 4 所示。模型 U-Net_uncertain 和 TransUNet_uncertain 采用了基于注视图的不确定性区域划分策略将注意力图划分为前景、背景和不确定区域并仅对可靠区域施加监督。相比之下传统 U-Net 和 TransUNet 模型直接将图二值化为前景和背景并对整个区域施加监督。实验结果表明引入不确定性区域划分后TransUNet_uncertain 在 NCI-ISBI 和 KvasirSEG 数据集上的 Dice 分数分别提升了 1.18% 和 0.93%。这表明不确定性划分策略有效减少了注视噪声的影响增强了模型识别结构细节的能力。表四表 5 分析了不同伪标签策略的性能。Pred 通过设定阈值基于预测图生成伪标签。NAP (w/o Gate) 是不带稳定性门的版本直接估计所有不确定区域。相比之下所提出的 NAP 策略综合考虑了稳定性进行伪标签选择取得了最佳性能。此外NAP (Second-order) 利用二阶邻居为不确定区域生成伪标签其性能与标准 NAP 相当但计算复杂度更高效率较低。图 6 可视化了 NAP 生成的伪标签结果。与传统二值掩膜相比NAP 生成的伪标签与真实标签更一致显著提升了不确定区域的监督质量。表五图 6 展示了来自两个数据集的三个代表性示例。第一列为带有真实标签的原始图像。第二列展示了对注视应用高斯滤波生成的注意力图其中边界区域显得模糊不清。第三列可视化了不确定性区域划分策略产生的注视图灰色区域代表被识别并从交叉熵监督中排除的不确定区域。第四列展示了 NAP 模块为不确定区域估计的伪标签红色和绿色分别高亮过分割和欠分割。第五列为使用传统二值化方案获得的注视监督其中包含大量错误区域。结果表明不确定性区域划分策略有效抑制了噪声监督。此外与传统二值掩膜相比NAP 模块生成的伪标签与真实标注更加一致大幅提升了监督质量减少了注视噪声的影响。图六图6展示了GiTNet利用邻域信息为不确定区域生成的伪标签可视化结果并对比了基于不确定性划分策略构建的眼动图与传统二值化方法所得结果。左侧前五列数据来自KvasirSEG数据集右侧后五列数据则来自NCI- ISBI 数据集。GRC 模块的有效性表 6 展示了 GRC 模块的消融研究。GRC 模块通过对节点特征和边结构施加一致性约束促使原始图与扰动图之间保持结构一致性。节点一致性约束确保对应节点具有相似的表示边一致性则保留图结构的拓扑一致性。实验结果表明单独引入节点或边一致性时性能提升有限。当两者结合时达到了最佳分割效果。表六增强策略的消融表 7 比较了常见数据增强策略对分割性能的影响包括亮度-对比度调整、随机噪声、旋转、翻转和拼图增强。结果表明亮度-对比度变化和随机噪声带来的性能提升有限可能是因为这些方法引入了外观层面的颜色扰动并未改变空间结构。旋转和翻转的效果也不及拼图因为这些几何变换产生的扰动较小无法模拟复杂的结构变化。相反拼图增强有助于网络聚焦局部结构 (Zhang 等人2025)增强其学习复杂形态特征的能力从而提升分割性能。表七骨干网络的消融通过消融研究探讨了 GiTNet 中骨干网络架构的影响定量结果总结于表 8。评估了多个代表性骨干网络包括 ResNet18 (He 等人2016)、ResNet50 (He 等人2016)、Vision Transformer (ViT) (Dosovitskiy 等人2021) 和 Vision GNN (ViG) (Han 等人2022)。实验结果表明ViG 在 NCI-ISBI 和 Kvasir-SEG 数据集上均取得了最佳 Dice 分数显著优于基于 CNN 和 Transformer 的替代方案。进一步分析发现CNN 受限于局部感受野捕获长程空间依赖的能力有限。尽管 ViT 具备全局建模能力但在小规模数据集上往往表现不佳。相比之下ViG 利用图显式建模特征节点间的关系并通过消息传递机制捕获非局部空间依赖。表八超参数的消融为评估超参数对模型性能的影响原始训练集被重新划分为训练子集和验证子集。对于 KvasirSEG分配 720 张图像用于训练180 张图像用于验证。对于 NCI-ISBI使用 631 张图像训练158 张图像验证。所有后续超参数消融实验均基于这些数据集划分进行。图构建的消融。图结构的构建取决于两个关键因素邻居节点数量 和用于度量节点间相似性的距离度量。表 9 总结了图构建的消融研究。具体而言我们评估了不同距离度量及不同 值的效果包括欧氏距离和余弦距离。同时 取值设定为 {3, 6, 9, 12}。结果表明较小的 限制了节点间的信息传播而过大的 可能导致图卷积中的过平滑降低判别能力。当 9 时模型达到最佳性能且在不同 值下整体性能保持稳定。在不同 值下将欧氏距离替换为余弦距离会导致性能大幅下降整体结果劣于欧氏距离。这一结果可能归因于原始 ViG 使用欧氏距离构建图并在预训练中采用相同度量 (Han 等人2022)。此外在高维特征空间中向量趋向于近似正交使得余弦相似度值集中限制了其判别能力。表九 和 的消融。表 10 展示了前景和背景阈值对分割性能的影响。具体地前景阈值 设为 {0.2, 0.3, 0.4}背景阈值 设为 {0.5, 0.6, 0.7}。测试在 NCI-ISBI 和 KvasirSEG 数据集上进行。结果显示当 0.3 和 0.6 时网络性能最佳这是平衡前景-背景区分并最小化伪标签噪声的有效设置。表十 的消融。表 11 评估了稳定性阈值 的影响该阈值决定了 NAP 模块中选择稳定节点的严格程度并影响稳定节点的伪标签分配。考察了三种配置 0.800、 0.990 和统计估计值 0.968。实验结果表明过低或过高的阈值都会导致性能下降而统计得出的阈值取得了最佳性能。表十一 的消融。为探究损失函数公式 (17) 中权重对分割性能的影响进行了消融研究结果报告于表 12。权重 、 和 分别控制 TRA、NAP 和 GRC 模块的贡献。每个权重从 {1, 0.5, 0.3, 0.1} 中选取。结果表明当所有权重均设为 0.5 时GiTNet 在两个数据集上均达到最优性能。此外GiTNet 在不同参数设置下性能保持一致突显了其卓越的稳定性。表十二与 Gemini 的比较我们与多模态大语言模型 Gemini (Team 等人2023) 进行了比较。具体而言使用 Gemini 的图像理解接口对 NCI-ISBI 和 KvasirSEG 数据集进行分割。我们分别使用 Gemini-2.5-flash 版本和 Gemini-3-flash 版本进行了对比。实验结果总结于表 13表明尽管 Gemini 在通用视觉理解方面展现出强大能力但其在医学图像分割上的性能仍然有限。表十三从技术角度看Gemini 主要基于自然图像进行训练因此缺乏对医学成像中常见特性如低对比度和模糊边界的有效建模。因此如图 7 所示定位性能不稳定。更重要的是本文针对的是基于注视的弱监督范式下的医学图像分割目标是在保持性能的同时大幅降低标注负担并简化临床医生的标注流程。尽管非专家标注者针对某些任务可能掌握基本的标注技能但大规模且持续的人工标注在真实临床工作流程中仍然成本高昂且不切实际。此外Gemini 通常需要可观的计算和部署资源使其更适合作为通用或辅助工具。图七图7. 与Gemini在KvasirSEG数据集上的对比结果。过度分割区域以红色标示分割不足区域以绿色标示。图结构可视化图 8 可视化了临床医生的轨迹以及 GiTNet 构建的图邻接关系。第一列和第二列分别显示原始图像和对应的息肉真实标签。第三列为局部放大区域蓝线表示轨迹箭头指示方向圆点代表注视点红点和蓝点分别指示轨迹的起点和终点。第四列展示了在 GiTNet 构建的图结构上追踪的路径。具体来说我们首先将临床医生的起始点映射到通过 GNN 模块构建的图中的对应节点作为路径的初始节点。然后从该节点开始我们在特征空间中迭代追踪最近的相邻节点形成第四列所示的路径。可以观察到构建路径上的节点与临床医生关注的区域在空间上重叠表明 TRA 模块有效利用轨迹来调整图结构。通过引导沿轨迹顺序访问的节点在特征空间中学习更一致的表示TRA 增强了模型聚焦于解剖相关结构和病灶区域的能力从而提高了识别准确性。图八图8. 在KvasirSEG数据集上GiTNet图结构中轨迹信息的可视化展示。第三列显示人类临床医生的注视轨迹第四列则根据GiTNet图结构中的邻接关系呈现逐步追踪的路径。讨论与结论本文提出了 GiTNet一种注视监督的医学图像分割方法该方法全面学习临床医生诊断过程中的静态注视点和动态注视轨迹以实现医学图像分割中的注视监督。通过构建动态图结构该方法捕获了图像内区域间复杂的高阶关系。此外轨迹关系对齐TRA模块约束图的空间拓扑与轨迹对齐从而提升了模型聚焦于解剖结构和病变相关区域的精度。为应对注视中的噪声挑战邻居感知伪监督NAP通过结合相邻节点的语义特征增强了不确定区域标签推断的可靠性减少了噪声标签对模型性能的影响。此外图表示一致性GRC策略提升了模型学习复杂空间结构的能力。在两个公开数据集上的大量实验表明GiTNet 优于最先进的弱监督医学图像分割方法。未来的工作将探索基于注视的弱监督在三维医学影像中的应用以更好地满足临床多模态诊断的需求。此外由于临床医生在经验、习惯和认知偏差等方面的个体差异模型对注视行为个体差异的鲁棒性尚未得到充分探索。扩展 GiTNet 对这些个体差异的适应性将是未来研究的重要方向。另外另一个关键的发展方向是引入人机协同机制在推理过程中实时获取临床医生的视觉输入使系统能够动态调整其诊断策略从而在复杂场景中提升准确性和可靠性。

相关新闻