CubiCasa5K:一个用于平面图图像分析的数据集和改进的多任务模型

发布时间:2026/6/11 3:05:58

CubiCasa5K:一个用于平面图图像分析的数据集和改进的多任务模型 1^11阿尔托大学计算机科学系芬兰埃斯波 {firstname.lastname}aalto.fi2^22CubiCasa Inc., 芬兰奥卢 {firstname.lastname}cubicasa.com摘要更好地理解建筑内部结构并进行建模以及更令人印象深刻的 AR/VR 技术的出现使得自动解析平面图图像的需求日益增长。然而目前明显缺乏具有代表性的数据集来进一步研究该问题。为了弥补这一不足本文提出了一个名为 CubiCasa5K 的新型图像数据集这是一个大规模的平面图图像数据集包含 5000 个样本标注了超过 80 种平面图对象类别。数据集的标注使用多边形来区分不同对象具有密集且灵活的特点。与基于强启发式规则和低级像素操作的传统方法不同我们提出了一种基于改进的多任务卷积神经网络的方法。通过发布这个新颖的数据集和我们的实现本研究为自动平面图图像分析提供了更丰富的工具集从而能够以更全面的方式研究该问题显著推动了该领域的研究。关键词平面图图像 · 数据集 · 卷积神经网络 · 多任务学习。数据和代码地址https://github.com/CubiCasa/CubiCasa5k1 引言平面图图像分析或理解长期以来一直是计算机视觉分支——自动文档分析中的一个研究课题。平面图是按比例绘制的图纸从上方展示建筑物或公寓的结构其目的是向观看者传达这种结构信息及其相关语义。平面图中的常见关键元素包括房间、墙壁、门、窗户和固定家具但它们也可以涵盖更多技术信息如建筑材料、电线或管道。虽然平面图最初通常是使用 CAD 软件绘制并生成矢量图形格式但对于房地产经济学中的常见用例例如为了营销目的进行数字媒体上的打印或发布如出售或出租它们在发布前通常会被栅格化。然而对于当今的应用程序如 3D 房地产虚拟漫游或基于平面图的 3D 模型创建这一过程是致命的因为它丢弃了所有结构化的几何和语义信息使得进一步利用这些平面图变得困难。从栅格化的平面图图像中恢复丢失的信息并非易事。当前自动平面图图像分析的最先进模型基于深度卷积神经网络 (CNNs)。一种有前途的训练方案是仅使用一个网络主干配合多个多任务头 (multi-task heads)以恢复丢失的对象、结构和语义。虽然结果已经很有前景 [13]但用于训练和基准测试的数据集仍然相当小少于 1000 张图像 [13]与其他主流计算机视觉领域如图像分类数百万张图像 [18,19,9]或图像分割数万张图像 [15,20]常用的数据集相比差距明显。众所周知深度学习模型需要大量数据才能发挥效用增加数据集规模很可能总是会带来更好的结果 [15,19]。在本文中我们提出了一个包含 5000 张图像的新型平面图图像数据集其密集且丰富的真实标签 (ground-truth) 注释全部编码为多边形。该数据集涵盖了三种不同的平面图图像类别即高质量、高质量建筑和彩色。由人类专家生成的注释涵盖了 80 多种不同的平面图元素类别。与之前最大的数据集 [13] 相比所提出的数据集规模大了五倍以上且由于包含了精确的对象形状和方向其注释更加准确。它在公寓类型和绘图风格方面也表现出更大的变异性。作为一个强有力的基线我们提出了一种受近期文献报道启发的全自动多任务学习方案。具体而言我们使用了近期的“多任务不确定性损失 (multi-task uncertainty loss)”它能够自动推导网络各损失项的权重。我们的初步结果表明该方法在实践中具有巨大价值因为在权重范围完全未知的情况下它可以节省超参数调优的时间。我们将这种损失与编码器-解码器卷积架构相结合并在之前的平面图分析基准数据集上展示了最先进的结果。我们发布了所提出的新颖基准测试数据集以及我们的代码和训练好的模型以便于轻松复现本文的结果。2 相关工作与许多视觉识别问题一样2D 平面图分析的研究重点已从精心的特征工程转向依赖从数据中学习的方法。这种转变是由于能够在合理的时间内训练更大、更强大的深度神经网络 [11]。在我们的研究背景下突破性的工作是 [13]它提出了一种依赖 CNN 的自动平面图解析方法。该方法没有应用一堆低级图像处理及随后的启发式规则而是训练了一个常规的全卷积网络来标记对象房间、图标和开口并定位墙壁节点。提取的低级信息随后被送入后处理器以将原始平面图对象恢复为 2D 多边形。在 [13] 中模型针对分割和定位任务进行了联合优化。主要发现是深度神经网络可以作为最终后处理启发式规则的有效前置步骤以恢复平面图元素包括其几何和语义。该方法显著提高了最先进水平并启发了该领域的近期研究。与 [13] 并行[6] 提出了一种使用分割、目标检测和字符识别来解析平面图图像的基于 CNN 的方法。与 [13] 的主要区别在于给定的任务都是使用独立的网络执行的。[6] 在墙壁分割上进行的实验清楚地证明了基于 CNN 的方法优于使用标准浅层分类器如支持向量机的传统基于补丁 (patch-based) 的模型。总之深度神经网络时代为 2D 平面图分析带来了显著更好的方法。根据 [13,6]特别是全卷积 CNN 在提取准确的像素级几何和语义信息方面具有巨大潜力这些信息可在后续的后处理步骤中进一步利用以构建更有效的启发式规则来恢复丢失的平面图元素。为平面图解析构建更好的 CNN 的问题归结为两个与网络架构和目标相关的设计选择。语义分割研究的突破发生在引入全卷积网络 (FCNs) [14] 时。通用密集像素级预测的改进架构是带有跳跃连接 (skip-connections) 的 U-net 架构 [17]。如 [13] 所示通过将自顶向下路径中的普通卷积层更改为残差块 (residual blocks) [7]可以进一步提升容量。这种模型也称为沙漏架构 (hourglass architecture) [3]已在语义分割 [16] 和通过热图回归进行的人体姿态估计 [3] 等密集问题中被证明是有效的。最后的任务是选择训练目标。对于普通的分割问题这通常是单一的交叉熵损失或者在热图回归中是单一的欧几里得损失层。然而实践中的许多问题如我们的问题可以从训练期间激活的多个目标中受益这被称为多任务学习 [4]。使用这种方法的成功高度依赖于额外的超参数即每个任务损失之间的相对权重。Kendall 等人 [10] 提出了一种简单的解决方案可以在由分割、深度估计和实例分割组成的多任务设置中训练这种权重。与 [13] 相比我们应用了 [10] 的方法在 [12] 中进行了修订来自动调整任务之间的权重从而减少了对广泛超参数调优的需求。与 [13] 中报告的结果相比我们的结果产生了显著的性能提升。总之目前关于自动平面图转换的研究仍然缺乏具有代表性的大规模数据集。目前公开可用的最大注释数据集包含少于 1K 的样本。对象例如不同的房间和图标类型的多样性以及其注释的一致性和准确性例如墙壁的厚度都受到限制。这反过来意味着还有进一步研究的空间以调查使用内容更丰富的大型数据集来训练深度 CNN 的好处。在本文中我们提出了一个包含 5K 样本的数据集据我们所知这是目前可用的最大的注释平面图数据集。3 CubiCasa5K一个新型的平面图数据集CubiCasa5K 数据集是一个在线、部分手动的平面图矢量化流水线3^33的副产品主要处理来自芬兰地区的房地产营销材料转换。它的主要使命是为研究界提供手段以开发更准确的自动化模型用于房地产和其他用例。该数据集包含 5000 个平面图带有人工注释这些平面图是从更大的 15000 个主要是芬兰的平面图图像集合中收集和审查的。这些图像分为三个子类别高质量建筑、高质量和彩色分别包含 3732、992 和 276 个平面图。为了训练强大的机器学习模型数据集被随机拆分为训练集、验证集和测试集每个集合分别包含 4200、400 和 400 个平面图。注释采用每图像 SVG 矢量图形格式每个注释都包含相应平面图中出现的所有元素的语义和几何注释。3^33http://cubitool.cubi.casa.s3-website-us-west-2.amazonaws.com/?configcustomizerl2locnaid8000color000000注释及其一致性所提出数据集的所有样本都经过了一个注释流水线生成了具有丰富注释的矢量化平面图图像。单个输入始终是源自原始平面图绘制的栅格扫描通常是扫描件。注释由受过该任务培训的人工注释员手动完成。单张图像的注释耗时从 5 到 120 分钟不等具体取决于源的复杂性、清晰度以及楼层数量。每个平面图都遵循描述元素注释顺序的注释协议进行注释。这是为了利用给定平面图中先前已注释元素的所有可用信息例如墙壁是房间的边界。注释是使用专为绘制平面图而定制的特殊 CAD 工具完成的。为了确保注释的一致性有一个包含两个阶段的质量保证 (QA) 流程。该流程应用于每个已注释的样本图像。具体而言应用的 QA 流程旨在控制注释的放置准确性以及正确的标签。该流程的第一轮由注释员完成他们检查已注释的平面图并审查所有注释最后纠正所有可能的错误。第二轮由不同的 QA 人员完成他们执行与初始注释员相同的检查程序并纠正第一轮中遗漏的任何错误。数据集统计图 2-4 提供了关于 CubiCasa5K 数据集的统计信息突出了类别分布以及与 [13] 数据集相比平面图样本复杂性的各个方面。图 3 分别显示了排名的房间和图标类别的分布。在图 4 中我们比较了 CubiCasa5K 数据集和 [13] 数据集中包含固定数量的已注释图标、墙壁和房间的图像频率。在图 2 中我们报告了整个数据集中图像分辨率的分布。最后在表 1 中我们进一步将一些关键统计数据与所有现有的已注释平面图数据集进行了比较。根据所有这些信息可以得出结论CubiCasa5K 是目前公开可用的最大且最多功能的平面图数据集。(注此处省略原文中的图表图像描述保留表格内容)表 1. 可用数据集之间的指标比较。数据集R-FP-500 [6]CVC-FP [8]Liu et al. [13]CubiCasa5K图像数量 (Images)5001228155000分辨率 (Res)56–1427905–738396–192050–8000对象类别 (Object)N/A502783房间 (Room)N/A1320746668877图标 (Icon)N/A2345a^aa15040136676墙壁 (Wall)N/AN/AN/A16139其他N/AN/AN/A147024a^aa该数据集包含更多图标标签但没有位置或多边形信息。我们忽略了这些图标。4 我们的多任务模型我们的任务是解析输入 2D 平面图图像中的所有常见元素。遵循 [13]我们依赖一个网络该网络输出两个分割图一个用于不同的房间类型一个用于不同的图标类型以及一组热图以精确定位墙壁节点、图标角点和开口端点从现在开始这三者统称为兴趣点 (interest points)。使用定位的兴趣点随后应用一组启发式规则来推断几何形状即可能出现在图像中的所有元素的位置和尺寸。最后使用这两个分割图来获取语义即房间和图标的类型。我们的主要贡献在于流水线的后一步我们应用了一个可训练的模块 [10] 来调整多任务损失项之间的相对权重。网络架构。我们利用了 [13] 中使用的网络架构该架构基于使用 ImageNet [5] 预训练的 ResNet-152 [7]。层的组织如图 5 顶部所示给出了其中每个层操作的细节。遵循 [13]图 5 中描绘的大部分网络层首先通过在 ImageNet [18] 上训练然后在 MPII 人体姿态数据集 [2] 上进行初始化。为了使其针对本文研究的问题进行定制必须进行一些更改。具体而言D1 针对输入通道进行了更改从 19 改为 3并且最后两层即 D9 和 D10都被替换以实现两个分割图和 21 个热图所需的输出通道数。因此这三个给定的层D1、D9 和 D10必须进行随机初始化。训练目标。在 [13] 中该方法依赖于共享表示来密集预测像素的语义标签并回归兴趣点的位置。这意味着在网络末端如图 5 所示应用了多任务损失。具体而言总共有 21 个输出图用于不同的兴趣点墙壁节点、图标角点和开口端点。学习的内容是通过单独的热图回归任务所有任务均基于均方误差 (MSE) 作为训练目标来实现所有兴趣点的像素级精确定位。除此之外网络还输出两个分割图。第一个用于分割背景、房间和墙壁第二个用于分割不同的图标和开口窗户和门。这两个分割任务都通过应用标准的交叉熵损失进行训练。在 [13] 中所有任务都用于以多任务方式训练给定的共享表示其相对权重是手动固定的。Kendall 等人 [10] 的一项近期研究表明多任务损失之间的相对权重可以自动学习。这将开发者从困难、耗时且非常昂贵的手动调优权重的步骤中解放出来。具体而言权重是通过所谓的同方差不确定性项 (homoscedastic uncertainty terms) 隐式学习的这些项被预测为每个任务的额外输出。详细信息可以在 [10] 中找到我们在此直接转到最终损失在我们的例子中该损失表示为LtotLHLSL_{tot} L_H L_SLtot​LH​LS​其中LH∑i[12σi2∥yi−fWi(x)∥log⁡(1σi)],(1)L_H \sum_i \left[ \frac{1}{2\sigma_i^2} \| y_i - f_W^i(x) \| \log(1 \sigma_i) \right], \quad (1)LH​i∑​[2σi2​1​∥yi​−fWi​(x)∥log(1σi​)],(1)以及LS−∑k∈{rooms,icons}1σkyk⋅log⁡softmax(fWk(x))log⁡σk.(2)L_S - \sum_{k \in \{rooms, icons\}} \frac{1}{\sigma_k} y_k \cdot \log \text{softmax}(f_W^k(x)) \log \sigma_k. \quad (2)LS​−k∈{rooms,icons}∑​σk​1​yk​⋅logsoftmax(fWk​(x))logσk​.(2)LHL_HLH​用于训练热图回归器它由一堆项与需要定位的特定兴趣点数量一样多组成这些项基于重新加权的 MSE 进行最小化。权重与在训练期间学习的所谓不确定性参数σi\sigma_iσi​成反比。项log⁡(1σi)\log(1\sigma_i)log(1σi​)[12] 充当正则化器以避免平凡解。此外通过在取对数前加一我们强制其始终为正 [12]。LSL_SLS​则用于分割部分它由两个交叉熵项组成在本例中用于房间和图标分割任务以进行最小化。在这种情况下权重出现时没有平方 [10]。根据我们的实验发现正则化项log⁡σk\log \sigma_klogσk​在整个训练期间始终保持为正。后处理。为了生成输入栅格化平面图的最终矢量图形等效表示多任务 CNN 的输出被分派到一个由四个步骤组成的后处理器。目标是精确编码其位置、尺寸和类别标签的格式提取给定输入中存在的所有平面图元素墙壁、房间、图标和开口。后处理器从推断墙壁多边形开始。具体而言该过程从与 [13] 中相同的步骤开始基于节点的朝向成对连接节点即如果有两个节点在垂直/水平方向上对齐可能存在几个像素的未对齐并且两者都有朝向彼此的节点。该过程产生一个墙壁骨架接下来基于墙壁分割对其进行修剪。最后通过沿墙壁线采样并检查墙壁分割图的强度分布来推断墙壁的宽度。房间的位置和尺寸部分基于墙壁节点进行推断。具体而言我们搜索所有跨越不包含任何节点的矩形区域的节点三元组。这导致了平面图内部的单元格网格化。然后根据基于房间分割图的投票机制对生成的单元格进行标记。最后如果且仅当它们之间没有完全分隔的墙壁并且它们共享相同的房间标签时所有相邻的单元格才会被合并。恢复图标的过程与房间提取非常相似但我们利用来自负责图标角点热图预测的图的三元组而不是墙壁节点热图。最后推断门和窗户。这是通过使用来自相应热图的预测连接两个垂直/水平对齐的开口端点来完成的。标签再次基于分割图得出。开口的宽度与墙壁多边形相同。所有未落入墙壁分割内的此类开口端点都将被拒绝。5 结果在本节中我们介绍评估指标和获得的结果。在展示我们新颖的 CubiCasa5K 数据集的基线结果之前我们在 [13] 使用的相同数据集上验证了我们的方法。初步实验。遵循 [13]网络使用 [3] 的人体姿态网络权重进行初始化在 ImageNet 和 MPII 上训练。那些必须被替换的层见第 4 节被随机初始化。我们使用不确定性驱动的任务权重对网络进行了 400 个 epoch 的训练批量大小为 20。数据增强包括 90 度旋转、颜色抖动以及在裁剪和缩放至 256x256 并填充零之间随机选择。我们使用了 Adam 优化器初始学习率为1×10−31 \times 10^{-3}1×10−3ϵ1×10−8\epsilon 1 \times 10^{-8}ϵ1×10−8β\betaβ值为 0.9 和 0.999。我们使用了一个调度器如果在前 20 个 epoch 中基于验证损失没有观察到改进则将学习率降低 0.1 倍。下降后训练从那时起产生最佳验证损失的阶段继续直到结束。最后基于验证损失选择最佳模型。根据我们的实验学习率只需下降一次训练似乎在 epoch 数接近 300 时收敛。在 Nvidia GeForce GTX TitanX GPU 卡上训练耗时三个小时。为了评估我们的模型我们使用了与 [13] 中相同的评估设置。如表 2 所示我们显著改进了 [13] 中提出的结果。我们进一步应用了测试时增强 (TTA) 方案其中最终预测基于将同一图像四次输入到同一网络中每次旋转 90 度。最终预测基于这四次预测的平均值。可以看出无论是否使用整数规划 (IP)这种增强在两种情况下似乎都是有益的。表 2. 在 [13] 提出的数据集上的评估结果。(注此处简化表格呈现保留核心指标)方法Junction (acc/recall)Opening (acc/recall)Icon (acc/recall)Room (acc/recall)[13]70.7 / 95.167.9 / 91.422.3 / 77.480.9 / 78.5[13] IP94.7 / 91.791.9 / 90.284.0 / 74.684.5 / 88.4[13] (our eval)75.5 / 90.074.6 / 91.825.3 / 79.984.6 / 83.5[13] IP (our eval)92.9 / 86.692.3 / 90.686.8 / 78.589.9 / 88.3best reproduced from [13]75.6 / 88.472.5 / 89.323.1 / 73.285.9 / 83.3best reproduced from [13] IP93.1 / 84.591.4 / 88.180.7 / 72.189.1 / 87.1Ours82.4 / 92.082.3 / 93.334.6 / 88.390.0 / 87.6Ours (TTA)90.2 / 91.989.6 / 93.946.1 / 88.091.5 / 88.0Ours IP94.1 / 89.693.2 / 92.692.9 / 87.791.7 / 90.8Ours (TTA) IP95.0 / 89.794.5 / 92.993.6 / 87.392.2 / 90.2我们注意到 [13] 提出的数据集的原始注释4^44中存在错误。在使用我们的修复重新评估 [13] 的模型后我们注意到 [13] 的性能见“our eval”实际上比 [13] 中最初报告的要好。我们进一步通过遵循原始论文中报告的细节训练了模型“best reproduced from [13]”结果或多或少相似。最后我们将没有测试时增强的最佳模型“Ours”与 [13] 的“our eval”版本进行了比较可以看出我们的模型明显更好。CubiCasa5K 实验。在利用 CubiCasa5K 数据集的当前实验中一些原始的房间类型和图标类型被耦合因此我们的目标总共涵盖 12 个房间类别和 11 个图标类别见表 4 中选择的类别以及项目网站上的更多详细信息。至于其他细节网络包含相同的热图回归层并使用与前一个实验相同的目标进行训练。然而对训练方案进行了以下调整我们使用前一个实验在 ImageNet、MPII 和 Liu 等人 [13] 数据集上预训练的权重开始训练。我们在前 100 个 epoch 使用第 5.1 节中给出的相同增强进行训练。之后我们继续使用当时的最佳权重根据验证集上的损失首先将优化器参数初始化为其起始值然后放弃将图像调整大小到 256x256 的增强。然后我们训练网络 400 个 epoch这导致了收敛。遵循语义分割领域的常见做法 [14,20]我们使用三个评估指标报告结果即指示正确分类像素比例的整体准确率 (Overall Accuracy)以及所有类别平均的正确分类像素比例的平均准确率 (Mean Accuracy)。最后我们报告平均交并比 (Mean IoU)它指示预测像素和真实像素之间重叠区域的面积在所有类别上取平均。我们进一步报告了关于原始分割和多边形化 § 实例即后处理步骤之后的结果。我们采取了与 [13] 不同的模型评估方法因为我们认为平面图解析问题非常接近语义分割问题。我们在表 3 中报告了关于所述指标的性能。根据结果原始分割测试得分明显优于基于多边形化分割实例的得分。主要原因是如果遗漏了墙壁或图标节点或它们没有被正确定位则无论分割质量如何都无法创建多边形。在表 4 中我们进一步报告了本研究中使用的关于所有房间和图标类别的类别特定 IoU 和准确率。图 1 展示了我们流水线的一个示例结果。表 3. CubiCasa5K 数据集的评估结果。类别Overall Acc (val/test)Mean Acc (val/test)Mean IoU (val/test)Rooms84.5 / 82.772.3 / 69.861.0 / 57.5Rooms §79.0 / 77.364.2 / 61.652.4 / 49.3Icons97.8 / 97.662.8 / 61.556.5 / 55.7Icons §97.0 / 96.794.8 / 45.343.7 / 41.66 结论在本文中我们提出了一个名为 CubiCasa5K 的新型平面图图像数据集。与其他现有的已注释平面图数据集相比我们的数据集大了 5 倍以上并且其注释更加多样化涵盖了超过 80 个平面图对象类别。与该新颖数据集一起我们提供了使用改进的多任务卷积神经网络的基线结果该网络产生了最先进的性能。对于未来的方向我们计划将 [6] 中使用的目标检测器作为任务之一集成到我们的流水线中。尝试 [1] 的方法直接推断平面图元素为多边形也将是很有趣的。参考文献Acuna, D., Ling, H., Kar, A., Fidler, S.: Efficient interactive annotation of segmentation datasets with polygon-rnn. In: Proc. CVPR (2018)Andriluka, M., Pishchulin, L., Gehler, P., Schiele, B.: 2D human pose estimation: New benchmark and state of the art analysis. Proc. CVPR pp. 3686–3693 (2014)Bulat, A., Tzimiropoulos, G.: Human pose estimation via convolutional part heatmap regression. Proc. ECCV pp. 717–732 (2016)Caruana, R.: Multitask learning. Machine Learning 28(1), 41–75 (Jul 1997)Deng, J., Dong, W., Socher, R., Li, L., Li, K., Fei-Fei, L.: Imagenet: A large-scale hierarchical image database. In: Proc. CVPR. pp. 248–255 (2009)Dodge, S., Xu, J., Stenger, B.: Parsing floor plan images. In: MVA. pp. 358–361 (2017)He, K., Zhang, X., Ren, S., Sun, J.: Deep Learning for Image Recognition. Proc. CVPR pp. 770–778 (2016)de las Heras, L.P., Terrades, O., Robles, S., Sánchez, G.: Cvc-fp and sgt: a new database for structural floor plan analysis and its groundtruthing tool. IJDAR (2015)Hinton, G., Vinyals, O., Dean, J.: Distilling the Knowledge in a Neural Network. NIPS (2015)Kendall, A., Gal, Y., Cipolla, R.: Multi-task learning using uncertainty to weigh losses for scene geometry and semantics. In: Proc. CVPR (2018)Lecun, Y., Bengio, Y., Hinton, G.: Deep learning. Nature 521(7553), 436–444 (2015)Liebel, L., Körner, M.: Auxiliary tasks in multi-task learning. CoRR abs/1805.06334 (2018)Liu, C., Wu, J., Kohli, P., Furukawa, Y.: Raster-to-vector: Revisiting floorplan transformation. In: The IEEE International Conference on Computer Vision (ICCV) (2017)Long, J., Shelhamer, E., Darrell, T.: Fully convolutional networks for semantic segmentation. In: Proc. CVPR (2015)Neuhold, G., Ollmann, T., Rota Bulo, S., Kontschieder, P.: The mapillary vistas dataset for semantic understanding of street scenes. In: Proc. ICCV (2017)Pohlen, T., Hermans, A., Mathias, M., Leibe, B.: Full-resolution residual networks for semantic segmentation in street scenes. In: Proc. CVPR (2017)Ronneberger, O., Fischer, P., Brox, T.: U-net: Convolutional networks for biomedical image segmentation. In: Navab, N., Hornegger, J., Wells, W.M., Frangi, A.F. (eds.) Proc. MICCAI. pp. 234–241 (2015)Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., Huang, Z., Karpathy, A., Khosla, A., Bernstein, M., Berg, A.C., Fei-Fei, L.: Imagenet large scale visual recognition challenge. IJCV 115(3), 211–252 (2015)Sun, C., Shrivastava, A., Singh, S., Gupta, A.: Revisiting unreasonable effectiveness of data in deep learning era. In: Proc. ICCV (2017)Zhou, B., Zhao, H., Puig, X., Fidler, S., Barriuso, A., Torralba, A.: Scene parsing through ade20k dataset. In: Proc. CVPR (2017)

相关新闻