MIT研究人员开发图表理解AI训练数据集ChartNet

发布时间:2026/6/4 16:04:53

MIT研究人员开发图表理解AI训练数据集ChartNet 在竞争激烈的全球市场中企业为了加速决策流程、提升决策质量往往借助生成式 AI 模型来汇总和解读市场报告与财务文件中大量出现的图表。然而即便是目前最先进的视觉语言模型在处理此类任务时也时常表现欠佳——因为这项工作要求模型同时整合视觉、数值与语言理解能力。这意味着企业即便投资引入了最前沿的模型也可能收到不准确或不完整的信息。为填补这一性能空缺麻省理工学院MIT与MIT-IBM计算研究实验室的研究人员联合开发了一套专门面向视觉语言模型VLM的综合性训练资源旨在教会模型有效解读图表内容。研究团队采用一种全新的数据生成方法构建了一个包含逾百万张多样化图表的高质量数据集。该数据集对每张图表图像中的视觉、语言和数值信息均进行了详细编码从而使模型能够对图表内容进行稳健的推理分析。研究人员将这一数据集命名为ChartNet并用其训练了一系列开源视觉语言模型。测试结果显示其中许多规模较小的模型在数据提取和图表摘要等任务上的表现显著超越了体量大出数个量级的商业模型。通过让开源模型的性能超越商业竞品ChartNet有望帮助预算有限的中小企业更便捷地应用AI技术。该开源数据集可用于提升AI模型在商业趋势分析、科学图表解读等任务中的能力。我们将ChartNet打造成一站式图表理解解决方案几乎覆盖了AI模型和使用者在训练过程中可能用到的一切资源。我们希望这项研究能够激励更多研究者探索如何用更小的模型、更少的算力达到最先进的性能水平。论文第一作者、MIT电气工程与计算机科学系研究生Jovana Kondic表示。论文合著者还包括来自MIT、MIT-IBM计算研究实验室及IBM Research的多位研究人员IBM Research研究员Pengyuan Li、IBM Research高级科学家Dhiraj Joshi、IBM Research软件工程师Isaac Sanchez、MIT Schwarzman计算学院战略产业合作总监兼MIT-IBM计算研究实验室MIT方向负责人、MIT计算机科学与人工智能实验室CSAIL高级研究科学家Aude Oliva以及MIT-IBM计算研究实验室首席科学家兼研究经理Rogerio Feris。该研究成果将在IEEE计算机视觉与模式识别大会CVPR上正式发布。数据瓶颈制约发展尽管研究人员在自然语言处理和自然图像推理方面已取得长足进展但针对图表中复杂多模态数据的解读研究仍相对匮乏。Kondic指出图表理解对于几乎所有行业的大小企业而言都是一项关键能力。金融行业高度依赖图表。如果视觉语言模型能够从图表中提取趋势描述等信息将极大地推动下游众多业务流程的效率提升。Joshi说道。高质量训练数据的匮乏是制约图表解读VLM发展的重要瓶颈。目前许多数据集中的图表图像数量有限往往来源于互联网抓取缺乏必要的规模和辅助信息难以帮助模型有效理解图表背后的数据。与人类大脑不同视觉语言模型可能需要在训练过程中看到数千个示例才能可靠地识别一张折线图。Kondic表示。研究团队通过生成合成数据来突破上述局限。合成数据是由算法人工生成的用于模拟真实数据的统计特性。ChartNet数据集包含逾百万张高质量图表图像以及每张图表对应的生成代码、文本描述和包含数值信息的数据表格。此外每条数据还附有问答对用于训练模型正确回答关于图表的问题。这些额外的数据模态引导模型将图表图像所编码的不同信息片段进行关联与对齐。Kondic说。两步式合成数据生成流程为构建ChartNet研究团队设计了一套两步式合成数据生成流水线。第一步自动化系统将现有图表图像转译为代码第二步系统对代码进行迭代增强对图表的类型、数据值、主题、颜色等各类属性进行修改。我们可以从一张图表出发以其为种子生成数百种变体。正是凭借这一方法我们才得以建立一个包含逾百万张多样图像的数据集。Kondic解释道。研究团队还引入了自动化质量审核流程以确保合成数据的高质量包括验证代码可执行性以及渲染图像的准确性与清晰度。我们不仅追求样本的多样性更希望信息能够以有意义的方式呈现。她说。此外ChartNet还收录了一部分由人类专家标注的图表数据提供额外类型的图表及配套数据并附有可靠性保证。Joshi补充指出使用者可利用这些标注数据对现有VLM进行微调进一步提升特定应用场景下的模型性能。研究团队以ChartNet训练了IBM的Granite Vision系列模型及其他多个不同规模的开源模型并在多项图表解读任务上对其进行了系统评估。结果表明该数据集在图表重建、数据提取、图表摘要和图表问答等任务上全面提升了所有模型的准确率。在ChartNet的加持下小型开源模型持续优于体量更大的商业模型。许多此前的训练数据集只关注对图表简单问题的回答。我们希望通过ChartNet超越这一局限生成能够支撑全方位图表理解的数据。Kondic说。未来研究团队计划持续扩充ChartNet纳入更高复杂度的数据并积极吸收研究社区的反馈意见。本项研究得到MIT-IBM计算研究实验室的部分资助支持。QAQ1ChartNet数据集包含哪些内容AChartNet数据集包含逾百万张高质量图表图像以及每张图表对应的生成代码、文本描述和包含数值信息的数据表格。此外每条数据还附有问答对用于训练模型正确回答关于图表的问题。部分数据点还包含人类专家标注内容提供额外类型的图表及可靠性保证。Q2ChartNet是怎么生成合成数据的AChartNet采用两步式合成数据生成流水线首先自动化系统将现有图表图像转译为代码然后对代码进行迭代增强修改图表类型、数据值、主题、颜色等属性从一张图表出发可生成数百种变体。同时引入自动化质量审核流程验证代码可执行性及渲染图像的准确性与清晰度。Q3用ChartNet训练的小型开源模型真的能比大型商业模型效果更好吗A根据研究结果用ChartNet训练的小型开源模型在图表重建、数据提取、图表摘要和图表问答等多项任务上确实显著超越了体量大出数个量级的商业模型。这意味着预算有限的中小企业也有机会借助开源模型实现高质量的图表理解能力降低AI应用门槛。

相关新闻