
Groundsource2.6百万条洪水记录大语言模型如何从新闻中“读”出全球洪灾史预印本说明本文介绍的数据集目前仍处于预印本阶段2026年3月9日提交至EarthArXiv尚未经过正式的同行评审。研究者在引用或使用该数据集时建议先查阅预印本原文并保持审慎。洪水是全球范围内造成损失最严重的自然灾害之一。然而与地震不同——地震有标准化的传感器网络进行系统记录——水文气象灾害至今缺乏一个统一的全球观测体系。传统的地面水文站网分布稀疏卫星遥感数据则受云层覆盖、过境周期等因素制约且往往只能捕捉到大规模、持续时间长的洪水事件。那么有没有一种方法能从海量的、碎片化的信息中拼凑出一幅全球洪水事件的完整图景答案或许就藏在每天更新的新闻里。从新闻到数据Groundsource的诞生近日研究人员发布了Groundsource——一个全新的、开放获取的全球洪水事件数据集。它包含了从2000年至今的264万余条高分辨率历史洪水记录覆盖全球150多个国家和地区。该数据集弥补了全球洪水观测基础设施的一个关键空白与地震事件不同地震事件由标准化的传感器网络系统记录水文气象灾害缺乏统一的全球观测系统。传统的物理河流水位计网络存在地理稀疏问题而卫星衍生档案则受云层覆盖、过境频率以及倾向于大型、持续时间长的事件的偏差所限制。这些数据并非来自传统的传感器或卫星而是从超过500万篇新闻文章中通过自动化流程提取出来的。为了克服这些限制Groundsource 管道利用 Gemini 大型语言模型LLMs系统地从非结构化新闻文本中提取结构化的时空数据。新闻文章通过 Google 的 WebRef 命名实体识别系统进行摄取过滤出与洪水相关的部分使用 Cloud Translation API 翻译成英语然后由 Gemini 处理以分类事件、提取洪水日期、识别细粒度的淹没地点并通过 Google Maps Geocoding API 与标准化的地理数据库进行地名协调。最终的事件记录在时空上聚合为一个平面表格数据集具有每日时间分辨率和本地化空间边界覆盖年份从 2000 年至今。Groundsource 数据集可从 Zenodo 下载Groundsource Zenodo Repository。描述完整方法的预印本可在 EarthArXiv 上获取。这套数据集的独特之处在于它巧妙地将**大语言模型LLM**的力量引入了灾害信息提取领域。研究人员构建了一套名为Groundsource的自动化处理管线其核心流程如下信息抓取通过Google的WebRef命名实体识别系统从互联网上抓取与洪水相关的新闻文章。多语言翻译利用Cloud Translation API将80多种语言的新闻统一翻译成英文为后续处理扫清语言障碍。结构化提取调用Gemini大语言模型从非结构化的新闻文本中精准识别并提取出关键信息洪水发生的时间、具体的受灾地点、事件类型等。地理编码与聚合通过Google Maps地理编码API将文本中提到的地点名称如“北京海淀区”、“某条街道”匹配为标准化的地理坐标或行政区划边界形成空间化的记录。最终这些事件按时间和空间进行聚合形成一个以“日”为时间分辨率的表格化数据集。这一流程将原本淹没在新闻海洋中的碎片化信息变成了结构清晰、可计算、可分析的地理空间数据。数据集速览264万条记录意味着什么记录总数2,646,302条独立的洪水事件观测时间跨度2000年至今日分辨率空间覆盖全球150国家和地区平均空间范围每条记录平均覆盖约142平方公里其中82%的事件空间范围小于50平方公里——这意味着数据集能捕捉到大量中小规模的、局部性的洪水事件而这恰恰是传统卫星遥感容易遗漏的。数据来源超过500万篇新闻文章涵盖80多种语言每条记录都包含以下字段字段说明uuid唯一标识符area_km2受灾区域面积平方公里start_date洪水发生的起始日期有文本证据支持end_date洪水结束的日期单日事件则与起始日期相同geometry受灾区域的空间边界WGS 84坐标系可能是复杂的行政区划多边形也可能是经缓冲区处理后的点位注意Groundsource是一个基于实体的数据集而非基于气象事件。一次大范围的暴雨可能引发多个地理实体如多个村镇、多个行政区分别被记录为独立的事件条目。这种设计使得数据粒度更细但也意味着使用者需要理解这种“实体化”的底层逻辑。数据也有“偏见”使用者需要知道的几件事没有任何数据集是完美的。Groundsource的构建方式决定了它存在一些系统性的偏差和局限研究者在应用时需要心中有数时间偏差约64%的记录集中在2020-2025年。这并非意味着近年来洪水暴增而是反映了数字化新闻在近五年的指数级增长。2000年代初期的洪水事件因数字化存档稀缺和链接失效等问题记录相对较少。空间偏差事件密度与区域数字新闻基础设施高度相关。在数字媒体稀疏、或当地新闻以非支持语言支持80种语言出版的地区事件记录明显偏少。例如Groundsource在巴布亚新几内亚的召回率仅为39%在加蓬为50%而在美国则高达96%。事件严重性偏差影响越大、越严重的洪水事件被新闻报道和记录的可能性越高。针对GDACS全球灾害预警与协调系统红色警报级别最高级的洪水事件Groundsource的召回率达到99%而对于绿色警报国家层面可控的事件召回率仍保持在82%。地理编码误差的非独立性地名解析错误可能呈现空间聚集性例如某种语言中常见的地名歧义这意味着误差率在不同地区并非均匀分布。理解这些偏差是正确使用Groundsource进行科学研究的前提。如何获取与使用Groundsource数据集已在Zenodo平台开放下载同时也在Google Earth Engine上提供方便全球研究者直接调用。Zenodo数据集Groundsource Zenodo RepositoryEarth Engine调用vargroundsourceee.FeatureCollection(projects/sat-io/open-datasets/groundsource_2026)示例代码https://code.earthengine.google.com/?scriptPathusers/sat-io/awesome-gee-catalog-examples:/hydrology/GROUNDSOURCE-GLOBAL-FLOODS预印本全文EarthArXiv待更新引用信息Mayo, R., Zlydenko, O., Bootbool, M., et al. (2026). Groundsource: A Dataset of Flood Events from News. EarthArXiv. (Unreviewed preprint)Mayo, R., Zlydenko, O., Bootbool, M., et al. (2026). Groundsource: A Dataset of Flood Events from News [Data set]. Zenodo. https://doi.org/10.5281/zenodo.18647054许可协议Creative Commons Attribution 4.0 International (CC BY 4.0)结语当大语言模型“阅读”地球Groundsource的发布不仅仅是一个新数据集的诞生。它代表了一种范式上的探索在传统传感器网络和卫星遥感之外我们能否将人类社会中“天然存在”的信息流如新闻报道转化为系统性的科学观测大语言模型在其中扮演了关键角色——它不再是单纯的聊天工具而是具备了从海量文本中提取结构化知识的能力成为“阅读”地球、理解灾害的智能助手。当然这还只是一个开始。如何将这种基于新闻的记录与传统水文气象数据、遥感数据进行深度融合如何利用这些数据构建更准确的洪水风险模型这些开放的问题等待着更多研究者的探索。本文内容基于预印本《Groundsource: A Global Dataset of Flood Events from News》整理数据及方法尚未经正式同行评议请读者在使用时注意。