
2024年中国大型数据中心空间分布及环境属性数据集数据介绍这是一个填补信息空白的重要数据集。由于大型数据中心的具体位置、占地等信息通常不公开难以准确评估其巨大的能耗和环境影响。本研究通过创新的方法首次系统性地识别和定位了全国范围内的大型数据中心。数据集包含哪些核心内容数据集主要由两部分构成1.从多源 POI 记录中验证大型数据中心的地理位置数量与精度包含了1005个经过人工核实确认的大型数据中心精确位置经纬度坐标。环境属性每个点位都附带了其所在城市的四项关键环境属性气候带海拔年平均温度年降水量2.由随机森林分类模型得出的数据中心分布的空间概率面内容这是一张全国范围的栅格地图每个像素10米分辨率的值代表了该位置存在大型数据中心的相对可能性概率而非简单的“是或否”。价值这张图可以揭示那些未公开登记、但具有类似选址特征的数据中心潜在分布区域是对已验证点位数据的重要补充。从 Google 地球获得的数据中心屋顶的代表性卫星图像其中为每个省剪取了一张典型图像,包含以下省。例安徽数据是如何构建的研究采用了“POI验证 遥感特征 机器学习”的综合方法数据收集与验证初始数据从高德地图Amap抓取所有标注为“数据中心”的兴趣点POI。人工核验研究人员逐一核对剔除重复、误标如小型机房、IT办公室的记录并借助高分辨率卫星影像确认其是否为大型工业建筑最终得到1005个可靠的正样本。构建遥感特征库Sentinel-2光谱波段可见光、近红外、短波红外。光谱指数如归一化植被指数NDVI、归一化建筑指数NDBI用于区分植被、建筑、水体。纹理特征从影像中计算对比度、熵等指标捕捉大型工业建筑规则、均一的屋顶结构。夜间灯光数据作为人类活动和工业强度的指示器帮助区分高能耗的数据中心与其他类似建筑。围绕每个点位从多种遥感数据源中提取了16维特征用于描述其光谱和空间结构包括机器学习建模模型采用随机森林Random Forest模型。训练以1005个已验证的数据中心作为正样本另采集2010个涵盖植被、水体、裸地、其他工业设施等的负样本进行训练。策略考虑到中国不同省份数据中心的外观和周边环境差异巨大研究没有使用单一的全国模型而是为10个主要省级行政区分别训练了独立的区域模型以提高识别精度。产出模型最终输出的是每个像素属于数据中心的概率值从而生成了全国范围的“空间概率表面”。数据格式TIF、CSV数据容量85.0GB数据获取数据资源2024年中国大型数据中心空间分布及环境属性数据集