
1. 项目背景与目标1.1 arXiv简介arXiv是全球最大的学术论文预印本平台,由康奈尔大学图书馆维护,成立于1991年。它涵盖物理学、数学、计算机科学、统计学、经济学等多个学科领域,拥有超过200万篇论文,是科研人员获取最新研究成果的重要渠道。网站特点:海量论文资源(200万+)覆盖多学科领域(physics, math, cs, stat, econ等)提供官方API接口支持多种格式下载(PDF, HTML, source)强大的搜索功能反爬机制相对宽松1.2 爬取目标本实战项目将实现以下功能:功能模块描述论文搜索按关键词、作者、标题搜索论文论文列表获取分类论文列表、最新论文、热门论文论文详情提取论文元数据(标题、作者、摘要、分类、提交日期等)论文下载下载PDF全文