)
把数据从网页上"扒下来"只是第一步,更重要的是把数据存下来。数据存储是爬虫流程的最后一环,也是数据分析的起点。从本篇开始,我们用 4 篇文章系统讲解爬虫的各种存储方案:第 37 篇:文件存储(TXT / CSV / JSON)——最简单、最通用;第 38 篇:MySQL 数据库——关系型存储的王者;第 39 篇:MongoDB 数据库——文档型存储,适合爬虫;第 40 篇:Redis 缓存——爬虫去重、限速、队列的神器。本篇讲三种最基础的文件存储格式:TXT、CSV、JSON。它们简单、通用,几乎所有编程语言都支持,是爬虫入门的必经之路。一、为什么需要文件存储文件存储的优势:简单:一行open()+write()就能用;通用:任何系统、任何语言都能读;可视化:记事本、Excel、VS Code 直接打开;零配置:不用装数据库、不用配环境;易分享:拷一个文件就能传给别人。