今天开始学爬虫1-尧图网站设计

1.1import urllib错误 module urllib has no attribute request应该import urllib.requestimport urllib.request urlhttp://www.baidu.com/ responseurllib.request.urlopen(url) contentresponse.read().decode(utf-8) print(content)2.1#返回字节 contentresponse.read() #返回行 contentresponse.readline() contentresponse.readlines() #返回状态码 contentresponse.getcode() #返回url contentresponse.geturl() #返回状态信息 contentresponse.getheaders()2.2下载链接内容url urllib.request.urlretrieve(url,filename)2.3 ua 请求对象定制urlhttps://www.dianping.com/ header{User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:126.0) Gecko/20100101 Firefox/126.0, Accept-Encoding: identity}#ua在检查-网络中找到的 requesturllib.request.Request(urlurl,headersheader)#将url和header包装成object responseurllib.request.urlopen(request) contentresponse.read().decode(utf-8)2.4 urllib.parse.quote将语言统一为unicodeget请求对象import urllib.parse url1https://www.baidu.com/s?wd nameurllib.parse.quote(搜索的内容) urlurl1name #将多个内容用连接 base_urlhttps://www.baidu.com/s? data{ wd:主花, fandom:Persona4 } new_dataurllib.parse.urlencode(data) urlbase_urlnew_data2.5 post请求对象在检查-网络-负载被拦截了百度和百度翻译base_urlhttps://fanyi.baidu.com/sug data{ kw:formular } new_dataurllib.parse.urlencode(data).encode(utf-8)#post请求需要将其编码成字节 header{User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:126.0) Gecko/20100101 Firefox/126.0, Accept-Encoding: identity}#ua在检查-网络中找到的 requesturllib.request.Request(urlurl,datanew_data,headersheader)#将url和header以及不在url中显示的data包装成object responseurllib.request.urlopen(request) contentresponse.read().decode(utf-8) print(content)3.1将数据正则化方便加进headersimport re text name: 张三, age: 18, city: 北京 result re.findall(r\s*([^:,])\s*:\s*([^,])\s*, text) data dict(result) print(data) #不用正则 text name:张三,age:18,city:北京 data {} for item in text.split(,): key, value item.split(:) data[key] value print(data)3.2请求头是一行key一行value加上cookie就能请求成功了但是gpt给了无需cookie的头同样成功了headers {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/147.0.0.0 Safari/537.36 Edg/147.0.0.0,Referer: https://fanyi.baidu.com/,Origin: https://fanyi.baidu.com,Content-Type: application/x-www-form-urlencoded,Accept: */*,Accept-Encoding: identity,}raw_headers accept */* accept-encoding gzip, deflate, br, zstd accept-language zh-CN,zh;q0.9,en;q0.8,en-GB;q0.7,en-US;q0.6 connection keep-alive lines [line.strip() for line in raw_headers.splitlines() if line.strip()] headers {} for i in range(0, len(lines), 2): key lines[i] value lines[i 1] headers[key] value print(headers)

今天开始学爬虫1

相关新闻

别再只盯着MPIIFaceGaze了！这4个主流视线估计数据集，到底该怎么选？

动态规划（Dynamic Programming, DP）与分治法（Divide and Conquer）虽然都采用“分解问题→求解子问题→合并结果”的思路，但关键区别之一就在于**子问题的独立性

告别截图录屏！用Qt在Windows上实现原生毛玻璃效果的两种靠谱方法（附完整代码）

同步、异步与互斥：从通用OS到RTOS的全面解析

不止.htaccess：盘点文件上传漏洞中那些‘借壳’执行的奇技淫巧

Python爬虫实战㉒｜Matplotlib基础，画出专业级数据图表

【软考中级备考日记｜系统集成项目管理工程师Day2：信息系统基础精讲+新一代信息技术核心考点+20道专项必刷题】

别再手动续期了！腾讯云Linux一键部署永久免费SSL证书（附避坑指南）

Git基本操作（一）：创建你的第一个“本地仓库”

Claude Code 在 AI Agent 项目上线阶段的 4 类运维问题与自动化迭代方案

m4s-converter：开源跨平台工具实现B站缓存视频无缝转换

保姆级教程：在Ubuntu 20.04上用kitti2bag工具把KITTI Raw Data转成ROS Bag（避坑实录）

2026年十大最佳地区搜索排名优化工具：权威榜单赋能企业高效增长

DDR3内存Row Hammer问题解析与防护方案

为ItsyBitsy ESP32设计3D打印外壳：从原型到产品的完整实践

别再手动点关了！用PowerShell永久关闭Windows Defender的保姆级教程（含Server 2016/2019）

别再只换芯片了！BP2832A替换CL1502，你的电感参数算对了吗？

全平台智能资源下载工具：res-downloader 完整使用教程