一、爬虫实现的基本流程1.数据来源分析(1)明确需求明确采集的网站以及数据内容网址:https://cs.ke.com/ershoufang!数据:房源信息(2)抓包分析通过浏览器的开发者工具分析对应的数据位置打开开发者工具 在浏览器页面中按F12,刷新网页让本网页的数据内容重新加载一遍,通过关键字搜索查询对应数据位置 关键字搜索:需要什么数据就搜什么数据说明贝壳二手房源数据是静态页面,即想要数据内容都在网页源代码中存在。2. 代码实现步骤requests 模块1. 发送请求:模拟浏览器对于 url 地址发送请求2. 获取数据:获取服务器返回响应数据3. 解析数据:提取我们需要的数据内容4. 保存数据:把提取出来的数据保存本地文件中requests 模块请求 - 需要模拟浏览器 (把 Python 代码伪装成浏览器进行请求)如果网站进行一些反爬处理,需要进行反反爬操作(如果对于反爬比较严重网站,使用 requests 请求获取数据,相对而言会比较麻烦)drissionpage 模块自动化模块:模拟人的行为对于浏览器进行相关操作使用自动化采集数据,对于初学者来说更友好,更简单1. 打开浏览器,访问网站2. 获取数据3. 解析数据4. 保存数据二、准备工作官方文档:https://drissionpage.cn/get_start/before_start