豆瓣Top250电影数据爬取实战：手把手教你用Python+Xpath搞定数据清洗与CSV保存

张

张建站

2026/4/23 0:12:25

10分钟阅读

豆瓣Top250电影数据爬取实战：手把手教你用Python+Xpath搞定数据清洗与CSV保存

豆瓣Top250电影数据清洗实战PythonXpath高效处理脏数据当你第一次成功爬取到豆瓣Top250电影的原始HTML时那种成就感很快会被眼前的数据泥潭冲淡——导演和主演信息粘连在一起、字段中夹杂着\xa0乱码、某些电影缺少主演信息、年份和国籍被斜杠分隔……作为爬虫进阶者你需要的不再是基础爬取教程而是一套系统化的数据清洗方法论。本文将带你深入Xpath与Python字符串处理的配合技巧解决以下真实痛点如何处理\xa0这类HTML特殊字符当导演和主演信息合并在一个字段时如何智能拆分遇到没有主演的电影该怎么避免索引越界错误怎样把1994/美国/犯罪这样的复合字段拆分成结构化数据1. 解析前的准备工作建立数据清洗框架1.1 分析原始数据结构豆瓣Top250页面中每部电影的信息区块都遵循相似结构。通过Chrome开发者工具检查我们发现关键数据分布在几个核心节点# 基础Xpath选择器框架 movie_list tree.xpath(//ol[classgrid_view]/li) for movie in movie_list: title_cn movie.xpath(.//span[classtitle][1]/text()) info_line1 movie.xpath(.//div[classinfo]/div[classbd]/p[1]/text()) info_line2 movie.xpath(.//div[classinfo]/div[classbd]/p[1]/text()[2])典型的问题数据示例导演: 弗兰克·德拉邦特\xa0\xa0\xa0主演: 蒂姆·罗宾斯 / 摩根·弗里曼 1994\xa0/\xa0美国\xa0/\xa0犯罪1.2 设计数据清洗流水线建立分阶段处理流程原始提取用Xpath获取原始文本初级清洗去除空白字符、特殊编码结构化拆分分离导演/主演、年份/国家/类型异常处理处理缺失字段最终格式化统一数据格式def clean_movie_data(raw_data): # 初级清洗 cleaned remove_special_chars(raw_data) # 结构化处理 structured split_combined_fields(cleaned) # 容错处理 validated handle_missing_values(structured) return validated2. 核心清洗技术实战2.1 处理特殊字符与空白HTML中常见的\xa0是不间断空格需要特殊处理import re def clean_whitespace(text): 统一处理各种空白字符 if not text: return # 替换各种空白字符为普通空格 text re.sub(r[\xa0\u3000], , str(text)) # 去除首尾空格 return text.strip()注意豆瓣的年份信息中常出现\xa0/\xa0需要特别处理2.2 导演与主演信息分离当遇到导演: 张三\xa0\xa0\xa0主演: 李四/王五这样的合并字段时def split_director_actors(info_str): 分离导演和主演信息 info_str clean_whitespace(info_str) # 初始化默认值 director None actors [] if 导演: in info_str: parts re.split(r导演:\s*|\s*主演:\s*, info_str) parts [p for p in parts if p] if len(parts) 1: director parts[0] if len(parts) 2: actors [a.strip() for a in parts[1].split(/) if a.strip()] return director, actors处理边界情况只有导演没有主演的电影如纪录片导演信息缺失的异常情况2.3 复合字段的智能拆分对于1994/美国/犯罪这样的复合字段def split_movie_info(info_str): 拆分年份、国家、类型信息 if not info_str: return None, None, None parts [p.strip() for p in info_str.split(/)] parts [p for p in parts if p] # 处理不同长度的分割结果 year parts[0] if len(parts) 0 else None country parts[1] if len(parts) 1 else None genre parts[2] if len(parts) 2 else None return year, country, genre3. 构建健壮的清洗系统3.1 防御式编程实践from typing import Optional, List class MovieDataCleaner: def __init__(self): self.default_values { director: 未知, actors: [], year: 0000, country: 未知, genre: 其他 } def clean(self, raw_data: dict) - dict: 整体清洗入口 try: # 导演演员处理 director, actors self._process_people(raw_data.get(people_info)) # 基础信息处理 year, country, genre self._process_basic_info(raw_data.get(basic_info)) return { title: raw_data.get(title, ).strip(), director: director or self.default_values[director], actors: actors or self.default_values[actors], year: year or self.default_values[year], country: country or self.default_values[country], genre: genre or self.default_values[genre], rating: float(raw_data.get(rating, 0)) } except Exception as e: print(f清洗数据时出错: {e}) return self.default_values def _process_people(self, info_str: Optional[str]) - tuple: 处理人员信息 # 实现细节同上... def _process_basic_info(self, info_str: Optional[str]) - tuple: 处理基础信息 # 实现细节同上...3.2 数据验证与日志记录import logging logging.basicConfig(filenamedata_cleaning.log, levellogging.INFO) def validate_movie_data(data): 验证清洗后的数据完整性 required_fields [title, director, year] for field in required_fields: if not data.get(field): logging.warning(f缺失必要字段 {field}: {data}) return False if not isinstance(data.get(rating), (int, float)): logging.warning(f评分格式错误: {data}) return False return True4. 完整数据处理流程示例4.1 从爬取到保存的端到端流程import csv from lxml import etree import requests def scrape_and_clean(): headers {User-Agent: Mozilla/5.0} cleaner MovieDataCleaner() with open(douban_top250_cleaned.csv, w, newline, encodingutf-8) as f: writer csv.DictWriter(f, fieldnames[ title, director, actors, year, country, genre, rating, review_count ]) writer.writeheader() for start in range(0, 250, 25): url fhttps://movie.douban.com/top250?start{start} response requests.get(url, headersheaders) tree etree.HTML(response.text) for movie in tree.xpath(//ol[classgrid_view]/li): raw_data extract_raw_data(movie) cleaned_data cleaner.clean(raw_data) if validate_movie_data(cleaned_data): writer.writerow(cleaned_data) def extract_raw_data(movie_element): 从HTML元素提取原始数据 return { title: movie_element.xpath(.//span[classtitle][1]/text())[0], people_info: .join(movie_element.xpath(.//div[classbd]/p[1]/text())), basic_info: movie_element.xpath(.//div[classbd]/p[1]/text()[2])[0], rating: movie_element.xpath(.//span[classrating_num]/text())[0], review_count: movie_element.xpath(.//div[classstar]/span[4]/text())[0] }4.2 常见问题解决方案问题类型表现示例解决方案字段粘连导演: 张三主演: 李四用正则r导演:\s*([^\s])(?:\s*主演:\s*)?([^/]*)特殊字符1994\xa0美国text.replace(\xa0, )缺失字段某些电影无主演设置默认值get(actors, [N/A])格式混乱美国/法国/意大利保留原始数据或取第一个国家5. 高级技巧与性能优化5.1 多进程清洗加速from multiprocessing import Pool def parallel_clean(raw_data_list): 并行处理大量数据 with Pool(processes4) as pool: results pool.map(MovieDataCleaner().clean, raw_data_list) return [r for r in results if validate_movie_data(r)]5.2 使用pandas进行批量处理import pandas as pd def pandas_clean(df): 利用pandas向量化操作批量清洗 # 处理特殊字符 df[info] df[raw_info].str.replace(r[\xa0], , regexTrue) # 拆分导演演员 df[[director, actors]] df[info].apply( lambda x: pd.Series(split_director_actors(x)) ) # 拆分年份国家类型 df[[year, country, genre]] df[basic_info].apply( lambda x: pd.Series(split_movie_info(x)) ) return df.drop(columns[raw_info])在实际项目中数据清洗往往比数据采集耗费更多时间。一个健壮的清洗系统应该能处理各种边界情况同时保持代码的可读性和可维护性。建议将清洗规则模块化并为每种异常情况编写单元测试确保长期维护时不会引入新的问题。

别再问为啥ping不通了！手把手教你用route命令搞定两台不同网段电脑直连

跨网段直连实战：用route命令打通两台电脑的通信壁垒当你用网线直接连接两台电脑，却发现ping命令毫无反应时，先别急着怀疑网线质量。这种看似简单的直连场景，实则暗藏玄机——网段隔离才是真正的"隐形杀手"。本文将带你…...

2026/4/23 0:11:26 阅读更多 →

Windows 11任务栏拖放功能终极修复指南：告别系统限制，重获高效工作流

Windows 11任务栏拖放功能终极修复指南：告别系统限制，重获高效工作流【免费下载链接】Windows11DragAndDropToTaskbarFix "Windows 11 Drag & Drop to the Taskbar (Fix)" fixes the missing "Drag & Drop to the Taskbar"…...

2026/4/23 0:10:20 阅读更多 →

容器日志、网络、存储三态异常秒级定位：低代码调试控制台实战部署（含3个已被CNCF采纳的调试插件源码）

第一章：容器日志、网络、存储三态异常秒级定位：低代码调试控制台实战部署（含3个已被CNCF采纳的调试插件源码）现代云原生环境中，容器化应用的故障往往在日志、网络连接与持久化存储三态间交织发生。传统排查手段依赖多工…...

2026/4/23 0:08:52 阅读更多 →

前端三剑客 vs Vue.js：核心区别解析

好的，这是一个关于前端技术的常见问题。我们来理清 HTML CSS JavaScript（通常称为“前端三剑客”）与 Vue.js（一个流行的 JavaScript 框架）之间的区别：核心概念不同HTML CSS JavaScript： 这是…...

2026/4/20 15:14:20 阅读更多 →

【SAP Basis】从SU01出发：深入解析SAP用户账号管理的核心配置与实战

1. SU01入门：SAP用户管理的核心入口第一次接触SAP Basis管理时，我被满屏的事务码搞得晕头转向。直到导师指着SU01说："这是你未来每天都要打交道的老朋友"，我才意识到用户管理的重要性。SU01就像SAP系统的门禁控制台&am…...

2026/4/20 6:34:12 阅读更多 →

AI代码配额管理实战指南：7大行业真实配额模型+3类超限预警SOP（附2026大会未发布白皮书节选）

第一章：AI代码配额管理的范式跃迁与大会使命 2026奇点智能技术大会(https://ml-summit.org) 传统资源配额模型正面临根本性挑战：当大语言模型驱动的代码生成器每秒产出数百行可执行逻辑，静态CPU/内存阈值已无法表征真实开发意图与语义负载。…...

2026/4/20 13:56:02 阅读更多 →

7-Zip终极指南：免费开源的文件压缩神器如何改变你的文件管理方式

7-Zip终极指南：免费开源的文件压缩神器如何改变你的文件管理方式【免费下载链接】7z 7-Zip Official Chinese Simplified Repository (Homepage and 7z Extra package) 项目地址: https://gitcode.com/gh_mirrors/7z1/7z 你是否曾为电脑空间不足而烦恼&…...

2026/4/20 22:09:38 阅读更多 →