【进阶实战】Python load_workbook：从基础读取到自动化数据清洗

张

张建站

2026/5/12 10:10:08

10分钟阅读

【进阶实战】Python load_workbook：从基础读取到自动化数据清洗

1. 为什么需要掌握load_workbook在日常工作中我们经常会遇到需要处理Excel表格的场景。比如行政人员要整理员工考勤表财务要分析月度报表老师要统计学生成绩。手动操作不仅效率低下还容易出错。这时候Python的openpyxl库就能派上大用场而load_workbook就是打开Excel大门的钥匙。我去年接手过一个学校成绩分析项目原始数据是几十个班级的Excel成绩单格式五花八门。有的老师喜欢合并单元格有的表格存在空白行还有的连表头都不统一。要是手动整理估计得加班好几天。最后用load_workbook配合自动化脚本两个小时就搞定了所有数据清洗工作。2. 基础操作打开和查看Excel文件2.1 安装与环境准备首先确保安装了openpyxl库。如果你用的是Anaconda它应该已经自带了。没有的话可以这样安装pip install openpyxl我建议同时安装pandas库后续数据处理会更方便pip install pandas2.2 加载工作簿假设我们有一个电信成绩单.xlsx文件里面包含两个班级的成绩单。加载方法很简单from openpyxl import load_workbook wb load_workbook(电信成绩单.xlsx)这里有个坑要注意默认的active sheet不一定是第一个sheet而是Excel保存时最后打开的sheet。我就遇到过这个问题调试了半天才发现数据对不上。所以最好明确指定要操作的sheet。2.3 查看工作表信息获取所有sheet名称sheet_names wb.sheetnames print(sheet_names) # 输出[电子信息1班, 电子信息2班]选择特定sheet有两种方式# 方式1通过名称获取 ws wb[电子信息1班] # 方式2通过索引获取 ws wb.worksheets[0]3. 处理实际案例中的疑难杂症3.1 合并单元格的陷阱很多Excel表格喜欢合并单元格做标题比如把A1:C1合并显示成绩单。这时候如果直接读取B1或C1会得到Noneprint(ws[A1].value) # 输出成绩单 print(ws[B1].value) # 输出None判断单元格是否合并的方法merged_cells ws.merged_cells.ranges for merged_range in merged_cells: print(f合并区域{merged_range})3.2 处理空白行和列实际数据经常夹杂空白行影响数据处理。我们可以这样跳过for row in ws.iter_rows(values_onlyTrue): if any(cell is not None for cell in row): # 处理非空行 print(row)3.3 动态获取数据范围不要假设数据从A1开始应该动态获取min_row ws.min_row max_row ws.max_row min_col ws.min_column max_col ws.max_column4. 进阶技巧自动化数据清洗4.1 结构化数据提取把Excel数据转为结构化字典列表data [] headers [cell.value for cell in ws[1]] # 假设第一行是表头 for row in ws.iter_rows(min_row2, values_onlyTrue): row_data dict(zip(headers, row)) data.append(row_data)4.2 数据类型转换Excel中的数字可能被读取为字符串需要转换for item in data: try: item[分数] float(item[分数]) except (ValueError, TypeError): item[分数] 0.0 # 处理无效数据4.3 数据校验与清洗添加数据校验逻辑cleaned_data [] for item in data: # 跳过空姓名记录 if not item.get(姓名): continue # 分数范围校验 if not 0 item.get(分数, -1) 100: continue cleaned_data.append(item)5. 实战完整数据处理流程5.1 多sheet合并处理处理多个班级的成绩单all_data [] for sheet_name in wb.sheetnames: ws wb[sheet_name] # 提取数据逻辑... all_data.extend(class_data)5.2 保存处理结果将清洗后的数据保存为新Excelfrom openpyxl import Workbook new_wb Workbook() new_ws new_wb.active # 写入表头 new_ws.append([姓名, 班级, 科目, 分数]) # 写入数据 for item in all_data: new_ws.append([item[姓名], item[班级], item[科目], item[分数]]) new_wb.save(清洗后成绩单.xlsx)5.3 性能优化技巧处理大文件时可以启用只读模式提升速度wb load_workbook(大数据文件.xlsx, read_onlyTrue)写入大文件时使用write_only模式from openpyxl import Workbook wb Workbook(write_onlyTrue) ws wb.create_sheet()6. 常见问题与解决方案6.1 文件格式问题遇到过有同事把.xls文件另存为.xlsx导致打不开的情况。解决方法try: wb load_workbook(文件.xlsx) except Exception as e: print(f文件损坏或格式错误{e}) # 可以尝试用pandas读取 import pandas as pd df pd.read_excel(文件.xlsx, engineopenpyxl)6.2 编码问题遇到中文乱码时可以尝试with open(gbk编码文件.xlsx, rb) as f: wb load_workbook(f)6.3 内存不足处理处理超大Excel时可以分块读取from openpyxl import load_workbook chunk_size 1000 wb load_workbook(超大文件.xlsx, read_onlyTrue) ws wb.active for i, row in enumerate(ws.iter_rows(values_onlyTrue), 1): # 处理数据 if i % chunk_size 0: print(f已处理{i}行) # 可以在这里分批保存结果7. 与其他工具的配合使用7.1 结合pandas使用将Excel数据转为DataFrameimport pandas as pd data [] for row in ws.iter_rows(values_onlyTrue): data.append(row) df pd.DataFrame(data[1:], columnsdata[0])7.2 生成可视化报告用matplotlib生成图表import matplotlib.pyplot as plt plt.figure(figsize(10,6)) plt.bar(df[姓名], df[分数]) plt.title(班级成绩分布) plt.savefig(成绩图表.png)7.3 自动邮件发送处理完数据后自动发送邮件import smtplib from email.mime.multipart import MIMEMultipart from email.mime.base import MIMEBase from email import encoders msg MIMEMultipart() msg[Subject] 成绩单处理结果 msg[From] your_emailexample.com msg[To] recipientexample.com # 添加附件 with open(清洗后成绩单.xlsx, rb) as f: part MIMEBase(application, octet-stream) part.set_payload(f.read()) encoders.encode_base64(part) part.add_header(Content-Disposition, attachment, filename成绩单.xlsx) msg.attach(part) # 发送邮件 server smtplib.SMTP(smtp.example.com) server.send_message(msg) server.quit()8. 实际项目经验分享在最近一个财务数据处理项目中我遇到了一个特别棘手的问题客户提供的Excel表格中有用颜色标记的特殊数据需要提取。通过研究openpyxl的文档发现可以这样获取单元格颜色from openpyxl.styles import Color red_cells [] for row in ws.iter_rows(): for cell in row: if cell.fill.start_color.index FFFF0000: # 红色 red_cells.append(cell.value)另一个实用技巧是处理带有公式的单元格。如果需要获取计算后的值要这样操作wb load_workbook(含公式.xlsx, data_onlyTrue)最后提醒大家处理重要数据时一定要做好备份。我曾经因为直接修改原文件导致数据丢失现在养成了先创建副本的好习惯import shutil shutil.copy2(原始文件.xlsx, 备份_原始文件.xlsx)

魔兽争霸III终极修复指南：5个核心功能解决现代系统兼容性问题

魔兽争霸III终极修复指南：5个核心功能解决现代系统兼容性问题【免费下载链接】WarcraftHelper Warcraft III Helper , support 1.20e, 1.24e, 1.26a, 1.27a, 1.27b 项目地址: https://gitcode.com/gh_mirrors/wa/WarcraftHelper 还在为魔兽争霸III在现代Win…...

2026/5/12 10:10:07 阅读更多 →

ICC II 时钟树综合（CTS）前奏：从约束定义到NDR规则的全方位设置指南

1. 时钟树综合（CTS）基础与前期准备时钟树综合是芯片物理设计中最关键的环节之一，它直接决定了时钟信号的完整性和时序收敛的难易程度。在实际项目中，我见过太多因为CTS前期准备不足导致后期反复迭代的案例。想象一下时钟网络就像…...

2026/5/12 10:10:03 阅读更多 →

Kairo语言：融合C++性能与Rust安全的新一代系统编程选择

1. 项目概述：Kairo，一个野心勃勃的系统编程语言新选择如果你和我一样，在C的性能、Rust的安全和Python的简洁之间反复横跳，总感觉缺了点什么，那么Kairo的出现，可能就是我们一直在等的那个“缝合怪”。它不…...

2026/5/12 10:07:51 阅读更多 →

【四川电影电视学院主办 | AP出版，高录用快见刊，最快刊后1个月内上知网谷歌学术 | 主题不设限，教育、艺术、语言等人文社科主题均可】第五届科学教育与艺术鉴赏国际学术会议（SEAA 2026）

高录用快见刊，会议快见刊，最快刊后1个月内上知网&谷歌学术主题不设限，教育、艺术、语言等人文社科主题均可第五届科学教育与艺术鉴赏国际学术会议（SEAA 2026） 2026 5th International Conference on Science …...

2026/5/11 9:28:07 阅读更多 →

【斯普林格Springer 旗下的Atlantis Press出版社出版 | EI Compendex、Scopus、谷歌学术】第五届区块链、信息技术与智慧经济国际学术会议（ICBIS 2026）

第五届区块链、信息技术与智慧经济国际学术会议（ICBIS 2026） The 5th International Conference on Blockchain, Information Technology and Smart Finance 2026年6月19日 -21日，中国-上海大会官网：www.ic-bis.net【论文投…...

2026/5/12 5:45:54 阅读更多 →