Python 操作 Word 文档属性与字数统计方法详解

张

张建站

2026/4/21 17:15:32

10分钟阅读

小李是刚入职场的行政助理这天领导扔给他30份项目报告要求统计每份报告的字数还要提取创建时间和最后修改作者。手动打开一个个Word文档复制粘贴显然不现实小李决定用Python试试。准备工作安装与导入操作Word文档最常用的库是python-docx。它只支持.docx格式老旧的.doc格式需要先转换。pip install python-docx安装完成后在代码中导入。处理日期时间还需要datetime库from docx import Document from datetime import datetime读取文档属性Word文档的属性就像文件的“身份证”记录了标题、作者、创建时间、修改次数等信息。这些信息藏在文档的“Core Properties”部分python-docx可以轻松读取。def get_doc_properties(doc_path): doc Document(doc_path) core_props doc.core_properties info { 标题: core_props.title, 作者: core_props.author, 分类: core_props.category, 状态: core_props.content_status, 创建时间: core_props.created, 修改时间: core_props.modified, 最后保存者: core_props.last_modified_by, 修订次数: core_props.revision } return info props get_doc_properties(项目报告.docx) for key, value in props.items(): print(f{key}: {value})输出结果类似于标题: 2024年度项目总结作者: 张三创建时间: 2024-12-01 10:30:00 最后保存者: 李四修订次数: 5注意created和modified返回的是datetime对象可以直接用strftime格式化。字数统计主体内容字数统计稍微复杂些。文档里的文字分散在不同的地方段落、表格、页眉页脚、文本框。先统计最常见的主体段落和表格。def count_word_document(doc_path): doc Document(doc_path) total_chars 0 for paragraph in doc.paragraphs: text paragraph.text.strip() total_chars len(text) for table in doc.tables: for row in table.rows: for cell in row.cells: text cell.text.strip() total_chars len(cell.text) return total_chars word_count count_word_document(项目报告.docx) print(f文档总字符数: {word_count})这里用len(text)统计字符数。对中文来说每个汉字算1个字符。英文场景下可能需要按空格分词来统计单词数用len(text.split())即可。进阶字数统计包含页眉页脚页眉页脚往往藏着重要信息比如公司名称、文档版本。统计它们能让字数更完整。def count_with_headers(doc_path): doc Document(doc_path) total_chars 0 for paragraph in doc.paragraphs: total_chars len(paragraph.text) for table in doc.tables: for row in table.rows: for cell in row.cells: total_chars len(cell.text) for section in doc.sections: header section.header for paragraph in header.paragraphs: total_chars len(paragraph.text) footer section.footer for paragraph in footer.paragraphs: total_chars len(paragraph.text) return total_chars通过doc.sections遍历每个节再分别访问页眉和页脚的段落。注意事项段落与Run的区别python-docx把一段文字拆成多个Run对象每个Run是一段样式相同的连续文本。直接取paragraph.text会合并所有Run的文本对字数统计没影响。但如果要统计带格式的文字数量可以遍历paragraph.runs分别处理。性能问题几十上百页的文档遍历所有表格和段落没问题。上千页的超长文档建议分页读取或换用更底层的lxml直接解析XML。分页统计python-docx本身不提供精确的页数统计。如果依赖分页符来分页可以用paragraph.contains_page_break判断def estimate_pages(doc_path): doc Document(doc_path) page_breaks sum(1 for p in doc.paragraphs if p.contains_page_break) return page_breaks 1这种方法只对手动插入分页符的文档有效纯自动排版的文档会返回1。完整示例批量处理脚本把上面内容整合成一个批量处理脚本import os from docx import Document from datetime import datetime def analyze_doc(doc_path): try: doc Document(doc_path) props doc.core_properties char_count 0 for para in doc.paragraphs: char_count len(para.text) for table in doc.tables: for row in table.rows: for cell in row.cells: char_count len(cell.text) return { 文件: os.path.basename(doc_path), 字符数: char_count, 作者: props.author, 创建时间: props.created.strftime(%Y-%m-%d) if props.created else 未知 } except Exception as e: print(f处理失败 {doc_path}: {e}) return None folder ./reports for filename in os.listdir(folder): if filename.endswith(.docx): full_path os.path.join(folder, filename) result analyze_doc(full_path) if result: print(f{result[文件]} - {result[字符数]}字 - {result[作者]})跑一遍脚本30份报告的字数和作者信息就全部提取出来了。小李把结果导出到Excel圆满完成了任务。总结用python-docx处理Word文档属性与字数统计核心就三点doc.core_properties获取元数据、遍历doc.paragraphs和doc.tables统计文字、doc.sections访问页眉页脚。代码量不大却能把重复劳动彻底自动化。下次领导再丢来一堆文档就知道怎么优雅应对了。

避坑指南：在杰里695N Soundbox SDK中新增自定义应用模式（如收音机）的5个关键步骤

避坑指南：在杰里695N Soundbox SDK中新增自定义应用模式的实战解析第一次接触杰里AC695N芯片的SDK开发时，我被要求为智能音箱添加一个FM收音机功能模块。面对复杂的任务管理系统和分散的配置文件，我花了整整三天时间才让这个简单的收音机模式…...

2026/4/19 17:40:01 阅读更多 →

瑞芯微RK3568极限测试：连续8小时满负载运行，这些数据你必须知道

瑞芯微RK3568极限稳定性实测：8小时满负载下的工业级表现解密当工业自动化设备在产线连续运转，或是边缘计算节点处理海量数据时，芯片的长期稳定性直接关系到系统可靠性。瑞芯微RK3568作为一款主打工业场景的SoC，其官方标称参数往往…...

2026/4/19 17:46:00 阅读更多 →

USB-HID学习笔记

USB的概念性知识USB的特点USB2.0 有高速、全速和低速三种工作速度，高速是480Mbit/s，全速是12Mbit/s， 低速是1.5Mbit/s。USB传输距离短，开发、调式难度大http://www.usb.org/http://group.ednchina.com/93/USB是一种主从结构系统&a…...

2026/4/19 17:45:23 阅读更多 →

前端三剑客 vs Vue.js：核心区别解析

好的，这是一个关于前端技术的常见问题。我们来理清 HTML CSS JavaScript（通常称为“前端三剑客”）与 Vue.js（一个流行的 JavaScript 框架）之间的区别：核心概念不同HTML CSS JavaScript： 这是…...

2026/4/20 15:14:20 阅读更多 →

【SAP Basis】从SU01出发：深入解析SAP用户账号管理的核心配置与实战

1. SU01入门：SAP用户管理的核心入口第一次接触SAP Basis管理时，我被满屏的事务码搞得晕头转向。直到导师指着SU01说："这是你未来每天都要打交道的老朋友"，我才意识到用户管理的重要性。SU01就像SAP系统的门禁控制台&am…...

2026/4/20 6:34:12 阅读更多 →

AI代码配额管理实战指南：7大行业真实配额模型+3类超限预警SOP（附2026大会未发布白皮书节选）

第一章：AI代码配额管理的范式跃迁与大会使命 2026奇点智能技术大会(https://ml-summit.org) 传统资源配额模型正面临根本性挑战：当大语言模型驱动的代码生成器每秒产出数百行可执行逻辑，静态CPU/内存阈值已无法表征真实开发意图与语义负载。…...

2026/4/20 13:56:02 阅读更多 →

7-Zip终极指南：免费开源的文件压缩神器如何改变你的文件管理方式

7-Zip终极指南：免费开源的文件压缩神器如何改变你的文件管理方式【免费下载链接】7z 7-Zip Official Chinese Simplified Repository (Homepage and 7z Extra package) 项目地址: https://gitcode.com/gh_mirrors/7z1/7z 你是否曾为电脑空间不足而烦恼&…...

2026/4/20 22:09:38 阅读更多 →