用Python+Selenium批量抓取A股年报链接：一个金融数据分析小白的实战避坑记录

张

张建站

2026/5/14 7:37:53

10分钟阅读

用Python+Selenium批量抓取A股年报链接：一个金融数据分析小白的实战避坑记录

PythonSelenium实战金融数据爬取从入门到精通的避坑指南去年夏天我接手了一个金融数据分析的小项目需要研究某行业上市公司的年报数据。本以为直接下载就能搞定结果发现手动收集几百家公司的年报链接简直是噩梦。这段从零开始学习用PythonSelenium自动化抓取数据的经历让我深刻体会到——金融数据获取本身就是一门学问。1. 环境搭建那些教程里没告诉你的细节第一次配置Selenium环境时我天真地以为pip install selenium就是全部。结果ChromeDriver版本不兼容的问题让我折腾了大半天。这里分享几个血泪教训浏览器驱动选择不要盲目下载最新版ChromeDriver。先检查本地Chrome版本地址栏输入chrome://version/再下载对应的驱动版本。环境变量陷阱很多人建议把驱动放到Python安装目录但更稳妥的做法是# Windows系统示例 mv chromedriver.exe C:\Windows\System32\无头模式配置常规教程很少提到如何优化无头模式其实可以这样设置from selenium.webdriver.chrome.options import Options options Options() options.add_argument(--headless) options.add_argument(--disable-gpu) options.add_argument(--window-size1920,1080) # 避免响应式布局问题 driver webdriver.Chrome(optionsoptions)提示遇到WebDriverException时先检查驱动路径和版本80%的问题都能解决。2. 网页交互设计对抗动态加载的实战技巧巨潮资讯网的搜索表单比想象中复杂得多。最初我直接复制XPath结果代码运行几次后就失效了。后来发现这些规律元素定位策略优先使用find_element(By.ID, )等稳定定位方式XPath尽量选择有id或name属性的元素避免使用绝对路径如/html/body/div[3]/div[2]智能等待方案from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC # 显式等待示例 element WebDriverWait(driver, 10).until( EC.presence_of_element_located((By.XPATH, //input[placeholder股票代码])) )反爬应对措施随机化操作间隔time.sleep(random.uniform(0.5, 2))模拟人类输入速度from selenium.webdriver.common.action_chains import ActionChains def slow_type(element, text): for character in text: ActionChains(driver).send_keys_to_element(element, character).perform() time.sleep(random.uniform(0.1, 0.3))3. 数据提取优化从粗糙到精准的进化初期我的脚本只能获取基础链接后来逐步完善出这套方案年报识别逻辑对比表判断维度初级方案优化方案终极方案文件类型包含年报排除摘要正则匹配标准化标题时间范围年份匹配季度校验公告日期精确比对文件格式仅PDFPDFWORD内容类型头检查版本控制无排除修订版版本号比对代码实现片段import re def is_valid_report(title, year): pattern r^{}年(度)?报告$.format(year) if re.match(pattern, title.strip()): return True if 摘要 in title or 修订 in title: return False return 年度报告 in title4. 工程化实践从脚本到可维护项目当代码超过300行后我意识到需要更好的工程组织模块化结构/project ├── config/ # 配置文件 │ ├── stocks.csv # 股票代码库 │ └── paths.yaml # 路径配置 ├── libs/ # 自定义库 │ ├── crawler.py # 爬虫核心类 │ └── utils.py # 工具函数 ├── logs/ # 运行日志 └── main.py # 入口文件异常处理框架class CrawlerException(Exception): pass def safe_click(element): try: element.click() return True except Exception as e: logger.error(f点击失败: {str(e)}) raise CrawlerException(元素交互异常)性能监控装饰器import time from functools import wraps def timeit(func): wraps(func) def wrapper(*args, **kwargs): start time.perf_counter() result func(*args, **kwargs) elapsed time.perf_counter() - start logger.debug(f{func.__name__}耗时: {elapsed:.2f}秒) return result return wrapper5. 数据存储进阶超越基础Excel的方案当数据量超过1万条时我转向了更专业的存储方案存储方案对比方案优点缺点适用场景CSV简单通用无数据类型校验小型数据集(1MB)SQLite零配置并发性能差单机中型数据PostgreSQL功能强大需要服务端企业级应用MongoDB灵活schema内存占用高非结构化数据SQLite集成示例import sqlite3 from contextlib import closing def init_db(): with closing(sqlite3.connect(reports.db)) as conn: conn.execute(CREATE TABLE IF NOT EXISTS annual_reports (code TEXT, year INTEGER, url TEXT UNIQUE, title TEXT, download_status INTEGER)) conn.commit() def save_to_db(data): with closing(sqlite3.connect(reports.db)) as conn: conn.executemany(INSERT OR IGNORE INTO annual_reports VALUES (?,?,?,?,0), data) conn.commit()6. 反反爬策略专业数据采集的生存法则经过多次被封IP的教训我总结出这些实战经验请求特征伪装options.add_argument(user-agentMozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36) options.add_argument(accept-languagezh-CN,zh;q0.9) options.add_argument(refererhttps://www.cninfo.com.cn/)IP轮换方案免费方案Tor网络每50请求更换出口节点付费方案Luminati/911等代理服务折中方案ADSL拨号换IP适合家庭宽带行为模式模拟def human_like_scroll(driver): for _ in range(random.randint(2,5)): driver.execute_script(window.scrollBy(0, {}).format( random.randint(200,800))) time.sleep(random.uniform(0.5, 2))在金融数据采集这条路上最深的体会是自动化脚本不是一劳永逸的网站改版、反爬升级都是常态。我现在会定期用try-except块包裹核心逻辑并设置自动邮件报警这比半夜被同事电话叫醒说脚本挂了要优雅得多。

Excel工作表保护密码破解：VBA代码实战指南

1. Excel工作表保护密码破解的基本原理相信很多朋友都遇到过这样的尴尬情况：自己设置了Excel工作表保护密码，结果时间一长把密码给忘了。或者收到同事发来的加密Excel文件，对方却忘记提供密码。这时候该怎么办？今天我就来分享一个…...

2026/4/1 13:07:19 阅读更多 →

机器人示教器虚拟按键全解析：从配置到实战应用（附代码调试技巧）

机器人示教器虚拟按键全解析：从配置到实战应用（附代码调试技巧） 工业机器人操作中，示教器是人与机器交互的核心枢纽。而虚拟按键作为示教器上最灵活的功能区域，却常常被操作者忽视其真正潜力。本文将带您深入探索这四个…...

2026/4/1 13:06:57 阅读更多 →

8款实用AI论文生成工具（包括爱毕业aibiye）及新手详细指南

在学术研究领域，AI技术的应用显著提升了论文写作的效率与质量。以下推荐8款功能强大的智能工具，涵盖文献解析、内容生成、文本优化等关键环节，助力研究者高效完成从资料收集到论文润色的全流程工作。这些创新解决方案能够有效简化研究过程&am…...

2026/4/1 13:06:26 阅读更多 →

【四川电影电视学院主办 | AP出版，高录用快见刊，最快刊后1个月内上知网谷歌学术 | 主题不设限，教育、艺术、语言等人文社科主题均可】第五届科学教育与艺术鉴赏国际学术会议（SEAA 2026）

高录用快见刊，会议快见刊，最快刊后1个月内上知网&谷歌学术主题不设限，教育、艺术、语言等人文社科主题均可第五届科学教育与艺术鉴赏国际学术会议（SEAA 2026） 2026 5th International Conference on Science …...

2026/5/14 4:32:07 阅读更多 →

【斯普林格Springer 旗下的Atlantis Press出版社出版 | EI Compendex、Scopus、谷歌学术】第五届区块链、信息技术与智慧经济国际学术会议（ICBIS 2026）

第五届区块链、信息技术与智慧经济国际学术会议（ICBIS 2026） The 5th International Conference on Blockchain, Information Technology and Smart Finance 2026年6月19日 -21日，中国-上海大会官网：www.ic-bis.net【论文投…...

2026/5/12 5:45:54 阅读更多 →