文章目录1 领域概览与方向关系图核心定义Pearl 因果层级Ladder of Causation七大方向关系图2 因果发现 Causal Discovery主流算法类别重要论文与代码时序因果发现3 因果效应估计 Causal Effect Estimation核心方法核心开源库4 因果表示学习 Causal Representation Learning三大核心子问题重要论文5 LLM 与因果推理核心争论LLM 真的会推因果吗代表论文6 因果强化学习 Causal RL四大应用场景重要资源7 反事实推理 Counterfactual Reasoning重要资源8 因果 NLP 与医疗应用8.1 因果 NLP8.2 医疗因果推理9 核心开源工具汇总10 Benchmark 与数据集11 研究方向选择建议方向定位矩阵按目标推荐入门学习路径按方向12 参考资源Awesome 论文列表课程与教材重要会议与 Workshop1 领域概览与方向关系图核心定义因果推理研究变量间的因果关系而非相关关系理论基础来自两大框架框架提出者核心概念结构因果模型SCMJudea Pearl因果图、do 算子、反事实潜在结果框架PODonald Rubin处理效应、倾向得分、随机对照Pearl 因果层级Ladder of Causation层级操作典型问题对应方向L1 关联Association观察X 与 Y 相关吗统计/MLL2 干预Intervention行动do(Xx) 后 Y 如何变化因果效应估计L3 反事实Counterfactual想象若当时 Xx’Y 会是什么反事实推理七大方向关系图[观测数据 / 高维非结构化数据] │ ┌───────────┴───────────┐ ▼ ▼ 【因果发现】 【因果表示学习】 还原变量因果图 从数据中提取 (DAG/CPDAG) 潜在因果因子 │ │ └───────────┬───────────┘ ▼ 【因果效应估计】 量化干预的因果效应 (ATE / CATE / HTE) │ ┌───────────┼───────────┐ ▼ ▼ ▼ 【反事实推理】 【因果 RL】 【因果 NLP/医疗】 L3 层推断 因果世界模型 文本/基因/临床 因果关系挖掘 ▲ 【LLM × 因果推理】 贯穿所有方向的横切能力 加速发现/推断/提示增强关键依赖因果效应估计通常需要已知或假设因果图因果发现的产出因果表示学习是将深度学习引入上游的桥梁LLM 是目前贯穿所有方向的横切关注点。2 因果发现 Causal Discovery目标从观测数据或干预数据中自动学习变量间的因果图结构DAG / CPDAG / MAG。入门路径先读 NOTEARS理解可微优化范式→ Benchpress 文档了解算法全景→ OCDB了解评测标准所需背景概率图模型、线性代数、基本优化理论Python 编程主流算法类别类别代表算法核心思路适用场景约束型PC、FCI条件独立性检验 方向规则变量较少、样本充足评分型GES、NOTEARS、DAGMA优化评分函数BIC/连续约束变量中等、可微优化函数因果模型型LiNGAM、ANM利用非高斯噪声/非线性不对称性非线性/非高斯场景深度学习型DAG-GNN、DECI、NoCurl神经网络参数化 可微 DAG 约束高维、非线性LLM 辅助型CMA、LLM-CDLLM 先验初始化图结构 数据驱动细化有领域知识/元数据重要论文与代码经典基础NOTEARS(Zheng et al., NeurIPS 2018)首次将 DAG 结构学习转化为连续优化问题无环约束的代数刻画开启可微因果发现时代代码https://github.com/xunzheng/notearscausal-learn(CMU持续维护)PC、FCI、GES、LiNGAM、ANM 等经典算法的 Python 标准实现文档完整入门首选代码https://github.com/py-why/causal-learn文档https://causal-learn.readthedocs.io深度学习因果发现DECI: Deep End-to-end Causal Inference(Geffner et al., UAI 2022)统一因果发现与因果效应估计的深度生成框架支持混合数据类型代码https://github.com/microsoft/causicaDAGMA(Bello et al., NeurIPS 2022)替代 NOTEARS 的更稳定可微 DAG 学习方法代码https://github.com/kevinsbello/dagmaLLM 辅助因果发现CMA (Causal Modeling Agent)(2024)LLM 基于元数据提出初始因果图深度结构因果模型DSCM对数据拟合细化两阶段协同论文https://www.cs.emory.edu/~jyang71/files/llmcd.pdf评测基准OCDB: Open Causal Discovery Benchmark(arXiv 2406.04598, 2024)基于真实数据的因果发现公平评测框架推动可复现比较论文https://arxiv.org/abs/2406.04598Benchpress(开源评测平台2024年12月更新)集成 TETRAD、pcalg、bnlearn、gCastle、pyAgrum 等数十种算法Snakemake 工作流代码https://github.com/felixleopoldo/benchpress时序因果发现时序数据下的因果发现额外面临滞后效应、非平稳性等挑战是独立活跃子领域。CausalRivers(2025)目前最大规模真实时序因果评测集德国巴伐利亚 1160 个水文站2019-202315 分钟分辨率主页https://causalrivers.github.io/TimeGraph(arXiv 2506.01361, 2025)时序因果发现合成基准含生成脚本与评估协议代码https://github.com/hferdous/TimeGraph3 因果效应估计 Causal Effect Estimation目标在给定因果图或假设下从观测/实验数据中估计干预对结果的因果效应包括平均处理效应ATE和异质处理效应CATE/HTE。入门路径先读《Causal Inference for the Brave and True》前几章直觉建立→ DoWhy 官方 Tutorial → EconML 文档中的 Double ML 示例所需背景统计推断、线性回归、倾向得分、基本 ML 知识Python 编程核心方法方法核心思路适用场景倾向得分匹配/加权PSM/IPW均衡处理组与对照组协变量分布观测数据、二元处理双重机器学习DML残差化 Neyman 正交性鲁棒估计 CATE高维协变量、连续处理因果森林Causal Forest / GRF局部随机森林估计异质效应非线性异质效应元学习器S/T/X/R-Learner多个 ML 模型组合拟合 CATE灵活可插拔任意 ML工具变量IV / 2SLS借助工具变量处理未观测混杂存在不可观测混杂断点回归RDD利用阈值处的局部随机性连续评分指标场景核心开源库DoWhy(Microsoft / PyWhy持续维护)端到端框架建模 → 识别 → 估计 → 验证反驳检验2024 年新增 DoWhy-GCM图因果模型推断代码https://github.com/py-why/dowhyEconML(Microsoft Research / ALICE 项目)专注 CATE 估计集成 DML、DR-Learner、因果森林、正交 IV 等代码https://github.com/py-why/EconMLCausalML(Uber)Uplift Modeling 因果推断面向工业界 A/B 测试优化支持树模型和神经网络代码https://github.com/uber/causalmlDoWhy EconML 组合DoWhy 负责四步因果流程框架EconML 提供估计器两者 API 已打通是当前工业界实践的主流选型。KDD 2025 Workshop 展示了处理连续处理变量的端到端流水线。4 因果表示学习 Causal Representation Learning目标从高维非结构化数据图像、文本、基因数据中学习潜在的因果生成因子及其结构是连接深度学习与因果推理的核心桥梁。入门路径先读 ICA/可识别性基础 → TMLR 2024 综述建立框架→ NeurIPS 2024 概念表示论文看前沿所需背景变分推断/生成模型VAE/扩散、流形学习、概率论有可识别性理论基础更佳三大核心子问题子问题描述代表工作可识别性Identifiability在什么条件下能从数据唯一恢复潜在因果因子iVAE, ILCM, SlowVAE因果生成模型将 SCM 结构嵌入 VAE/GAN/Flow/扩散模型CausalVAE, VACA, DEAR域泛化与 OOD通过学习不变因果特征提升跨域泛化IRM, ICRL, CausalDG重要论文Survey: From Identifiable Causal Representations to Controllable Counterfactual Generation(TMLR 2024)系统综述因果生成建模可识别性条件、因果表示学习方法、可控反事实生成代码与论文列表https://github.com/Akomand/Causal-Generative-Modeling-SurveyFrom Causal to Concept-Based Representation Learning(NeurIPS 2024)建立从因果表示到基于概念的表示学习的严格理论条件可识别性 概念对齐论文https://proceedings.neurips.cc/paper_files/paper/2024/file/b76a9959151d377ddd2c77a275a97475-Paper-Conference.pdfICRL: Independent Causality Representation Learning for Domain Generalization(Scientific Reports 2025)将独立因果分量Independent Causal Mechanisms用于域泛化任务论文https://www.nature.com/articles/s41598-025-96357-0Causal Inference Meets Deep Learning: A Comprehensive Survey(Research / SPJ 2024)系统梳理深度学习 × 因果推理的研究图景覆盖语音、文本、图结构、图像四大模态论文https://spj.science.org/doi/10.34133/research.0467PMC 全文https://pmc.ncbi.nlm.nih.gov/articles/PMC11384545/Deep Causal Learning: Representation, Discovery and Inference(ACM Computing Surveys 2025)从表示、发现、推断三维度综述深度因果学习论文https://dl.acm.org/doi/10.1145/37621795 LLM 与因果推理定位LLM 在因果推理中扮演双重角色——既是研究对象LLM 的因果能力评测也是研究工具LLM 加速因果发现/推断。这是近两年增长最快的交叉方向贯穿其他所有方向。注意区分本节聚焦 LLM 与通用因果推理框架的交叉NLP 文本中因果关系的挖掘见第 8 节。入门路径读 Kiciman et al. 2024了解争论全貌→ CausalInference with LLM Survey (NAACL 2025)建立系统认知核心争论LLM 真的会推因果吗立场依据代表工作乐观派具备因果推理能力GPT-4 在配对因果发现任务达 97%13pt反事实推理达 92%20ptKiciman et al. 2024悲观派依赖记忆而非推理CausalProbe 2024 用训练截止后的新数据测试性能大幅下滑CausalProbe 2024折中派增强提示可弥补缺口G2-Reasoner通用知识 目标导向提示显著提升新鲜任务表现Unveiling 2025代表论文能力评测类Causal Reasoning and Large Language Models: Opening a New Frontier for Causality(Kiciman et al., Microsoft Research → TMLR 2024)首篇系统评估 GPT 系列因果推理能力的工作引发后续大量研究arXivhttps://arxiv.org/abs/2305.00050Unveiling Causal Reasoning in Large Language Models: Reality or Mirage?(2025)提出 CausalProbe 2024 基准 G2-Reasoner 框架论证记忆 vs 推理问题论文https://arxiv.org/html/2506.21215v1工具使用类LLM 作为因果分析加速器Causal Reasoning in LLMs: A Knowledge Graph Approach(arXiv 2410.11588, 2024)利用知识图谱随机游走构造含因果结构的提示提升 LLM 因果推理性能论文https://arxiv.org/abs/2410.11588Large Language Models for Causal Discovery: Current Landscape and Future Directions(IJCAI 2025)系统梳理 LLM 辅助因果发现的方法、局限与未来方向论文https://arxiv.org/html/2402.11068v2综述类Causal Inference with Large Language Model: A Survey(NAACL 2025 Findings)全面梳理 LLM 在因果推断中作为工具与研究对象的双重定位论文https://aclanthology.org/2025.findings-naacl.327.pdfarXiv 版https://arxiv.org/pdf/2409.09822v3生成模型赋能类Causal Representation Learning with Generative AI: Application to Texts as Treatments(arXiv 2410.00903, 2024)GenAI 增强从文本/图像中学习因果表示开源 Python 包 GPI工具https://gpi-pack.github.io/论文https://arxiv.org/html/2410.00903v46 因果强化学习 Causal RL目标将因果结构因果图 / 结构方程融入强化学习提升策略的样本效率、泛化性与可解释性。入门路径读 Bareinboim 的 CRL 综述报告理论基础→ Awesome-CRL 列表中 ICML 2024 论文最新进展所需背景强化学习基础MDP、Q-learning、策略梯度 因果推理基础SCM、do 算子四大应用场景场景核心问题代表工作离线 RL因果世界模型减少分布偏移与 OOD 错误外推Causal World Model (2024)可解释 RL学习因果图解释动作→状态→奖励的影响链Explainable RL via CWM (IJCAI 2023)多智能体 RL建模智能体间的因果影响传播ICML 2024 多篇具身智能世界模型中嵌入因果结构支持规划与泛化Foundation World Models (2024)重要资源Survey: A Survey on Causal Reinforcement Learning(TNNLS 2025)含完整论文列表按子主题分类代码https://github.com/libo-huang/Awesome-Causal-Reinforcement-LearningColumbia CausalAI Lab - CRL 主页(Bareinboim 团队)理论最深、最权威的因果 RL 研究组含系列论文与课程资料主页https://crl.causalai.net/Explainable RL via a Causal World Model(IJCAI 2023 / 扩展版 2024)无需先验因果结构自动学习因果世界模型并解释决策论文https://arxiv.org/abs/2305.02749Offline Model-Based RL with Causal Structured World Models(Frontiers of Computer Science 2024)理论证明因果环境模型在离线 RL 中的优越性论文https://journal.hep.com.cn/fcs/EN/10.1007/s11704-024-3946-yCLeaR 2024 论文集Causal Learning and Reasoning洛杉矶 2024.4.1-3覆盖因果 RL、因果表示、因果发现等方向最新进展主页https://proceedings.mlr.press/v236/7 反事实推理 Counterfactual Reasoning目标回答 Pearl 因果层级第三层问题——“若当时的干预不同结果会如何变化”——应用于可解释 AI、算法公平性和决策支持。注意区分反事实解释针对黑盒模型输出寻找最小化特征修改使预测翻转可解释性工具反事实推断基于 SCM 的概率量化需要完整因果模型理论更严格入门路径读 ACM Computing Surveys 2024 综述建立全局认知→ DiCE 文档动手实践所需背景ML 基础、优化理论若做反事实推断需要 SCM 知识重要资源理论综述Counterfactual Explanations and Algorithmic Recourses for ML: A Review(ACM Computing Surveys 2024)系统梳理反事实解释的定义、属性可行性、近邻性、多样性、算法与评测论文https://dl.acm.org/doi/10.1145/3677119工具与代码DiCE (Diverse Counterfactual Explanations)(Microsoft)生成多样化反事实解释支持任意黑盒模型提供 Scikit-learn / TF / PyTorch 接口代码https://github.com/interpretml/DiCEalibi(Seldon)生产级模型解释库包含 CEM对比解释法、反事实引导解释等模块代码https://github.com/SeldonIO/alibi前沿研究Counterfactual Prediction Sets(ICML 2024)将反事实推理融入预测集设计用于决策支持系统代码https://github.com/Networks-Learning/counterfactual-prediction-setsRL 训练 vs 监督微调的反事实推理泛化(ICLR 2026)实验发现 RL 训练的模型反事实泛化能力显著强于 SFT且迁移至数学任务论文https://openreview.net/pdf?idLm46gJA0q8Counterfactual Explanations May Not Be the Best Algorithmic Recourse Approach(IUI 2025)质疑反事实解释作为算法申诉工具的有效性讨论替代路径论文https://iis.seas.harvard.edu/papers/upadhyay2025counterfactual.pdf8 因果 NLP 与医疗应用8.1 因果 NLP定位将因果推理方法应用于 NLP 任务去混杂、公平性、数据增强、因果关系抽取或从文本中挖掘/表示因果知识。与第 5 节的区别第 5 节关注 LLM 对通用因果推理框架发现/效应估计的影响本节关注文本本身作为研究对象提取文本中的因果关系或用因果方法改进 NLP 模型。论文总列表https://github.com/zhijing-jin/CausalNLP_Papers按任务类型分类持续更新Survey: Causal Inference in NLP(TACL 2022)奠基综述覆盖估计、预测、解释三类任务论文https://direct.mit.edu/tacl/article/doi/10.1162/tacl_a_00511/113490/ACL 2024 Best PaperCausal Estimation of Memorisation Profiles用因果方法分析 LLM 记忆ACL 2025Causal Estimation of Tokenisation Bias分词偏差的因果量化Open Event Causality Extraction with LLM(ACL 2024)LLM 辅助构建事件因果关系数据集8.2 医疗因果推理定位因果推理与医疗健康数据结合解决治疗效果评估、药物副作用发现、基因调控网络推断等问题。LLM 辅助医学因果关系抽取(MDPI Information 2025)从临床实践指南CPG文本自动提取因果关系用于知识图谱论文https://www.mdpi.com/2078-2489/16/1/13LLMs as Co-Pilots for Causal Inference in Medical Studies(2024)探讨 LLM 辅助医学观测研究中混杂控制与效应估计论文https://cs.nyu.edu/~neill/papers/cer2025.pdfCausalBench(CRISPR scRNA-seq 基因组数据集)重要发现利用干预信息的方法在真实数据上并不优于仅用观测数据的方法挑战合成基准结论主页https://wsdm26.causalbench.org/Large-Scale Benchmark for Network Inference from Single-Cell Perturbation Data(Communications Biology 2025)单细胞扰动数据因果网络推断大规模基准论文https://www.nature.com/articles/s42003-025-07764-y9 核心开源工具汇总工具主要用途维护方代码链接DoWhy端到端因果推断框架建模→识别→估计→验证PyWhy/MicrosoftGitHubEconMLCATE/HTE 估计DML/因果森林/元学习器PyWhy/MicrosoftGitHubCausalMLUplift Modeling A/B 测试UberGitHubcausal-learn经典因果发现算法PC/FCI/GES/LiNGAMPyWhy/CMUGitHubgCastle因果发现算法集合含深度学习方法Huawei Noah’s ArkGitHubCAUSICA / DECI深度端到端因果推断发现估计统一MicrosoftGitHubBenchpress因果发现算法评测平台多算法对比学术开源GitHubDiCE多样化反事实解释MicrosoftGitHubalibi生产级模型解释含反事实SeldonGitHubNOTEARS可微因果发现奠基实现CMUZheng XunGitHubDAGMA改进的可微 DAG 学习学术GitHub10 Benchmark 与数据集名称领域规模与特点链接OCDB因果发现真实数据多数据集推动公平评测arXivCausalRivers时序因果发现水文1160 测站5 年15 分钟分辨率主页TimeGraph时序因果发现合成含生成脚本与评估协议GitHubCausalBench基因组干预数据CRISPR scRNA-seq真实干预主页CausalProbe 2024LLM 因果 QA训练截止后构建避免记忆污染arXivCausalST 数据集时空因果交通/气象含多个真实场景数据集GitHub11 研究方向选择建议方向定位矩阵方向理论深度工程复杂度发表空间产业落地当前热度因果发现高中宽顶会稳定中★★★☆因果效应估计中低宽ML统计双轨高★★★☆因果表示学习极高高宽NeurIPS/ICML低-中★★★★LLM × 因果推理中低极宽爆发增长高★★★★★因果强化学习高高中竞争激烈中具身AI★★★☆反事实推理中低中高XAI/公平性★★★☆因果 NLP/医疗中中宽跨学科极高★★★☆按目标推荐入门 / 快速见到成果LLM × 因果发现LLM 提供元数据先验 传统算法数据拟合代码量适中顶会接受度高CMA 框架已提供可扩展基线反事实解释XAI工具链成熟DiCE/alibi应用场景清晰信用评分/医疗决策ACM Surveys 2024 指出仍有大量开放问题深耕 / 追求高影响力因果表示学习理论门槛高、成果稀缺但 NeurIPS/ICML 持续高度重视与扩散模型、多模态 LLM 结合是当前最前沿交叉点因果强化学习具身 AI 方向离线 RL 因果世界模型是 Embodied AI 研究的底层基础设施长期价值高应用导向 / 产业合作因果效应估计A/B 测试、广告归因、医疗 RCT 替代DoWhyEconML 生态成熟KDD 专设工业 Workshop因果 NLP / 医疗因果跨学科优势明显适合与医院/制药/金融机构合作中文医疗数据稀缺有差异化空间入门学习路径按方向通用基础建议所有方向先完成 《Causal Inference for the Brave and True》前 6 章免费在线Python 代码 Pearl《The Book of Why》直觉建立非技术向 因果发现方向 causal-learn 文档 → NOTEARS 论文 → Benchpress 跑实验 → OCDB 评测 因果效应估计方向 DoWhy Tutorial → EconML DML 示例 → KDD 2025 Workshop 论文 因果表示学习方向 VAE/流模型基础 → iVAE 论文 → TMLR 2024 综述 → NeurIPS 2024 最新论文 LLM × 因果方向 Kiciman et al. 2024 → NAACL 2025 综述 → 选定子任务复现实验12 参考资源Awesome 论文列表列表内容链接awesome-causality-algorithms按任务分类的因果算法索引持续更新GitHubcausal-ml因果推断 × 深度/机器学习必读论文GitHubCausalNLP_PapersNLP 中的因果推理论文按任务分类GitHubAwesome-Causal-RL因果强化学习论文与代码GitHubCausal-Generative-Modeling-Survey因果生成建模综述配套列表TMLR 2024GitHubCausalST_Papers时空数据中的因果推理论文GitHub课程与教材Causal Inference for the Brave and True开源Python计量ML 视角https://github.com/matheusfacure/python-causality-handbookNYU 2024 Spring: Introduction to Causal Inference in Machine LearningKyunghyun Chohttps://github.com/kyunghyuncho/2024-causal-inference-machine-learning重要会议与 Workshop会议/Workshop频率定位链接CLeaRCausal Learning and Reasoning年度因果学习理论方法顶会PMLR Vol.236KDD Causal Inference ML in Practice年度 Workshop工业应用导向KDD 2025UAIUncertainty in AI年度因果概率图模型—WSDM CausalBench Workshop 2026年度因果模型评测主页