news 2026/4/17 15:43:46

方法学革新:工具变量因果森林如何破解因果谜题?

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
方法学革新:工具变量因果森林如何破解因果谜题?

源自风暴统计网:一键统计分析与绘图的网站

最近老郑分享了很多因果推断的前沿方法学推文,今天介绍另一种前沿方法,工具变量因果森林。

2025年11月发表在《International Journal of Epidemiology》(医学二区,IF=5.9)的一项研究,是一篇典型的因果推断研究,采用工具变量因果森林这一前沿机器学习方法,探究退休对认知功能的异质性影响。

下面一起从这篇文章中学习一下这个前沿方法!


研究争议,退休与认知功能的谜题

“我是不是该晚点退休,多动动脑子防痴呆?”这可能是很多人的传统观念,许多临近退休的人都有这样的担忧。

一些研究认为,工作能保持大脑活跃,退休会导致“用进废退”;另一些研究则发现,工作压力可能加速认知衰退,退休反而是解脱。

因此,本研究探讨了退休是否对认知功能有影响?这种影响是否因个体特征和国家背景而异?

研究团队使用了三个国际标准化老龄化调查的三波次数据:HRS(美国健康与退休研究)、ELSA(英国老龄化追踪研究)、SHARE(欧洲健康、老龄化与退休调查)。

研究涵盖三个时间段数据,严格分离暴露、协变量与结局的测量时间点,避免反向因果。

  • 第一波(2014/2015):收集60个基线协变量

  • 第二波(2016/2017):确定退休状态

  • 第三波(2018/2019):评估认知功能结局

研究选择“国家法定退休年龄”作为退休的工具变量,解决退休决策的内生性问题,这让研究者能够区分退休的真正影响,而不是其他混淆因素。”

结局变量:认知功能。情景记忆被用作衡量认知功能的一项指标。情景记忆指的是回忆过去经历的能力,这一能力通常会随着年龄的增长而下降。参与者听到了 10 个常见的单词,并立即由采访者要求他们尽可能多地回忆这些单词。大约 5 分钟后,他们又被要求再次回忆这些单词。因此,他们回忆起的单词总数(范围从 0 到 20 个)代表了他们的情景记忆功能,这与之前的研究结果一致。

方法革新,机器学习破解因果关系难题

研究者比较了使用四种方法估计的平均处理效应(ATE)。

  • 参数化的普通最小二乘法 (OLS)

  • 两阶段最小二乘法 (2SLS)

  • 不含工具变量的非参数因果森林 (non-IV forests)

  • 工具变量因果森林 (IV forests)

对于参数化方法,研究者根据在已训练的工具变量因果森林中的重要性,选择了10个协变量进行调整。

非参数方法的平均处理效应通过残差对残差回归法获得。

✅ 接下来重点讲讲工具变量因果森林方法如何应用的。

1.工具变量因果森林方法将用于工具变量估计的广义矩估计法,与随机森林相结合,以识别相似的处理效应。

2.工具变量因果森林纳入了来自第一波调查的60个经过协调统一的协变量。

3.为了减轻潜在的反向因果关系,纳入了认知功能的基线得分。

4.研究者假设数据为随机缺失,缺失值使用基于随机森林的算法进行填补。

5.训练完成后,由于极端倾向得分会破坏估计的稳定性,所以研究者将分析限制在退休倾向得分介于0.1至0.9之间的7432名个体。相当于排除了那些“无论如何都会退休”和“无论如何都不会退休”的极端人群,专注于那些退休决定可能受到政策影响的人群,使结果更具政策参考价值。

因此,这项研究的工具变量因果森林估计量代表的是重叠人口上的条件局部平均处理效应(CLATO)。

6.随后,将观测值按条件局部平均处理效应从Q1到Q5分为五等分组,并比较了各组间在社会人口学特征、健康与行为以及国家分布上的差异。

7.P值使用Bonferroni方法进行了调整。

8.敏感性分析:进行了多项敏感性分析以确认研究结果的稳健性。这些分析包括:将样本限制在55至75岁之间、排除部分退休的个体、仅分析全职雇员,以及排除样本量最大的美国数据。

退休对认知功能有显著的积极影响

1.整体效应

  • 研究使用最前沿的工具变量因果森林方法估计,退休者比仍在工作者平均能多回忆1.348个单词。

  • 传统的工具变量方法(2SLS)也发现了正向关联(0.962个单词),但效应值小于IV森林的估计。

  • 使用普通最小二乘法(OLS)和非工具变量法的因果森林构建的初步分析未发现退休与认知功能之间存在关联。

  • 工具变量的有效性通过 F 统计量 163.037(P < 0.0001)和Sargan统计量 1.177(P = 0.28)得到证实。

敏感性分析证实了主要发现的可靠性。

2.异质性分析

研究根据“条件局部平均处理效应(CLATO)”将人群分为五组(Q1受益最小,Q5受益最大),发现:

工具变量因果森林在这一研究中的应用,展示了机器学习与因果推断融合的巨大潜力

随着大数据和算法技术的进步,这种数据驱动、灵活捕捉异质性的方法,有望在公共卫生、社会政策等领域发挥更大作用,帮助我们发现更细致、更个性化的因果规律。

因果推断方法要好好学起来了!

参考文献:Sato K, Noguchi H, Inoue K. Heterogeneity in the association between retirement and cognitive function: a machine learning analysis across 19 countries. Int J Epidemiol. 2025 Oct 14;54(6):dyaf201. doi: 10.1093/ije/dyaf201.


最后,在文末给郑老师我们团队打个广告吧,大家不要见怪哈!

我们将提供专业的临床试验项目设计与分析

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 14:41:18

Qwen2.5-7B性能调优:从部署到生产的完整路径

Qwen2.5-7B性能调优&#xff1a;从部署到生产的完整路径 1. 技术背景与核心价值 随着大语言模型在企业级应用中的广泛落地&#xff0c;如何高效部署并优化推理性能成为关键挑战。Qwen2.5-7B作为阿里云最新发布的开源大模型&#xff0c;在保持76.1亿参数规模的同时&#xff0c;…

作者头像 李华
网站建设 2026/4/12 20:10:28

Qwen2.5-7B指令调优教程:提升模型响应质量

Qwen2.5-7B指令调优教程&#xff1a;提升模型响应质量 1. 引言&#xff1a;为什么需要对Qwen2.5-7B进行指令调优&#xff1f; 1.1 大模型能力跃迁下的新挑战 随着阿里云发布 Qwen2.5 系列&#xff0c;大语言模型在多个维度实现了显著跃升。其中&#xff0c;Qwen2.5-7B 作为中…

作者头像 李华
网站建设 2026/4/18 8:34:53

Qwen2.5-7B表格生成:从数据到结构化输出

Qwen2.5-7B表格生成&#xff1a;从数据到结构化输出 1. 引言&#xff1a;为何关注大模型的结构化输出能力&#xff1f; 在企业级AI应用中&#xff0c;非结构化文本生成已不再是唯一目标。越来越多的场景需要模型将自然语言输入转化为可解析、可集成的结构化数据&#xff0c;如…

作者头像 李华
网站建设 2026/4/18 8:35:47

Qwen2.5-7B物流优化:路径规划与成本计算应用

Qwen2.5-7B物流优化&#xff1a;路径规划与成本计算应用 1. 引言&#xff1a;大模型如何赋能传统物流行业&#xff1f; 1.1 物流行业的智能化转型需求 现代物流系统面临日益复杂的调度、路径规划和成本控制挑战。传统的运筹优化算法&#xff08;如 Dijkstra、A* 或 VRP 求解器…

作者头像 李华
网站建设 2026/4/18 8:33:27

AI辅助数据分析系统

1. 项目概述 AI辅助数据分析工具是一款基于Python开发的智能数据分析平台&#xff0c;通过自然语言交互实现自动化数据处理、分析和可视化。该工具旨在降低数据分析门槛&#xff0c;让非技术人员也能轻松进行复杂数据分析&#xff0c;提高数据分析效率和决策质量。 1.1 项目定…

作者头像 李华
网站建设 2026/4/16 16:50:58

图解说明Proteus中两种蜂鸣器的接线与驱动方式

两种蜂鸣器在Proteus中怎么接&#xff1f;有源和无源到底有何区别&#xff1f;你有没有遇到过这种情况&#xff1a;在Proteus里搭好电路&#xff0c;代码也写得没问题&#xff0c;可蜂鸣器就是不响&#xff1f;或者明明想让它“嘀”一声&#xff0c;结果却发出一阵怪音&#xf…

作者头像 李华