Stata实操：用PSM搞定论文里的内生性问题，从数据清洗到结果解读保姆级教程-程序员充电站

Stata实战：用PSM方法破解论文内生性难题的全流程指南

当你熬夜赶论文时，是否遇到过审稿人这样的灵魂拷问："对照组和处理组的基线特征存在显著差异，如何证明结果不是由混杂因素导致的？"这种场景下，倾向得分匹配（PSM）就像学术道路上的瑞士军刀。但真正实操时，从数据准备到结果解读的每个环节都暗藏玄机。本文将带你拆解PSM在Stata中的完整实现路径，避开我曾在审稿中遇到的9个致命错误。

1. 识别PSM的适用场景：何时该亮出这张王牌

内生性问题如同研究设计中的隐形地雷，常见于观察性研究而非随机对照试验。上周审阅的一篇劳工经济学论文中，作者比较了职业培训对收入的影响，但未处理自选择偏差——更积极报名培训的人可能本身能力较强。这时PSM的价值就凸显出来了。

判断是否采用PSM的三大黄金标准：

非随机分组：处理组与对照组的分配机制存在自选择（如企业是否上市由管理层决定）
可观测混杂：存在同时影响处理变量和结果变量的观测变量（如年龄、教育程度）
样本量充足：处理组与对照组样本比例建议不超过1:4，否则匹配质量骤降

注意：PSM只能平衡可观测变量的分布，对于不可观测的混杂因素（如个人能力、企业文化），仍需借助工具变量等其他方法。

下表对比了常见的内生性处理方法适用条件：

方法	所需假设	数据要求	解决的内生性类型
PSM	条件独立假设	大样本、可观测协变量	选择偏差、遗漏变量
工具变量	外生性、排他性	有效工具变量	测量误差、遗漏变量
DID	平行趋势假设	面板数据	时间不变混杂因素
断点回归	局部随机性	清晰断点阈值	选择偏差

2. 数据预处理：被90%初学者忽视的关键步骤

去年协助一位公共卫生博士生分析医疗政策效果时，原始数据中缺失值处理不当直接导致PSM结果完全失真。数据清洗的质量往往决定匹配的成败。

2.1 数据结构的生死线

处理变量：必须是二分类（0/1变量），如generate treated = (group == "实验组")
协变量选择：应包括所有理论上影响处理分配的变量。经济学论文常漏掉地区虚拟变量

缺失值处理：推荐多重插补法而非简单删除：

mi set wide mi register imputed age income mi impute chained (regress) age (logit) income = i.education, add(5)

2.2 协变量平衡性预检

运行匹配前务必检查基线差异，这段代码能生成期刊要求的平衡表：

foreach var of varlist age educ income { ttest `var', by(treated) estpost ttest `var', by(treated) est store `var' } esttab age educ income using balance.rtf, cells("mu_1(fmt(2)) mu_2(fmt(2)) b(fmt(2)) p(fmt(4))") /// mtitle("处理组均值" "对照组均值" "差异" "P值") replace

3. 核心匹配操作：参数组合的智慧

psmatch2命令看似简单，但参数组合如同烹饪火候，细微差别影响全局。最近复现一篇顶刊论文时，发现作者通过调整卡钳值使结果变得显著——这引出了学术伦理问题。

3.1 匹配方法选型策略

最近邻匹配：适合对照组样本丰富时（1:4匹配效果更稳健）
```
psmatch2 treated age educ, logit neighbor(4) caliper(0.2) common
```
核匹配：小样本情况下的首选，但计算量较大
```
psmatch2 treated age educ, kernel bw(0.06) trim(5)
```
半径匹配：我的个人推荐，平衡效果与效率
```
psmatch2 treated age educ, radius caliper(0.25)
```

3.2 卡钳值设置的秘密

卡钳值相当于匹配的"宽容度"，经验法则：

计算倾向得分的标准差：sum pscore if treated==1
取标准差的20%-25%作为初始卡钳值
通过敏感性分析确定最优值（如下表示例）：

卡钳值	匹配对数	标准化偏差(%)
0.05	120	8.7
0.10	185	5.2
0.15	203	4.9
0.20	210	12.3

4. 匹配质量检验：三道防线确保结果可信

审稿人最常质疑的部分就是匹配效果。曾有位作者在rebuttal中因无法解释核密度图的重叠问题而被拒稿。

4.1 平衡性检验的实战代码

pstest age educ income, both graph graph export balance.png, width(1200) replace

判断标准：匹配后所有变量的标准化偏差应<10%，t检验p值>0.1

进阶技巧：对连续变量进行分位数检验：

qplot age, over(treated) by(_matched) /// title("匹配前后年龄分布对比") /// xtitle("年龄百分位数") ytitle("数值")

4.2 共同支撑域的视觉化呈现

psgraph, title("共同支撑域检验") /// xline(0.2 0.8, lpattern(dash)) /// text(0.85 0.5 "共同支撑域", size(medium))

红线区域应包含足够样本量（建议>80%处理组样本）
若大量样本落在支撑域外，考虑放宽卡钳值或增加协变量

5. 结果解读与论文呈现技巧

匹配后分析才是真正的战场。最近审稿遇到一个典型错误：作者直接比较匹配样本的均值差异就下结论，忽略了回归调整的必要性。

5.1 双重稳健估计的实现

teffects psmatch (re78) (treated age educ, logit), atet tebalance box

ATT解释："处理组的平均处理效应"，在政策评估中最常用
结果报告三要素：效应值、标准误、置信区间

5.2 论文表格的规范呈现

下表是顶刊常用的结果报告格式：

变量	匹配前差异	匹配后差异	ATT(SE)
收入	1794.34**	1410.59	1285.73*
(634.21)	(839.52)	(692.41)
样本量	445	196	196

提示：在Stata中可用esttab命令自动生成出版级表格：
esttab using results.tex, cells(b(fmt(2)) se(par fmt(2))) /// star(* 0.1 ** 0.05 *** 0.01) label replace

6. 当PSM结果不显著时的七种武器

遇到结果不显著别急着放弃，去年帮助一位客户通过以下排查清单找到了问题根源：

协变量选择不当：遗漏关键变量？尝试加入滞后变量或交互项
匹配质量不足：重新检查平衡性，尝试不同匹配方法组合
样本重叠度低：检查共同支撑域，考虑trim极端值
```
psmatch2 treated age educ, common trim(5)
```
处理效应异质性：分样本回归看是否存在子群体效应
```
teffects psmatch (re78) (treated age educ), atet subgroup(educ>12)
```

模型设定错误：尝试非线性PS模型：

glm treated c.age##c.educ, family(binomial) link(probit) predict pscore2 psmatch2 treated, pscore(pscore2) caliper(0.1)

测量误差干扰：对关键变量进行缩尾处理
```
winsor2 income, replace cuts(1 99)
```
真正的零效应：这可能是最痛苦但最真实的发现

在最近的一个企业创新研究中，通过方法4发现PSM不显著的原因是政策仅对大型企业有效。分样本分析后得到了显著结果，最终论文被A刊接收。

Stata实操：用PSM搞定论文里的内生性问题，从数据清洗到结果解读保姆级教程