stata陈强习题第七章7.2和7.3第八章8.3第十章10.5和10.6-程序员充电站

7.2do命令

异方差检验之前先估计方程

接着bp检验

显著性<0.05，拒绝原假设，说明存在异方差。

使用解释变量进行检验，在option中加入rhs,显著性<0.05，拒绝原假设，说明存在异方差。

怀特检验，显著性<0.05，拒绝原假设，说明存在异方差。

7.3do命令

异方差的核心特征是 “扰动项的方差随解释变量（此处为周收入）的变化而变化”。从图中可见：随着周收入（横轴）增加，食品支出（纵轴）的散点离散程度逐渐扩大（收入低时散点集中，收入高时散点更分散）—— 这说明 “食品支出围绕拟合线的波动幅度随收入上升而增大”，符合异方差的表现。

异方差与收入呈正相关：收入越高，食品支出的波动（方差）越大。

下面进行回归，bp检验和怀特检验

显著性<0.05，拒绝同方差的原假设，存在异方差。

新的拟合图，看起来可能不存在异方差

显著性>0.05，接受同方差的原假设，不存在异方差。

8.3do命令

lincome

系数符号：正（1.095874）

显著性：在 1% 水平下显著（P>∣t∣=0.000，t=14.10）

经济意义：收入每增加 1%，被解释变量lgasq平均增加约 1.10%，说明收入与lgasq呈显著正相关，符合 “收入提升带动相关需求 / 规模扩大” 的经济直觉。

lgasp

系数符号：负（-0.0212072）

显著性：不显著（P>∣t∣=0.630，t=−0.48）

经济意义：该变量与lgasq的负相关关系未通过统计检验，无法认为其对lgasq存在显著影响。

lpnc

系数符号：负（-0.3736126）

显著性：在 5% 水平下显著（P>∣t∣=0.021，t=−2.38）

经济意义：lpnc每增加 1%，lgasq平均减少约 0.37%，说明该变量与lgasq呈显著负相关，可能代表 “替代商品价格” 等抑制lgasq的因素。

lpuc

系数符号：正（0.020343）

显著性：不显著（P>∣t∣=0.847，t=0.19）

经济意义：该变量与lgasq的正相关关系未通过统计检验，无法认为其对lgasq存在显著影响。

_cons（常数项）

系数符号：负（-21.21109）

显著性：在 1% 水平下显著（P>∣t∣=0.000，t=−28.16）

经济意义：代表所有解释变量为 0 时lgasq的基准水平，但因解释变量是对数形式，实际经济含义需结合变量定义理解（通常是模型的基准截距）。

自相关（序列相关）是指 “不同观测值对应的残差之间存在关联”，核心是看 “残差是否随观测顺序呈现某种趋势或周期性波动”。

当期残差（纵轴）与滞后一阶残差（横轴）呈现明显的正相关趋势（散点沿红色拟合线向右上方分布）。

et 与 et−1 正相关，即存在一阶正自相关（前一期残差为正，当期残差更可能为正；前一期残差为负，当期残差更可能为负）。

残差与其滞后一期和滞后二期的相关系数位于置信区间外，则说明拒绝原假设，即残差与其滞后一期和滞后二期具有相关性。

bg检验，显著性<0.05，拒绝无自相关的原假设，说明误差项存在二阶序列相关。

q检验，显著性<0.05，拒绝无自相关的原假设，说明误差项存在二阶序列相关。

默认滞后项的Q检验，默认滞后阶数为min{floor(n/2)-2, 40}，由于n=52，则floor(n/2)-2=24，则自由度为24。显著性小于0.05，拒绝无自相关的原假设。

DW统计量距离0比较近，可以大致推断存在正相关

DW≈2：残差无一阶自相关；
0<DW<2：残差存在正一阶自相关（DW 越接近 0，正自相关越强）；
2<DW<4：残差存在负一阶自相关（DW 越接近 4，负自相关越强）；

co法，dw值改进到1.61,误差项不存在自相关性

pw法，dw值改进到1.62,误差项不存在自相关性

L.lgasq显著

bg检验，显著性>0.05，接受原假设，说明该方程扰动项不存在自相关性

q检验，显著性>0.05，接受原假设，说明该方程扰动项不存在自相关性

10.5do命令

1.avexpr（制度质量类变量，如产权保护指数）

系数符号：正（0.4678871）

显著性：在 1% 水平下显著（P>∣t∣=0.000，t=7.46）

经济意义：avexpr每提高 1 单位，人均 GDP 对数平均增加约 0.47。说明制度质量（如产权保护、契约执行效率）与经济发展呈显著正相关，符合 “良好制度促进经济增长” 的理论预期。

2.lat_abst（纬度绝对值，通常反映地理区位特征）

系数符号：正（1.576884）

显著性：在 5% 水平下显著（P>∣t∣=0.018，t=2.42）

经济意义：纬度绝对值每增加 1 单位，人均 GDP 对数平均增加约 1.58。这一结果通常反映 “中高纬度地区（相对低纬度）可能因气候、资源等条件更有利于经济发展” 的经验规律（需结合具体研究背景理解）。

3._cons（常数项）

系数符号：正（4.728082）

显著性：在 1% 水平下显著（P>∣t∣=0.000，t=13.85）

经济意义：代表当avexpr和lat_abst为 0 时，人均 GDP 对数的基准水平，是模型的截距项

工具变量回归结果中lat_abst系数不显著

从第一阶段看，工具变量legem4满足相关性条件（与内生变量avexpr显著相关）；结合理论逻辑（legem4通常代表法律起源，与人均 GDP 无直接关联），可认为其满足外生性条件（工具变量与扰动项无关）。因此，该工具变量是有效的。

根据2SLS第一阶段输出结果显示，F统计量为10.41，略大于10，且logem4的系数t检验结果显著，说明logem4不是弱工具变量。

10.6do命令

morekids的系数为-6，则说明有两个以上小孩的妇女比有两个小孩的妇女工作更少。平均一年少六周，该效应在统计上显著

这个回归不能可靠估计生育行为（morekids）对劳动力供给（weeks）的因果效应，核心原因是存在内生性问题。要估计生育行为对劳动力供给的因果效应，需解决morekids的内生性问题（例如使用工具变量，如 “生育双胞胎” 这类外生冲击作为工具变量），仅用 OLS 回归无法得到可靠的因果结论。

头两个孩子性别相同会影响是否可能生第三个小孩，但效应不大，在统计上显著。

samesex可以作为morekids的有效工具变量，核心原因是它满足工具变量的两个核心条件：

1. 满足 “相关性条件”：工具变量与内生变量相关

从回归结果可知，samesex对morekids的系数为 0.0668，且在 1% 水平下显著（P>∣t∣=0.000），说明 “前两个孩子性别相同” 与 “生育更多子女” 存在显著的统计关联 —— 这满足工具变量的相关性要求（工具变量需与内生变量相关）。

2. 满足 “外生性条件”：工具变量与扰动项无关

从理论逻辑看，“前两个孩子的性别” 是随机的自然结果（不受家庭的生育偏好、劳动力供给意愿、经济条件等未观测因素影响），因此samesex仅通过影响 “生育更多子女的概率” 间接作用于劳动力供给（weeks），不会直接影响劳动力供给本身 —— 这满足工具变量的外生性要求（工具变量需与被解释变量的扰动项无关）

第一阶段回归（工具变量samesex对内生变量morekids的回归）的F(1, 29998)=143.15，远大于单工具变量场景下弱工具变量的经验临界值（通常为 10）

morekids（生育更多子女）的系数为 -6.033，结合变量定义（weeks是工作周数），其经济意义是：“生育更多子女的家庭，劳动力供给的工作周数平均减少约 6.03 周”。

P>|z|=0.108，生育行为对劳动力供给的效应在统计上不显著

工具变量 samesex 的有效性依赖于“仅通过影响 morekids 来影响 weeks ”（即满足“排他性约束”）。而 age 、 black 等控制变量是外生变量（与误差项无关）

加入这些外生控制变量后，核心因果效应的估计结果不会发生实质性变化，因为它们不影响工具变量 samesex 的有效性，仅起到“清理外生混杂因素”的作用。