老姚专栏丨辛普森悖论、异质性与DID模型

Original 姚耀军杨奇明数据Seminar 2022-12-31

收录于合集

编者按：

本文为老姚专栏的原创文章，已经全文在《经济资料译丛》刊发。之所以投稿正式刊物，是因为笔者认为本文具有一定的原创性，对青年朋友学习和理解相关问题具有启发价值。因此正式发表之后，再次推荐给大家。感谢《经济资料译丛》编辑部的肯定和支持。

摘要：小学男女生学习成绩的异质性可能导致班级间按性别分组的成绩排名和汇总成绩排名相悖。通过这一例子，本文引出了著名的辛普森悖论。处理效果的异质性与处理的非随机分配是辛普森悖论出现的两个必要条件。按照计量经济学原理，辛普森悖论本质上属于模型设定时未控制异质性而产生的遗漏变量偏误，可以借助 DID 模型加以解决。

1. 从张老师的烦恼说起

小学期末考试成绩出来了，学校对每个班的成绩进行综合排名，而张老师为此烦恼不已——在他担任班主任的班级，男生的平均成绩与女生的平均成绩均在全年级排名第一，但在综合排名中，该班却排名居中——也就是说，在各个分组比较中均占据优，却在综合评估中失势。其实，如果这位张老师学过统计学，就不会对此感到奇怪，因为这是一个被称为辛普森悖论的著名统计现象。

关于成绩排名的辛普森悖论，根源于男女生成绩的性别异质性——小学阶段的女生在心智上比同龄男生更成熟，故学习效果以及学习成绩更好。这种异质性会导致一个班级的学生性别比例对班级平均成绩产生重要影响。因此，当各班级学生性别比例存在明显差异时，基于班级平均成绩进行综合排名其实是不公平的。具体来说，那些女生占比较高的班级显然会在综合评估中占优势，而这显然不能归因于班主任工作贡献的大小。

在现实生活中，异质性无处不在，这是我们无法回避的。那么，究竟该如何控制各种异质性对综合比较的“污染”呢？首先必须对问题本身有深刻的认识。具体来说，我们必须基于理论、常识或者经验，对异质性“污染”综合比较背后的机理加以剖析，进而找到合适的应对方法。

就本文例子而言，问题实际上出在，当初学校在组班时未严格遵循男女生随机分班的原则，以保证每个班级的性别比例基本一致。不幸的，现实中的样本通常不是通过随机分配而产生的。例如，在教学实践中，考虑到学校整体的教学效果，班主任经验越丰富，其管理的班级越可能会被分配更多的男生。在经济学中，这被称为逆向选择；在计量经济学中，这被称为样本自选择。样本选择问题在实证研究中广泛存在，是一个非常重要的研究主题。

那么，我们该如何解决这个问题呢？方法其实很简单，那就是对男女生成绩进行分组比较，还张老师一个“公道”。不过，在更复杂的例子中，解决方案就没有如此简单了：

“

第一，在存在很多异质性的情况下，如何分组是比较麻烦的；

第二，若不进行统计检验，则很多比较结果或许只是偶然的，根本不值得我们严肃对待。

”

因此，我们需要一个具有一般性的解决此类问题的思路，这就是本文要讨论的 DID（Difference-in-Differences）模型。接下来本文将以一个更详细的案例作为模型设定的具体背景，展开对 DID 模型的讨论。

2. 一个更详细的案例

假设一家医学实验室选取若干男性与女性患者作为被试，就某种疾病的新旧两种疗法进行分组对比试验，结果如表 1 所示：

表 1 对比试验结果

表 1 显示，对于男女患者，新疗法的治愈率均低于旧疗法。然而奇怪的是，一旦对两种疗法的实验结果进行汇总，然后再进行综合对比时（如表 2 所示），结论竟然反转，再次产生辛普森悖论。

表 2 疗效汇总表

根据前文案例分析所获得的经验，此处产生辛普森悖论的原因是：第一，每一种疗法的疗效均存在明显的性别异质性——无论是新疗法还是旧疗法，男性治愈率均远高于女性；第二，男性患者主要使用新疗法而女性患者主要使用旧疗法，亦即男女患者没有被随机分配疗法。这两个原因共同导致了一个“不公平”的比较结果，即：新疗法的综合疗效主要由男性患者使用新疗法的疗效所主导，从而向 60% 靠近，为 50%；而旧疗法的综合疗效主要由女性患者使用旧疗法的疗效所主导，从而向 33% 靠近，为 45%。见图 1。

图 1 新旧两种疗法治愈率的比较

在此有必要澄清一下关于随机分配疗法的细节问题。就本文的案例而言，若对每一位被试随机分配疗法，则接受某一疗法患者的性别比例应接近于总样本中患者的性别比例。具体来说，由于总样本中男女性别比为 1:1（400：400），在使用新疗法或者旧疗法的患者中男女患者应接近各占一半，基本上不会出现某种性别的患者“扎堆”使用某种疗法这种现象。需要注意的是，不要将“对每一位被试随机分配疗法”与“对每一种疗法随机分配男女患者”相混淆。在后一种情况下，会出现某些患者没有使用任何疗法的现象。如果研究者预先召集一些患者作为志愿者来参加试验，结果却出现某些志愿者“轮空”的情况，那么这样的实验设计显然是失败的。

不过从根源上看，到底采取哪一种随机分配方式实际上取决于研究的问题：若要研究各种疗法的治愈率差异，则会召集很多患者，并对每一个患者随机分配疗法，而这些患者作为观测单元构成了样本；若要研究患者性别对疗法治愈率的影响，则会收集很多疗法，并对每一种疗法随机分配男女患者，而这些疗法作为观测单元构成了样本。

3. DID 模型

表 1 显示的对比试验结果实际上与如下虚拟变量模型相对应：

在这里，surv 取值为 1 表示治愈，取值为 0 表示未治愈；new 取值为 1 表示新疗法，取值为 0 表示旧疗法；male 取值为 1 表示男性，取值为 0 表示女性；v 为误差项。

通过对虚拟变量赋值，可知：

1）male=new=male·new=0，表示使用旧疗法的女性患者作为参考组，其治愈率等于 0.33，亦即的估计值；

2）male=male·new=0，new=1，表示使用新疗法的女性患者，其治愈率等于 0.2，与参考组的差距为 0.2-0.33=-0.13，亦即的估计值；

3）male=1，new=male·new=0，表示使用旧疗法的男性患者，其治愈率等于 0.8，与参考组的差距为 0.8-0.33=0.47，亦即的估计值；

4）male=new=male·new=1表示使用新疗法的男性患者，其治愈率等于 0.6，与参考组的差距为 0.6-0.33=0.27，亦即的估计值。因此，的估计值等于 0.27-0.47+0.13=-0.07。

综上，式（1）的估计结果就为式（2）：

式（2）具有两方面的含义：

第一，对于每一种疗法，疗效均表现出性别异质性——应用于男性患者效果更好。具体来说，对于旧疗法，疗效的男女性别差异为；对于新疗法，与旧疗法相比，其疗效的男女性别差异有所缩小，缩小的绝对幅度为。因此，新疗法疗效的性别差异为0.47-0.07=0.4。

第二，对于每一种性别的患者，新疗法均劣于旧疗法。具体来说，对于女性患者，新旧疗法的疗效差异为；对于男性患者，与女性患者相比，新旧疗法的疗效差异进一步扩大，扩大的绝对幅度达。因此，新旧两种疗法在男性患者上的疗效差异达到 -0.13-0.07=-0.2。

上述含义表明，对参数估计值有两种解释：第一，它代表了“性别异质性在两种疗法间的差异”；第二，它代表了“新旧疗法疗效差异在男女患者间的差异”。这两种解释的等价性很容易从下式看出：

“

（男性患者新疗法疗效 - 女性患者新疗法疗效）-（男性患者旧疗法疗效 - 女性患者旧疗法疗效）≡（男性患者新疗法疗效 - 男性患者旧疗法疗效）-（女性患者新疗法疗效 -女性患者旧疗法疗效）

”

在这里，恒等号的左右两边分别代表“性别异质性在两种疗法间的差异”与“新旧疗法疗效差异在男女患者间的差异”。因为某种疗法疗效的性别异质性也属于一种差异，所以无论是恒等号的左边还是右边，它们均属于“差异的差异”（Difference-in-Differences）。于是，我们将称为 DID 估计量，将式（1）称为 DID 模型。

为了更好地从模型设定角度来理解辛普森悖论的本质，现在我们再来讨论关于表 2 的模型化处理方式。表 2 所显示的疗效汇总表可用式（3）表示：

通过比较模型（2）与（3）可知，模型（3）遗漏了表示性别变量 male 以及交互项male●new，从而产生一种特殊的内生性问题——遗漏变量偏误。一个颇具启发性的问题是，如果考虑到两种疗法疗效的性别差异，那么我们为何不建立如式（4）这样的模型呢？

答案在于，模型（4）隐含了两个约束性很强的重要假定：第一，每一种疗法疗效的性别异质性均为，无新旧疗法的差异；第二，新旧疗法疗效差异为，无男女患者的差异。根据前文的分析，这两个假定实际上是“孪生”假定，因为其中任意一个假定不成立均意味着另一个假定不成立。从模型的计量经济检验角度看，如果式（2）中交互项 male●new所对应的估计系数具有统计显著性，那么这两个假定就应该被拒绝。

讨论到这里，从模型设定上看，辛普森悖论的本质昭然若揭——它属于模型设定时未控制异质性而产生的遗漏变量偏误。就本文案例而言，在控制异质性时，由于性别异质性在两种疗法间可能存在显著的差异，我们需要考虑对每一种疗法疗效的性别异质性均加以控制，而这正是 DID 模型中交互项的意义所在。

4. 结论性评价

无论是班级成绩综合排名还是对各种疗法的疗效差异进行评估，本质上都是在进行比较分析。在此过程中，只有避免辛普森悖论，才能满足比较的公平性，从而得到可靠的评估结果。辛普森悖论根源于异质性与处理的非随机分配。在现实中，鉴于处理的非随机分配普遍存在，那么如何基于一个具有如此性质的现有样本，来控制异质性对评估结果的“污染”，就成为了一个很重要的问题。

作为解决辛普森悖论的一般性框架，DID 模型不仅体现了观测单元的个体特征会影响处理效果这一事实，而且通过引入交互项，体现了异质性在各种处理间的差异。DID 模型之所以能处理这一问题，就是因为辛普森悖论本质上属于一种特殊的内生性问题——遗漏变量偏误。通过 DID 模型解决辛普森悖论还带来一个额外的启示，即：不是所有的内生性问题都须采用工具变量估计。只要认清了问题产生的根源，解决问题的方案或许很简单，而这也就很好解释下面这个问题，即：为什么 DID 模型这一简洁的方法会成为实证研究工具箱中的利器。

企研学术顾问 · 姚耀军

姚耀军，1976年出生，湖北利川人，浙江工商大学金融学院教授、博士生导师，浙江省高校中青年学科带头人，浙江省首期之江青年社科学者，浙江省“151人才工程”第三层次培养人员，杭州市“十三五”哲学社会科学应用经济学学科组评审专家，企研数据学术顾问。长期从事金融发展理论与实证研究，在《China & World Economy》《Frontiers of Economics in China》《金融研究》《数量经济技术经济研究》《财贸经济》《中国农村经济》等学术期刊上发表论文多篇，部分成果被《新华文摘》《中国法经济学研究》《中国经济的转型升级：新结构经济学方法与应用》《高等学校文科学术文摘》《人大复印资料》收录或者转载。主持教育部人文社科项目、浙江社会科学基金重点项目、浙江省自然科学基金项目等纵向课题多项。荣获中国制度经济学年会优秀论文奖、全国金融硕士教学案例大赛优秀案例奖、浙江省高校优秀科研成果一等奖、《金融研究》优秀论文奖、《财经研究》创刊60周年优秀论文一等奖等荣誉。担任《金融研究》《财经研究》等多个学术期刊的审稿专家。

点击阅读原文，进入新型农业经营主体大数据库

点击搜索你感兴趣的内容吧

往期推荐

机器学习丨决策树VS随机森林——应该使用哪种算法？（附代码&链接）

数据资源丨家庭农场专题数据库（文末有福利）

数据资源丨农民专业合作社专题数据库（文末有数据资源福利）

数据清理丨如何用机构代码唯一识别企业（科普篇）

资讯丨2020年浙江省农业产业重镇建设情况大公开！

点击登录丨新型农业经营主体大数据库展示平台正式上线啦！

软件应用丨Tushare获取数据

数据Seminar

这里是大数据、分析技术与学术研究的三叉路口

作者：姚耀军杨奇明推荐：杨奇明编辑：青酱

欢迎扫描👇二维码添加关注

点击下方“阅读全文”了解更多

一把短刀，怎么就让他连捅18人？！

向杨大市长道歉

向不容妄议的杨市长道歉

以色列搞大了：伊朗说要直接出兵参战

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

老姚专栏丨辛普森悖论、异质性与DID模型

您可能也对以下帖子感兴趣

一把短刀，怎么就让他连捅18人？！

向杨大市长道歉

向不容妄议的杨市长道歉

以色列搞大了：伊朗说要直接出兵参战

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

生成图片，分享到微信朋友圈

老姚专栏丨辛普森悖论、异质性与DID模型

您可能也对以下帖子感兴趣