查看原文
其他

辛涛,李峰 :社会科学背景下因果推论的统计方法 | 站在前人肩膀上

辛涛,李峰 刘西川阅读写作课 2023-10-24

“欢迎点击上方⬆️ “刘西川阅读写作课” 添加关注”

社会科学背景下因果推论的统计方法

辛涛,李峰 (北京师范大学发展心理研究所,北京 100875)

【摘要】如何根据非随机数据估计变量间的因果关系是社会科学研究中一个迫切的方法论问题。上世纪 70 年代,Rubin 等人指出因果问题本质上是一个反事实的问题,认为某些统计方法可保证混淆变量和分组安排独立,并将这种方法推广到观察数据的分析中。倾向分数、工具变量和回归间断点是三种常用的方法,其中倾向分数居核心地位。以实际数据为例建立计算倾向分数的 logistic 模型,报告了模型的整体检验、预测变量的显著性检验和多重共线性检验、建立匹配组和分析结果报告。

【关键词】因果推论;观测数据;倾向分数;工具变量;回归间断点


一、因果关系的哲学探讨

因果问题是一个历久弥新的哲学和方法论问题。早期,人们观察原因和结果之间的表面联系进行因果推论,比如恒常会合(const ant conjunc tion)、时间顺序。亚里士多德指出,“那些现实地起作用的,特殊的原因,是和它们的结果同时存在并且同时停止存在的” (P136)。但是,人们也认识到多次的共同出现和共同缺失可能是因果关系,也可能由于共同的原因或其他因素在起作用。奥卡姆从归纳法的角度指出,如果在有 A 的情形下出现 B,没有 A 的情形下就没有 B,那么 A 很可能是 B 的原因,但是也可能其他未能预料到的因素在起作用,所以,应对大量的事例进行比较,以便提高判断的可靠性【2】 (P175- 176)

12 世纪,牛津大学的首任校长格罗斯泰斯特把操纵和控制的概念引入到因果推论中,认为必须在一个受控的实验内对预期的结果进行观察,以验证其正确性【2】。H olland 总结了哲学和自然科学、社会科学的大量讨论【3】,认为进行因果推论应满足以下标准:1. 因果的相对性,研究者总是在用原因 A 去和原因 B 比较,来确定 A 是否起作用;2 因果的操纵性,原因应该是可以操纵的;3 原因出现在结果前,一般来说,原因出现在结果前,但不是一条必要的标准,过年前的购物高潮,结果就出现在原因前;4 消除潜在的影响,要解释-个特别原因会有什么样的结果,就需要把其他可能影响结果的原因排除掉,但这是非常困难的,“不论控制和分析多少混淆变量,人们总是在想,是否还有重要的混淆变量被忽略了”【4】。

二、实验条件下的因果推论

Holland 提出两种解决因果问题的方案【3】:科学的解决方案和统计的解决方案,前者主要包括重复实验和随机分组实验。重复实验是让一组被试先后经历处理条件和控制条件,比较前后两次的结果是否有差异,并据此作出因果判断。这种方法需要满足两个假设,一是被试在前后两次的反应是稳定的,二是被试经历的前一阶段的处理效应是短暂的,不影响被试在下个条件下的反应。随机分组实验则把随机选取的被试再随机分成两组,一组经历处理条件,另一组接受控制条件,然后比较两组的结果是否有差异。这种方法要求两组被试同质,即使存在差异也不应影响结果。

Rubin 仔细分析了实验条件下的因果问题,认为这是一个反事实(counter fact)的间题列,很多研究者。如 Holland、Manski、Manski 和 Nrgin、Heckman 和 Hotz、谢宇의等都对这一方法进行了细致的讨论。以 1970 年沃林顿和韦斯克兰茨对遗忘症患者的记忆测验为例,他们让遗忘症患者和控制组被试学习许多由 24 个词组成的词表,然后用不同方式对他们的记忆情况加以测量,发现在传统的外显的自由回忆测验中,遗忘症患者比控制组被试回忆出的项目要少得多。在这个例子中,根据总的期望规则(tot al expectation rule):



假设一:遗忘症患者如果记忆未受损和控制组被试所能回忆项目的数量是相当的:


假设二:控制组被试如果记忆受损和遗忘症患者所能回忆项目的数量是相当的:

有了这两个假设以后。总期望规则就变成:

若上述两个假设合理。容易得到遗忘症和外显记忆水平间的因果关系。但是,由于很多遗忘症都是由于酒精依赖造成。而酒精依赖多发生在低收入群体和受教育水平比较低的群体中。所以遗忘症患者即使记忆未受损,其所能回忆项目的数量可能也会低于控制组被试。即,研究者高估了遗忘症和外显记忆水平间的关系。Rubinl]1이认为如果要满足上述两个假设,就要对那些认为影响因果效果的变量进行匹配。, 保证这些变量和分组安排独立其中最重要的统计方法就是倾向分数(propensity score) 。

三、对观测数据进行因果推论

尽管实验研究通过操纵和控制实验条件,随机分组或对被试进行匹配,可以作出有效的因果推论。但由于道德、花费或者处理效果的延迟等,实验研究并不能涵盖研究者感兴趣的所有领域,难以真正随机选取被试,实验条件一真实情境间的差异也带来对外部效度的质疑;另一方面,近半个世纪以来,由于心理测验、教育测量的长足进展和科学调查的日益普及,研究者手头常常有大量的观察数据可用,如何根据非随机数据估计变量间的因果关系成为一个迫切的方法论问题。

和实验研究相似,对观测数据的分析也应使用统计方法对可能影响因果效果的变量进行匹配,保证这些变量和分组安排独立【3】。一些研究机构或学术团体已经组织专家讨论心理学教育学领域因果研究的规范,如 the Institution of Education Scrences (ES),the N at ional Science Foundation (NSF), the National Academy of Science' s National Research Council (NRC),并且出台了指导性的文件【11】。下面介绍三种得到广泛应用的统计模型:

1. 倾向分数(propensity score)

以往研究中常见使用协变量(特征变量)对被试进行控制或匹配,但是若在大样本数据中存在多个协变量,匹配就变得非常困难,倾向分数可同时调整多个协变量或混淆变量,保证处理组和控制组的可比性。给定特征变量(xi), x 划分到处理组(zi= 1) 或控制组(zi= 0) 的条件概率可以表达为:

得到倾向分数后有三种处理方法:

a 直接将倾向分数作为协变量引入模型;

b 按照倾向分数将全部观察对象分层,每层内部的倾向分数均无显著差异,在每层内部分析结果变量和分组变量间关系;

c 从处理组逐次选出个体,并从控制组中找出和其倾向分数接近的全部个体,再从中随机抽取一个或多个;依次抽取,直至符合选择标准的观察对象全部被抽取,然后对匹配好的样本进行分析。目前可见被提及的匹配方法包括近邻法(n earest neighbor)、半径法(radius)、马氏距离法(mahak anobis distance)和核法(kernel)。

2. 工具变量(instrum ental variable)

若存在一个与自变量有关,和被忽略变量无关,且和因变量的关系是通过自变量发生的变量,此变量可作为工具变量。在统计。上使用两阶段最小二乘法实现(2 SLS),首先用工具变量和其他的协变量预测自变量,如果工具变量和忽略变量无关,那么对自变量的预测值也和忽略变量无关,这样就消除掉了忽略变量的影响;再用第一阶段的预测值对因变量进行回归,得到了一个相对“纯净”的结果。例如,有研究者希望了解教育年限对收入的影响,为避免认知能力对收入的影响,可将出生年月作为工具变量,因出生年月和教育年限有关,但和认知能力无关。这种方法面临的主要困难是找到一个满足条件的工具变量。

3. 回归间断点(regression discontinuity)

如果研究者要考察学生的阅读成绩对数学成绩的作用,但是阅读和数学能力又都受一般认知能力的影响,这种情况下,可以采用回归间断点的方法。先在阅读成绩中,确定一个分数线,选择刚刚,超过这个分数的一部分学生和刚刚低于这个分数的一部分学生,然后再比较两组学生的数学成绩。

四、使用倾向分数进行因果推论的一个例子

在观测数据中,对于处理组的每一个被试,都可找到在倾向分数上最接近的一个控制组被试与之匹配,研究者可以像对待实验数据那样处理观测数据,变量间的因果关系十分清晰,因此,倾向分数在观测数据的因果推论中居于中心地位【10】。下面将举例说明倾向分数在因果推论中的应用。

上世纪末,独生子女和非独生子女在自尊、成就动机、社会交往、学校成绩等方面差异的研究多认为独生子女在自尊水平和成就动机方面比非独生子女高,在学校中的成绩更优异,对中国独生子女的研究显示,他们在心理素质和学习成绩方面有明显的优势 14]。资源稀释的观点认为独生子女比非独生子女能获得更多的学习资源和亲代关注,其认知能力和学业成绩要好于后者。也有观点认为,独生子女多出生在城市,欺母多为行政、事业单位或大中型国有企业的工作人员,非独生子女多出生在农村,其父母多为无“单位”人员,二者的差异只是反映了家庭社会经济地位的差异。本例以是否独生子女为自变量,以数学成绩为因变量检验资源稀释的观点(数据来自某次大规模教育评价)。

根据以往研究和对数据的预分析,选取和独生子女 1 非独生子女状况相关的五个特征变量(性别、城乡、省份、家庭社会经济地位和亲子关系,其中,性别、城乡、省份是分类变量)对分组变量做 logis tic 回归,得到事件概率的估计值。在 logistic 回归的实际研究中,为了取得线性表达的形式,通常根据 logistic 函数的表达式报告自变量对对数发生比(logit p)的作用【12】,并以 logit p 为倾向分数。p 和 logit p 之间有正向关系,p 的值在 0 至 1 之间取值时,对应的 logit p 从负无穷到正无穷。


在本例的四组数据中,Radius 法得到的样本数量约为 Nearest neighbor 法的两倍,在三种差异标准上都有显著差异,Nearest neighbor 法则没有显著差异,就匹配方法而言,Ne ear est neighbor 法的匹配比 radius 法更精确,结果也更可靠,且四种方法对变异的解释都没有超过千分之五,n 均小于0.005。

五、因果推论统计方法的局限和应用

Rubin 指出,统计方法可以减少,但不能完全消除混淆变量对结果的影响【5】,所以对于社会科学来说,如果在随机实验和匹配非随机研究之中选择,应该选择随机实验的数据。可用于因果推论的统计方法也都有各自的局限和缺点,倾向分数要求数据中包含比较多的特征变量,生成配对的方法复杂,不易为一般研究者掌握;很多观测数据中无法找到合适的变量充当工具变量;回归间断点只能同时考察两个变量间关系。但是这些方法提供了对观察数据进行因果推论的有效方法,是 Duncan 和 Magnus 口中的“纯正的有解释力的‘结构’模型”应该在社会科学研究中得到更广泛的应用。

免责申明本文仅用于学术交流,版权归原作者和原发刊所有,转载请注明出处。如果我们的行为侵犯了您的权益,请及时联系我们,我们将会妥善处理该部分内容



往期推文

 


———

刘西川阅读写作课


希望通过

课程内容学习、刻意训练以及对前人经验的借鉴和吸收,

切实提高年轻朋友的阅读与写作能力。

主推三个栏目:

文献阅读与习作课程、个人原创和站在前人肩膀上。

该号由浙江理工大学刘西川副教授负责的研究团队维护,

希望广大本科生、研究生朋友关注和加入。


/ 文心雕龙 /

———



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存