首页 理论教育社会科学方法:定量分析基本原则

社会科学方法:定量分析基本原则

【摘要】:许多偏爱定量方法论的人士已经讨论了一些基本的原则[28],告诫我们在从事定量研究时不要犯一些根本性的错误。第六,弄懂定量方法背后的基本逻辑。定量方法最核心的问题可能并不是具体的操作技巧,而是理解一类方法的基本核心逻辑。只是一个个自变量独立的回归模型越来越受到质疑,因为绝大部分社会结果都是多个因素相互作用的结果。

许多偏爱定量方法论的人士已经讨论了一些基本的原则[28],告诫我们在从事定量研究时不要犯一些根本性的错误。以下的讨论中,有引用的地方表明笔者发展了既有的一些讨论,或者只是强调;而非引用的观点则基本上是笔者认为目前的许多定量研究方法讨论还没有注意到或者强调不够的地方。

第一,也是最重要的,无论使用何种方法,一个研究者都必须对他想研究的问题有确实的了解。比如对国内战争的延续,特别是关于族群政治延续的许多研究都是那些对战争没有基本了解的所谓的“冲突专家”做的。而因为度量的便利,这些研究通常只有“结构”因素,而没有人的因素。这些人士恐怕基本不知道支撑一场战争有多难,也没有几个人真正读过克劳塞维茨的著作、《孙子兵法》、毛泽东的著作。又比如最近很时髦(而且几乎都发表在顶尖杂志)的“基因社会科学”,其实都是一堆不懂得从基因到人的行为,以及社会结果之间有如此长的距离,而完全“让数据说话”造就的垃圾,最后都会成为学术界的笑话(见第一章的讨论)。

第二,基于对研究问题的深入了解,以及对文献的良好把握,发展出一个好的理论。这个问题笔者在其他文章中已经详细讨论过,此处不再赘述。再强调一次,为了约束自己,也为了读者读起来一目了然,笔者认为,所有的理论都必须有从起初状态到结果的、带箭头的导向图(directed graph)。这个导向图还必须同时包含因素和机制,甚至时空约束。

第三,千万不要想用定量分析来解决一切研究问题。这是笔者希望大家多学一些不同类别的方法的核心原因。事实上,如果你只想用定量分析来解决研究问题,你很容易犯以下错误:

(1)你会忘记,某些问题几乎不可能用统计技巧解决。[29]

(2)成为数据(集)的囚徒,没有数据(集)就没有研究。有些问题可能没有现成的数据,也有可能不会有可靠的数据,或者至少不会有特别好的能用于回归的数据。

(3)对文献过于挑剔。比如可能对一部分文献很熟悉(特别是定量的),但是对其他的研究,或者不依赖定量技术的研究不够熟悉。

(4)太想快速发表文章,而对理论化,以及数据质量等问题重视不够,欲速而不达。

第四,忠于你的理论,以及从理论推导出来的实证假说。

第五,拿到数据后,不要直接就去“跑”回归,最好先通过描述性统计对数据有基本的了解。

第六,弄懂定量方法背后的基本逻辑。定量方法最核心的问题可能并不是具体的操作技巧,而是理解一类方法的基本核心逻辑(尽管不是我们每一个人都能完全弄懂背后的数学推导)。

(1)比如不能用两个类别变量或者级别变量,或者一个类别变量、一个级别变量做交互项(interactive)。这背后的逻辑很简单,这样做出来的交互项很多时候都是“混淆不同类别”(categorical conflation)。[30]

(2)许多人士认为,稳健性检验主要是通过加入更多的控制变量,因为怕遗漏了许多应该控制的变量。但是这种不假思索的、对遗漏变量的恐惧事实上是一个幽灵威胁(phantom threat)[31]。只有当遗漏变量有可能影响因变量的时候,才是必须控制的,特别是这些变量可能是竞争性理论的核心自变量时。如果遗漏变量影响自变量,这个变量可能是一个更深层的变量,它就不能被当成普通的控制变量使用。如果一个变量是“传导(mediating)变量”或者是“调节(moderating)变量”,也不能被当成普通的控制变量使用。

第七,弄懂特定定量技巧背后的逻辑和特殊要求。一些特定的技巧有特定的假设,而这些假设是否成立需要验证。比如生存分析(survival analysis)的模型就有许多需要检验的假设,不能拿到数据后不假思索地做回归分析。

第八,最后才是具体的操作。笔者推荐以下五个基本的步骤:这些步骤让你自己和读者都能更加直观地理解你的回归结果。

(1)先来一个最简洁的模型[32]:核心自变量,最好单独做一个回归,除非一些控制变量是理论上必须控制的。比如以人均国内生产总值增长率[无论是政府和社会资本合作(PPP)、常数(constant),还是现行价格(current price)]为因变量的经济增长回归模型,必须控制人口增长率、起始人均国内生产品总值(GDPpc)、资本投资率。

(2)考虑到数据背后的时空问题。没有时空,就没有社会事实和自然事实。但是,对于时空这两个极其重要的变量,目前绝大部分的定量和定性研究都没有特别好的把握,甚至都没有意识到这个问题。麦克唐纳对“民主和平论”的挑战是最近少数的例外,他的这项工作不仅充分考虑到了时空的作用,而且有非常好的理论化。[33]

(3)充分考虑到不同自变量之间的相互作用。只是一个个自变量独立的回归模型越来越受到质疑,因为绝大部分社会结果都是多个因素相互作用的结果。因此交互项变得越来越流行起来。做交互项时最好采取如下方式。假定有两个自变量A和B,它们可能相互作用而导致结果,那么你应该给出以下的回归模型和结果:A;B;A+B;A,B,AB(最后这个才是标准的交互项模型)。这样的结果将会是非常清晰的,即使你在最终的论文或者书稿中不报告前面的三个模型结果,你也应该这么做。不过如果你的理论强调三个以上变量的相互作用,那么交互项的技术恐怕也不适合,因为三个以上变量的相互作用的回归结果非常难解。

(4)充分考虑到不同自变量之间的不同的“因果路径”(causal pathways),并且测试这些不同的“因果路径”。这方面的具体工具非常多,不再赘述。

(5)最好,甚至必须有赛马模型(horse-race model),即把你的解释变量和其他竞争性解释理论的核心解释变量放在一起相互竞争。这里要特别强调,基于其他竞争性解释理论的核心解释变量不是常规意义上的控制变量。如果你的变量依旧显著,而其他竞争性解释理论的核心解释变量不再显著,那么你的结果会更加可靠一些。没有控制竞争性理论的核心解释变量的回归结果,至少是不尽如人意的。