首页 理论教育数据可靠性的概念、度量和整体质量分析

数据可靠性的概念、度量和整体质量分析

【摘要】:大体说来,数据的可靠性主要由三个方面决定:概念化、具体的度量操作,以及整体的数据质量。比如你要调查中国公民对日本作为一个国家的态度,问卷调查的数据恐怕都是不可靠的,无论你是面对面调查还是通过电话,或者是互联网。比较可靠的度量可能是:某一个地区的日系汽车销售量、保有量,以及这个地区去日本旅游的绝对人数和相对比例。

任何研究结论的可靠性都至少部分取决于它使用的数据的可靠性:再复杂的方法也无法从根本意义上解决数据质量的问题,而数据质量的问题不仅仅是缺失值的问题。大体说来,数据的可靠性主要由三个方面决定:概念化、具体的度量操作,以及整体的数据质量。比如芭芭拉·格迪斯(Barbara Geddes)对威权政体的分类存在概念性的分类错误,所以是不能直接用的。[25]

某些东西可能无法通过问卷度量,或者用问卷度量得到的结果是高度偏差的。比如你要调查中国公民对日本作为一个国家的态度,问卷调查的数据恐怕都是不可靠的,无论你是面对面调查还是通过电话,或者是互联网。比较可靠的度量可能是:某一个地区的日系汽车销售量、保有量,以及这个地区去日本旅游的绝对人数和相对比例。而在做回归分析的时候,至少需要控制以下变量:是否遭遇过抗战的战火,是否遭到过日本残酷的大屠杀、大洗劫、“三光”政策,日本占领时间,是否有日系汽车合资企业、人均国内生产总值、离海岸线的距离等。事实上,笔者认为民众在表达自己的政治社会观点时会有所顾忌,所获得民意数据是值得怀疑的,因此基于这些数据之上的实证研究的结果和价值都是值得怀疑的。

不是所有的数据集都可以拿来直接运用,因为这些数据集本身可能有非常严重的问题。比如世界治理指数(World Governance Index)就是一个有大问题的数据集。类似有大问题的数据集还包括著名的“世界价值观调查”(World Value Survey)。

某些数据集则包含了太多不相干的观察(irrelevant observations or cases)。直接运用这样的数据获得的统计结果通常会高估某些因素的显著性。因此这样的数据集不可以拿来直接运用,而是需要对样本进行细致的截取和挑选。这方面,麦克唐纳最近对“民主和平论”的统计证据的攻击值得大家好好学习。[26]