
定义:辛普森悖论指两个变量X和Y在每个分组中的关系是正(负),但在总体(所有组加总)中关系会发生逆转变成负(正)。
在研究某种药物的疗效时,数据里有两组人:30岁年龄组和40岁年龄组,每组都有服药和未服药的个体。在30岁年龄组中,服药者的平均身体健康指数比未服药者高10;在40岁年龄组,服药者的平均身体健康指数比未服药者高5。但在所有服药者和未服药者的总体数据中,服药者的平均身体健康指数比未服药者的低1.2。这表明在分组数据中,服药和健康指数正相关;而在总体数据中,服药和健康指数负相关。这是为什么呢?哪一种相关性能够反映服药对健康的因果效应?
通过图像来查找造成差异的原因。在30岁和40岁个体的身体状况图中,虚线分别代表了30岁和40岁服药者与未服药者的平均身体健康指数。虚线的斜率均正,说明在分组数据中,服药者与健康指数正相关。但在所有个体的总体数据图中,实线的斜率变负,表明在总体数据中,服药者与健康指数负相关。
观察图中的“×”点和“·”点,可以发现未服药者大部分是30岁且健康状况较佳的个体(左上角部分),而服药者大部分是40岁且健康状况较差的个体(右下角部分)。因此,当比较总体未服药者和服药者的平均健康状况时,占大多数的30岁未服药者的健康状况决定了总体未服药者的平均健康状况,而占大多数的40岁服药者的健康状况决定了总体服药者的平均健康状况。这就是为什么实线的斜率逆转变负。