辛普森悖论是指研究两种变量之间的相关性,分别进行分组研究时占优势的一方,在总体分析时却没有占优势。是辛普森在1951年的论文中正式阐述的,之后这一现象就用他的名字命名为辛普森悖论。之所以会出现这种情况,是因为往往一个情境会有很多的影响因素,并不是单一的一个因素,同时会有很多潜在因素影响着,导致优势并不能靠单纯的相累得到,这并不反映真实的情况。
一、量与质并不对等俗话说量变引起质变,但有时候其实量与质并不是等价的,有些情景的真实情况并不是靠单纯地相加相累就可以反映出来。但很多人往往都愿意相信自己看到的,因为量往往能更加直观地感受和量测到,用数量来评定很多事情的好坏,这显然并不科学。
二、从辛普森悖论可以受到一些启发辛普森悖论留给我们很多的启发,有些事情并没有我们想得那么的简单,还是要从实际情况出发,实事求是。世界上有很多需要我们去探索解决的问题,就如同这质与量的谜题一样,找到方法对我们解决生活中的难题会有很大的帮助。最后对我们的人生也有很好的启发,并不是所有的事情都一定会有明显的回报,简单的叠加并不一定引起质的变化,有些时候我们需要正确看待事情的结果,找到更好的解决方法。
辛普森悖论的意义很重大,它教我们学会看待问题的另一种方法,学会从另一个角度看问题,为我们解决生活中的问题提供了一种独特的思考方式。同时它也是一种重要的科学理论,为我们一些难以解释的问题提供了论据,是一种对人类生活有很大帮助的,影响非常的深远和广泛的理论。
辛普森悖论也叫辛普森佯谬。先解释下佯谬,大概意思就是看起来是错误的,实际却是正确的。
这是个统计学里面的概念,是E.H.Simpson在1951年提出来的。该悖论大致就是说某种条件下的两组数据,单独讨论这两组都会满足某种性质,但是一旦将这两组一同考虑,却会出现不同的性质。我们举一个简单的例子来说明一下:
假设中国光电科学技术大学只有 光学工程学院 与 仪器科学学院 各个学院物理考试及格率情况如下:
通过上表我们可以看出 中国光电科学技术大学中 光学工程学院 与 仪器科学学院 的物理考试中 每个学院的女生合格率都比男生合格率高,而且学校只有两个学院,你一定会认为对于整个学校女生的合格率也会更高,其实结果不然。这就是著名的辛普森佯谬。
至于它在统计学中的作用,以及在我们工作中如何避免,就不多说了;因为我也说不明白,不是这个专业的。但是如果你感兴趣可以自己多去了解,这里只希望激发你的兴趣。
辛普森悖论
对于存在相关关系的两组因子A、B,可能存在一种现象,A、B为正相关,而将A分组后的A1和A2分别与B成反相关,这种现象即为辛普森悖论。
简言之,就是分组和数据整体讨论相关性时不同。
一个构想的例子:
男女两人对比两家家餐厅推荐率时,发生分歧。一人看的是两家所有就餐人员的推荐率,选择其中一家,一个人看中的是和根据筛选不同性别的推荐率来看,选择另外一家(不同性别下,均推荐率高)。
数据构成:
性别 M餐厅 N餐厅
男 50/150=30% 180/360=50%
女 200/250=80% 36/40=90%
总 250/400=62.5% 216/400=54%
①总体来看 推荐M餐厅;②分性别来看,推荐N餐厅
那为什么分性别来看推荐率高的反而总体看推荐率低:
N餐厅的女性推荐率高达90%,但它的样本只有40个,只占总评论人数的10%;而M餐厅的女性推荐率虽然只有80%,但女性评论者有250个,这显然会大幅拉高餐厅的总体好评率。
其实也就是看分组后的主要群体。在N餐厅的男性360,M餐厅女性250占比较大。那么这些主要群体的评论高低将影响评论的方向。所以我们可以看到总体上,M餐厅更高,这个和M餐厅的主要分组群体(女性)推荐率80%高于N餐厅主要分组群体(男性)推荐率50%一致。
简单来说就是分组后其中的主要群组的影响权重更大。反过来就是样本相对较小的群组虽然可能在数据指标上表现更高,但是此时对于总体指标表现影响较小,从而形成了辛普森悖论。
那么是不是说,一味考虑大群组的指标表现就可以了呢?在上面的假想例子中是可以说的通的,我们吃饭选择餐厅,考虑的是整体大众化的口味,来让做出选择的两人都能满意最后的选择,那么也就是可以选择不考虑性别因素。而是考虑整体,也可以说是考虑整体中大分组群体的“众数”表现即可。但是,现实生活中还有就是有些情景下我们需要具体对待。
下面看一个典型的例子:
两种治疗肾结石的方案取舍,两种方案的治愈率如下:
结石大小 方案x 方案y
小结石 81/87=93% 234/270=87%
大结石 192/263=73% 55/80=69%
总体 273/350=78% 289/350=83%
一样的,分开看,选x合并看,选y
方案x中的大结石群体和方案y中小结石群体为主要群体,所以它们的比率高低基本上影响了整体方案的治愈率高低。
这里简单插入一下实际操作的场景:大结石肯定是比小结石严重,这个时候医生处理的时候x方案更具有侵入性(医学上带有一定创伤性的治疗措施),结石小就会更倾向选择保守方案y。大概意思可以理解为,重病猛药,轻病带着治。
这种场景下,就是说,治愈率和方案xy有关,又和结石大小有关;
而选择方案xy本身在实际操作中是受到了结石大小影响的。(这里感觉和辛普森悖论提出的人种肤色死刑率的案例有相似性,感兴趣的可以去了解下)
那么其实看这个方案选择问题的,其实综合来看总体情况是不切合实际的,是需要分开大小结石来看的,那么分开看的的角度下,最终答案就是选x。
这么看来,聚合数据看很有用,但是有些情况下,分组看,也许更贴近真相。
另外还有运动和病情恶化的例子,50岁分界线两组数据,运动多,病情恶化少;合并一起,运动多,恶化多;实际上是合在一起,年龄越大,恶化越多,运动成了非唯一变量。
再看最后一个例子:
杰拉尔德·福特担任美国总统期间的税收、税率变化,各收入群体税率下降(tax/income),社会整体税率却提高了。因为总值占比较低的非高收入群体的税率降低的多,总值占比较高的高收入群体降低的少,所以税率变化主要受高收入群体的影响,整体税收水平的涨幅高于收入总值,使得税率不降反增。
但是从理解数据需求角度来说,个人仍更关注个人自己的税率,是下降的,工资水平是增长的,这对于个人来说才是比较重要的信息。
总结下来:
①一般都是遭遇比率类的问题;
②辛普森悖论和样本大小存在一定关系;
③辛普森悖论其实受“众数”影响较大,众数的比率指标往往反映了整体的比率指标情况,那么在分析决策时候,我们要选择的就是,是否要信赖分组中“众数群体”的表现,作为决策指引;
④辛普森悖论跟混淆变量有关,需要控制变量,找到实际的相关因素,拆开表面数据;
⑤方法上可以多用散点图来观察问题。