您现在的位置是:首页 >  编程分享 > EXPERIENCEEXPERIENCE

三个数据分析里最难攻破的“悖论”,每一个都令人费解

帆软 推荐 转载 编程分享 2021-05-24

简介 跟数据打的交道越多,就越可能对数据产生绝对的信赖感,但其实在实际业务中,数据往往会“说谎”,今天给大家介绍三个数据分析中常见的悖论: 1、辛普森悖论 ...


跟数据打的交道越多,就越可能对数据产生绝对的信赖感,但其实在实际业务中,数据往往会“说谎”,今天给大家介绍三个数据分析中常见的悖论:

1、辛普森悖论

辛普森悖论是数据分析中最常见的悖论之一,举个最实际的例子来说:

鸭堡某学期期末考试,考数学、物理、化学三科,A的数学比B高2分,物理比B高15分,化学比C高3分,请问A的总分是否比B高?

很多人会说,这不是废话么,问题太简单了,当然是A的总分比B高了!

 

实际上很可能A的总成绩低于B,别急着惊讶,我们不妨再看一个例子:

很多人都爱看NBA比赛,最近几年的骑勇大战,使得詹姆斯和库里在球迷心目中的印象非常深,有一场骑勇大战,詹姆斯和库里的两分球与三分球命中率如下表所示:

 

其中:

两分球命中率 = 两分球命中数 / 两分球出手数 * 100%

三分球命中率 = 三分球命中数 / 三分球出手数 * 100%

那么请问本场比赛,詹姆斯的投篮命中率,是否低于库里?

投篮命中率 = (两分球命中数 + 三分球命中数) / (两分球出手数 + 三分球出手数) * 100%

很多人也会说,这不是跟上面期末考试那个题一样简单嘛,这还用说嘛,肯定是詹姆斯的投篮命中率低于库里呀!我们把细项的数据拉出来看,确实是这样的:

 

但是,这真的是废话么?我们再来看另一场比赛这两位兄弟的表现吧:

 

这一场比赛,詹姆斯和库里谁的投篮命中率高呢?这次你如果还说这是废话,当然是库里的投篮命中率高了,那这回你可就没这么幸运了,让我们看看细项数据吧:

 

是的,你没有看错,詹姆斯的两分球命中率也低于库里,三分球命中率也低于库里,但是汇总起来看,詹姆斯的投篮命中率是要高于库里的!

问题来了,这是怎么回事呢?这不符合常理啊!

这个“不符合常理”的现象,在数据分析领域中会时不时遇到的,并且在业内有个专门的术语:辛普森悖论(Simpson's paradox)

具体来说,就是在进行分组研究的时候,有时在每个组比较时都占优势的一方,在总评中有时反而是失势的一方的“悖论”现象就叫辛普森悖论。

现实中的很多数据,通过辛普森悖论,展现出引导性的错误结论。比如现实中的多干多错,少干少错,不干不错。

一个人经常犯错并不能证明他就比其他更少犯错的人能力低下,有可能是他从事更加复杂,出错率更高的工作的时间占比更大。

2、罗素悖论

罗素悖论属于数理统计学中永远无法逃避的一个悖论,这个悖论简约、美丽、诡异,甚至导致了第三次数学危机的解决。

罗素悖论的准确表达应该是:

如果存在一个集合是由所有一切不属于自身的集合组成的,也就是A={x | x∉ x },那么A包含于A是否成立?如果成立,则不符合x不属于A;而如果A不包含于A,则符合x不属于A。

罗素怕这个悖论很多人看不懂,于是给出了一个通俗版本:

假如某个城市的所有人,都在一位理发师那里理发,而这位理发师突然说:“我只为本城市中,不给自己刮脸的人刮脸!”于是,其他人对理发师说:那么你给自己刮脸吗?

倘若他不给自己刮脸,那么他属于“不给自己刮脸的人”,按照他的说法他就要给自己刮脸;倘若他给自己刮脸,他又属于“给自己刮脸的人”,按照他的说法就不该给自己刮脸。

 

3、伯克森悖论

将不同组别的数据合并时,会导致各组原本表现出来的某种规律消失,当这种情况发生时,合并之后呈现出的新规律甚至可能与每组的原本的规律相反。

 

举个例子,某种治疗手段在不同的组别里对患者的身体恢复是有害的,但是将所有组别的数据合并起来看,我们却会发现它竟然对患者身体的恢复是有帮助的。

它是怎么发生的?

当组成各组的成分差别较大的时候,就可能出现上述现象。

如,对病人的数量进行筛选,使得两组试验中病人的组成差别很大(老人、小孩、成人的比例有很大的差别)时,将数据简单的合并之后就会得出这样的结论:有害的治疗变成了有益的治疗。

假设有一个双盲试验(在双盲试验中,受试验的对象及研究人员并不知道哪些对象属于对照组,哪些属于实验组),将患者分成两组,每组有120人,但是两组中患者的年龄结构有很大的差异(第一组分为10人、20人、30人、60人,第二组分为60人、30人、20人、10人)。第一组的患者将接受治疗,而第二组的患者不进行治疗。

总体结果表明,治疗对患者是有益的,接受治疗的患者的身体恢复率大于没有接受治疗的患者。

 

然而,当你深入研究两组中各个患者群体时,你会发现在所有的患者群体中, 没有接受治疗的患者身体恢复率提高了。

 

我们注意到,每组中不同年龄的患者人数是不同的,甚至是差别很大的,这就是我们得出错误结果的原因。在这种情况下, 如果简单的将两组数据合并,就容易得出错误的结论。

参考地址:https://my.oschina.net/u/4197558/blog/5055737



本篇评论 —— 揽流光,涤眉霜,清露烈酒一口话苍茫。


    声明:参照站内规则,不文明言论将会删除,谢谢合作。


      最新评论



ABOUT ME

Name:袅袅牧童 | Arkin

Job:Web全栈技术工程师

WeChat:nnmutong

Email:nnmutong@icloud.com

标签云