我多次向朋友宣扬:平均来说,牛博读者的水平比牛博作者高,而且高不少。看来此言不虚——咦?貌似这句话不适合用在自己头上?呵呵,偶尔犯一下戒。
牛友们很少简单的回答0.95,这已经大大超出哈佛水平啦,而我个人认为,答得最好的是foo,他不仅给出了正确的解法和答案,还正确的指出了假阴性率也是个相关变量,我在看到他的答复之前就没意识到这一点,惭愧。(不过就本题而言,假阴性率的高低对计算结果影响极微。)
在屏蔽交流机会的闭卷考试中,大部分错误答案都是0.95,得出这个错误的原因是,答题者没有意识到自己无意中错误地把假阳性率理解为“得到阳性结果的样本中实际无病样本的比例”(定义A),而不是它的正确定义“得到阳性结果且实际无病的样本占总无病样本数的比例”(定义B)。
对于我这个认定,有朋友可能会问:既然你没有给出假阳性率的定义,凭什么我不能这么理解?对此我的回答是:如果采用定义A,那么假阳性率这个概念就不可能具有任何统计学意义。试想:假如我用一个已知全部无病的样本集去做这个测试,得到一个阳性样本子集,那么,无论这个测试的误差程度如何,按定义A的假阳性率都将是100%。显然,这样定义的概念是无意义的,这很像罗素的理发师悖论里给出的那种定义。
基于此,我认为不需要流行病学知识,只需要统计学知识,就可以排除定义A,并且得到正确答案。
正如laoyao所说,这个例子表明,在概率问题上,我们的直觉往往会犯错,我记得另一个更有趣的例子是关于三扇门的后面的羊和车的题目,曾经骗倒大批聪明人,包括数学教授。
【花絮】:据说,即使在美国,许多医生在这个问题上都没有搞清楚,因而常常给病人传达错误信息,导致一些不必要的过度恐慌甚至自杀。