含有〈统计〉标签的文章(20)

[微言]恩格尔系数的启示

【2012-09-28】

@whigzhou: #读史笔记#在几十上百年这样的大跨度上,用GDP/收入/消费额之类的指标来衡量发展,除了用作横向比较外,意义似乎不大,恩格尔系数之类能体现消费结构变化的指标更能说明问题,比如可以设计这样一组指标:1)Ci是第i年中等收入消费者的典型消费组合,2)Pi=第i年的Cj价格/第i年中位收入(j=i-10)

@whigzhou: 计算第i年的Cj价格时,条件可放松为:买到的商品组合不必完全一致,功能上不差于它即可,因为10年前的东西可(more...)

标签: | | |
4548
【2012-09-28】 @whigzhou: #读史笔记#在几十上百年这样的大跨度上,用GDP/收入/消费额之类的指标来衡量发展,除了用作横向比较外,意义似乎不大,恩格尔系数之类能体现消费结构变化的指标更能说明问题,比如可以设计这样一组指标:1)Ci是第i年中等收入消费者的典型消费组合,2)Pi=第i年的Cj价格/第i年中位收入(j=i-10) @whigzhou: 计算第i年的Cj价格时,条件可放松为:买到的商品组合不必完全一致,功能上不差于它即可,因为10年前的东西可能已经是老古董,一般价钱买不到了 @whigzhou: 该指标大致体现了:对任意年份,一个中等收入者要想过上十年前那种生活,需要花掉他当前收入的多大比例,我觉得这是对长期发展的恰当度量 @whigzhou: 按传统指标,改进和发展最快的那些领域对生活的改善被远远低估了 @whigzhou: 比如某人每两年花3000换一部手机,每5年花10万换一部车,传统指标上显示不出什么变化,但10年前后的手机和车带给他的便利大为不同 【后记】更精细的度量可以针对各收入阶层分别进行。  
[微言]增值税与消费率

【2012-03-05】

@whigzhou: 刚才跟朋友讨论增值税问题,突然想到一点:私人消费/GDP只有百分之二十多,低的不可思议,或许跟避税有关?可能很多中小超市(或其供应商,原理相同)把开票额度卖掉了,于是许多零售额被统计成了企业开支?瞎猜

@小野猪君:恩,购物卡、在超市门口搜集小票的大妈、超市/宜家开发票处长长的队伍,都把私人消费变成企业支出了。。。现在最好的是网购,京东亚马逊等等,不管买什么都能开办公用品一项

@学经济家:共鸣。一直存(more...)

标签: | | |
4130
【2012-03-05】 @whigzhou: 刚才跟朋友讨论增值税问题,突然想到一点:私人消费/GDP只有百分之二十多,低的不可思议,或许跟避税有关?可能很多中小超市(或其供应商,原理相同)把开票额度卖掉了,于是许多零售额被统计成了企业开支?瞎猜 @小野猪君:恩,购物卡、在超市门口搜集小票的大妈、超市/宜家开发票处长长的队伍,都把私人消费变成企业支出了。。。现在最好的是网购,京东亚马逊等等,不管买什么都能开办公用品一项 @学经济家:共鸣。一直存了这个念头,想整理增值税制与私人消费/GDP比例等的关系脉络,但没有砥砺弄不出来,再欠一个坑,呵呵。 @西峯: 统计中,购买车房都计入投资项下。 @whigzhou: 这个倒不算错,假如在其存续期内分期折算进消费的话  
“XX差异中,50%可归因于YY”是什么意思?

我在上上个帖子里提到“性格差异中,50%左右可归因于遗传”,这里我所引用的是Matt Ridley的说法(见《先天,后天》),后来看到几位该领域的牛人说法类似,我由此判断该说法是主流。

李敖之提到的双胞胎研究,Matt Ridley在他的书里做了详细介绍,显然,他是不会错过这一类信息的。

这里我想澄清的是统计学概念,说“性格差异中,50%左右可归因于遗传”,并不意味着:假如两个人具有完(more...)

标签: |
395

我在上上个帖子里提到“性格差异中,50%左右可归因于遗传”,这里我所引用的是Matt Ridley的说法(见《先天,后天》),后来看到几位该领域的牛人说法类似,我由此判断该说法是主流。

李敖之提到的双胞胎研究,Matt Ridley在他的书里做了详细介绍,显然,他是不会错过这一类信息的。

这里我想澄清的是统计学概念,说“性格差异中,50%左右可归因于遗传”,并不意味着:假如两个人具有完全相同基因基础,其他条件随机,则其性格相似度为50%,或者性格相似度为50%+p,p=0-0.5的随机数。

不是这样的,“XX差异中,50%可归因于YY”这一命题,仅仅意味着:若剔除YY的影响,则样本集的均方差减小一半。

这个均方差,或许原本就很小,或许,人类的性格原本就共同特征远多于个体差异,所以,一对被分开领养的同卵双胞胎,其性格相似度远大于50%,这与我介绍的说法没有冲突。

关于哈佛医学院考题,赞牛友

我多次向朋友宣扬:平均来说,牛博读者的水平比牛博作者高,而且高不少。看来此言不虚——咦?貌似这句话不适合用在自己头上?呵呵,偶尔犯一下戒。

牛友们很少简单的回答0.95,这已经大大超出哈佛水平啦,而我个人认为,答得最好的是foo,他不仅给出了正确的解法和答案,还正确的指出了假阴性率也是个相关变量,我在看到他的答复之前就没意识到这一点,惭愧。(不过就本题而言,假阴性率的高低对计算结果影响极微。)

在屏蔽交流机会的闭卷考试中,大部分错误答案(more...)

标签: |
435

我多次向朋友宣扬:平均来说,牛博读者的水平比牛博作者高,而且高不少。看来此言不虚——咦?貌似这句话不适合用在自己头上?呵呵,偶尔犯一下戒。

牛友们很少简单的回答0.95,这已经大大超出哈佛水平啦,而我个人认为,答得最好的是foo,他不仅给出了正确的解法和答案,还正确的指出了假阴性率也是个相关变量,我在看到他的答复之前就没意识到这一点,惭愧。(不过就本题而言,假阴性率的高低对计算结果影响极微。)

在屏蔽交流机会的闭卷考试中,大部分错误答案都是0.95,得出这个错误的原因是,答题者没有意识到自己无意中错误地把假阳性率理解为“得到阳性结果的样本中实际无病样本的比例”(定义A),而不是它的正确定义“得到阳性结果且实际无病的样本占总无病样本数的比例”(定义B)。

对于我这个认定,有朋友可能会问:既然你没有给出假阳性率的定义,凭什么我不能这么理解?对此我的回答是:如果采用定义A,那么假阳性率这个概念就不可能具有任何统计学意义。试想:假如我用一个已知全部无病的样本集去做这个测试,得到一个阳性样本子集,那么,无论这个测试的误差程度如何,按定义A的假阳性率都将是100%。显然,这样定义的概念是无意义的,这很像罗素的理发师悖论里给出的那种定义。

基于此,我认为不需要流行病学知识,只需要统计学知识,就可以排除定义A,并且得到正确答案。

正如laoyao所说,这个例子表明,在概率问题上,我们的直觉往往会犯错,我记得另一个更有趣的例子是关于三扇门的后面的羊和车的题目,曾经骗倒大批聪明人,包括数学教授。

【花絮】:据说,即使在美国,许多医生在这个问题上都没有搞清楚,因而常常给病人传达错误信息,导致一些不必要的过度恐慌甚至自杀。

出给哈佛医学院60位师生的一道题

据说只有18%的人答对:

If a test [to detect a disease whose prevalence is 1/1000] has a false positive rate of 5%, what is the chance that a person found to have a positive result actually has the disease, assuming you kn(more...)

标签: |
438

据说只有18%的人答对:

If a test [to detect a disease whose prevalence is 1/1000] has a false positive rate of 5%, what is the chance that a person found to have a positive result actually has the disease, assuming you know nothing about the person's symptoms or signs?

注:1)方括号是我加的,避免断句错误,2)false positive=假阳性。