科学的信息学阐释(一)
辉格
2008年12月27日
对于“什么是科学?”这个问题,在我刚接触科学哲学的时候,我的想法比较朴素:科学是用来解释事实的。那什么叫解释呢?我说:解释就是降低听众对某些事件的惊讶程度,即,解释者所面对的那些听众,在听过他的解释之后,对原本让他们较为惊讶的事件感觉不再那么惊讶了,这种差异越强烈,我们就说:解释者所持理论的解释力越强。(当然,前提是他的理论是逻辑自洽的,这一点先不讨论)
有一段时间,我对自己的这一表述比较满意,但总是觉得它不够形式化,如果解释者面对的不是人而是机器,这一区别方法还能有效吗?于是我想,如果要让一台机器对不同的事件表现出惊讶或者泰然,我会如何着手?
假如你掷4个一组的骰子,A)掷出4个6会让你很惊讶,B)掷出3个6、1个2个则略感惊讶,C)掷出2、3、5、6各1个则丝毫不惊讶,差别在哪里?我是这样想的:人对之惊讶的东西,不是事件,而是现象,上面三次掷骰子,就事件本身而言,其在整个事件空间中所占据的位置,是同等的,但它们所表现出的现象——或者说当我们用某种语言把它们表述出来时,则十分不同:这三个现象所覆盖的事件,所占据事件空间的比例分别是:A=1/1296,B=4/1296,C=12/1296。
一个现象所占据的事件空间的比例大小,对应着观察者从该现象中所获得的信息量的大小,比例越大,信息量越小。可以这样理解:有人问你住在哪里,你回答1)广东2)广州3)海珠区,这些答案占据事件空间的比例一个比一个小,所含信息量一个比一个大。反过来,事件空间的缩小,也会降低该空间中事件的信息量。比如,在一个9×9棋盘上的一颗落子,比在19×19的棋盘上,信息量小很多。
所以,区分惊讶与否的关键是信息量。于是,我把“解释”一词的含义形式化为:所谓解释,就是对原有的事件空间(S)追加约束(R),使得被解释现象(P)的信息量从原有的I0减少为I1,且约束本身的信息量Ir小于I0-I1。科学,通过引入一组自然律,约束了事件空间,因而降低了现象在观察者眼里的信息量,从而达到了降低惊讶程度——或者说解释的效果。
还是拿骰子说明:假如你连掷三次,结果都是1、2、3、4各一个,你感觉很惊讶。此时,一位骰子科学家提出“点数守恒定律”——一次掷四颗骰子的点数之和恒等于10,并以此作为对上述现象的解释。看看是否与我的说法吻合:在没有守恒定律之前,事件空间(S0)的容量是6的4次方1296,“1234各一个”这一现象占据了该空间的12个位置,其信息量I0=-log2(12/1296)=6.75bit【注】,引入点数守恒定律之后,新的事件空间(S1)的容量为83,于是“1234各一个”的信息量变为I1=-log2(12/83)=2.79bit,比I0减少了3.96bit。
那么点数守恒定律本身包含了多少信息量?四颗骰子点数和的值空间是6~36,容量31,因而定律的信息量Ir=-log2(1/31)=4.95bit,超过了其节省的3.96bit,但这一定律不仅能解释(1,2,3,4)骰子组合,至少还能解释如下6种组合:(1,1,2,6),(1,1,3,5),(1,1,4,4),(1,2,2,5),(1,3,3,3),(2,2,3,3),所以,它节省的总信息量是3.96bit*7=27.72bit,这样,该定律一共节省了22.77bit。
好久没做代数题了,请大家帮我检查一下有没有算对。
(未完待续)
注:信息量的计算方法,见Wiki条目:熵(Entropy)。
辉格 @ 2012-03-22, 01:30
Daniel Dennett在Freedom Evolves第二章里提供了一个类似但更精致的版本
[回复]
小橘子 @ 2012-07-14, 12:53
好牛啊。“且约束本身的信息量Ir小于I0-I1。”这条等于把科学限定为规律,而排出了普通信息。后续写了没有?
代数题算得似乎有问题,“1234各一”占24个位置,S1的容量我算出来是76。
[回复]
limln @ 2016-03-18, 22:08
张五常所谓的需求定律本身无法验证,但可以推导出可以验证的含意,类似于Daniel Dennett的进化论算法介质中性的说法。理论预测的空间就是解释,诉诸拉普拉斯之妖来做预测等同于用事实来解释事实。“被决定的避免不是真的避免”在物理层次上是没有解释力的,只有基于设计层次,才有迂回预测-避免的空间。而正是有了这迂回的空间才有了可证伪性。就如辉总所言“一个现象所占据的事件空间的比例大小,对应着观察者从该现象中所获得的信息量的大小,比例越大,信息量越小”。通过对可以蕴含各种可能的套套逻辑追加约束条件,把信息量从偶然“减变”为必然达到祛魅的效果
[回复]
bkvguy @ 2018-02-23, 11:40
感觉最后掷骰子的计算部分有点小问题。。
1. “在没有守恒定律之前,事件空间(S0)的容量是6的4次方1296,“1234各一个”这一现象占据了该空间的12个位置”,如果一个事件代表骰子的一种排列,那么这个事件空间仅代表掷四个骰子一次而非三次;在此前提下,1234各一个这一现象有24种排列方式,应该占据该空间24个位置?这一点小橘子也提到了。
2. “那么点数守恒定律本身包含了多少信息量?四颗骰子点数和的值空间是6~36,容量31,因而定律的信息量Ir=-log2(1/31)=4.95bit”。因为6-36中的每个和并不是等概率的,感觉这样计算似乎不妥,Ir=-log2(和为31的事件数/总事件数),这样会不会更准确。
一些想法,不一定对,不过感觉这些细节也不甚重要,这段话才是精髓哈哈。“所以,区分惊讶与否的关键是信息量。于是,我把“解释”一词的含义形式化为:所谓解释,就是对原有的事件空间(S)追加约束(R),使得被解释现象(P)的信息量从原有的I0减少为I1,且约束本身的信息量Ir小于I0-I1。科学,通过引入一组自然律,约束了事件空间,因而降低了现象在观察者眼里的信息量,从而达到了降低惊讶程度——或者说解释的效果。”感觉是很elegant的模型了,不知道丹内特是怎样更精致的,有空看看。
[回复]