科学的信息学阐释(一)
辉格
2008年12月27日
对于“什么是科学?”这个问题,在我刚接触科学哲学的时候,我的想法比较朴素:科学是用来解释事实的。那什么叫解释呢?我说:解释就是降低听众对某些事件的惊讶程度,即,解释者所面对的那些听众,在听过他的解释之后,对原本让他们较为惊讶的事件感觉不再那么惊讶了,这种差异越强烈,我们就说:解释者所持理论的解释力越强。(当然,前提是他的理论是逻辑自洽的,这一点先不讨论)
有一段时间,我对自己的这一表述比较满意,但总是觉得它不够形式化,如果解释者面对的不是人而是机器,这一区别方法还能有效吗?于是我想,如果要让一台机器对不同的事件表现出惊讶或者泰然,我会如何着手?
假如你掷4个一组的骰子,A)掷出4个6会让你很惊讶,B)掷出3个6、1个2个则略感惊讶,C)掷出2、3、5、6各1个则丝毫不惊讶,差别在哪里?我是这样想的:人对之惊讶的东西,不是事件,而是现象,上面三次掷骰子,就事件本身而言,其在整个事件空间中所占据的位置,是同等的,但它们所表现出的现象——或者说当我们用某种语言把它们表述出来时,则十分不同:这三个现象所覆盖的事件,所占据事件空间的比例分别是:A=1/1296,B=4/1296,C=12/1296。
一个现象所占据的事件空间的比例大小,对应着观察者从该现象中所获得的信息量的大小,比例越大,信息量越小。可以这样理解:有人问你住在哪里,你回答1)广东2)广州3)海珠区,这些答案占据事件空间的比例一个比一个小,所含信息量一个比一个大。反过来,事件空间的缩小,也会降低该空间中事件的信息量。比如,在一个9x9棋盘上的一颗落子,比在19x19的棋盘上,信息量小很多。
所以,区分惊讶与否的关键是信息量。于是,我把“解释”一词的含义形式化为:所谓解释,就是对原有的事件空间(S)追加约束(R),使得被解释现象(P)的信息量从原有的I0减少为I1,且约束本身的信息量Ir小于I0-I1。科学,通过引入一组自然律,约束了事件空间,因而降低了现象在观察者眼里的信息量,从而达到了降低惊讶程度——或者说解释的效果。
还是拿骰子说明:假如你连掷三次,结果都是1、2、3、4各一个,你感觉很惊讶。此时,一位骰子科学家提出“点数守恒定律”——一次掷四颗骰子的点数之和恒等于10,并以此作为对上述现象的解释。看看是否与我的说法吻合:在没有守恒定律之前,事件空间(S0)的容量是6的4次方1296,“1234各一个”这一现象占据了该空间的12个位置,其信息量I0=-log2(12/1296)=6.75bit【注】,引入点数守恒定律之后,新的事件空间(S1)的容量为83,于是“1234各一个”的信息量变为I1=-log2(12/83)=2.79bit,比I0减少了3.96bit。
那么点数守恒定律本身包含了多少信息量?四颗骰子点数和的值空间是6~36,容量31,因而定律的信息量Ir=-log2(1/31)=4.95bit,超过了其节省的3.96bit,但这一定律不仅能解释(1,2,3,4)骰子组合,至少还能解释如下6种组合:(1,1,2,6),(1,1,3,5),(1,1,4,4),(1,2,2,5),(1,3,3,3),(2,2,3,3),所以,它节省的总信息量是3.96bit*7=27.72bit,这样,该定律一共节省了22.77bit。
好久没做代数题了,请大家帮我检查一下有没有算对。
(未完待续)
注:信息量的计算方法,见Wiki条目:熵(Entropy)。