2015年04月发表的文章(7)

[微言]上帝在何种意义上真实存在?

【2015-04-24】

@whigzhou: 昨天和两枚远古邪恶小鲜肉吃饭,我们在宗教话题上花了不少时间,我再次(也更仔细的)说明了我的几个point:1)尽管我不是基督徒,但我很讨厌(比如道金斯和其他无神论急先锋的)黑基督教的举动,2)我完全可以接受在说话时使用God一词,在我看来,God就是一个特殊的虚设代词(dummy pronoun),

@whigzhou: 类似于It’s raining里的it,和it不同的是,god只用于某些特殊场合,比如在如下句式中用作主语:God规定我们不能这么做,所以这么做是不对的。若没有这个词,就得这么说:按照你我共同认可的那套规范(more...)

标签: | |
5615
【2015-04-24】 @whigzhou: 昨天和两枚远古邪恶小鲜肉吃饭,我们在宗教话题上花了不少时间,我再次(也更仔细的)说明了我的几个point:1)尽管我不是基督徒,但我很讨厌(比如道金斯和其他无神论急先锋的)黑基督教的举动,2)我完全可以接受在说话时使用God一词,在我看来,God就是一个特殊的虚设代词(dummy pronoun), @whigzhou: 类似于It's raining里的it,和it不同的是,god只用于某些特殊场合,比如在如下句式中用作主语:God规定我们不能这么做,所以这么做是不对的。若没有这个词,就得这么说:按照你我共同认可的那套规范,这么做是错的,而你这么做了,而既然我们都认可这套规范,我有理由认为你我都相信这么做是不对的。 @whigzhou: 显然,后一种说法太麻烦了,前一种简洁易懂的多,实际上,God就是共同体成员拟构出来的一个公共道德判决器,这种拟构方式没什么不对,正如美国人也会说“宪法不允许我们这么做”,或“国父们要求我们这么做”,其中的“宪法”和“国父们”便是一种类似的拟构 @whigzhou: 在此意义上,上帝是真实存在的,因为这一拟构对人们的观念和行为产生了真实、可辨认、且相当可预期的影响,而按照我的本体论哲学,满足这些条件的拟构,就是真实存在 @whigzhou: 和基督徒不同的是,除此之外,我不赋予上帝更多意义,不就God做更多经验性判断 @whigzhou: 在我看来,许多基督徒坚持其信仰的主要理由,他们认为放弃信仰就是背弃被归于上帝的那套规范,以及那套有关世界、人性和社会的基础信念,对此,我深表同情 @whigzhou: 于是有了我的另一个point:3)我不会对“宗教好不好”这么笼统的问题做判断,而只能对特定信仰体系(或教派)做判断,因为被不同教派归于其上帝的共同规范和信念集合,是十分不同的,假如这些规范/信念和我所持有的高度重合,它就会被我认为是“好的” @whigzhou: 4)假如我有机会在几种社区中选择一个居住,其他条件相似时,我会偏爱新教社区,也会常去教堂 @whigzhou: 这样的基督徒,若给我足够的时间,我相信可以说服他们相信:他们赋予上帝的那些额外意义(或经验判断),不是必须的,但通常他们不会花这么多时间听我说话,我通常也不想说这么多话,所以,我尊重他们的朴素信念 @whigzhou: 毕竟,你无须成为伦理学家也可以正当的坚持自己的伦理体系,你无须成为人类学家也可以正当的坚持自己的文化立场 @abada张宏兵: 西方的自由来的比较偶然。因为耶稣是高度独立于政府的民间宗教领袖(凯撒世俗政权、上帝精神世界分界),其教会继承了这一文化基因,教会与政府之间常常对抗,博弈出了自由的传统。@whigzhou @whigzhou: 嗯,没错,不过这是教会作为一个组织的历史作用(该组织在很长时间内几乎垄断了文字工具和与之有关的各种信息和职业),和教义没多大关系。 @Stimmung: 丹内特也经常黑基督教,如何看待? @whigzhou: 一样讨厌啊,不过和道金斯不同,丹内特至少承认宗教在历史上起过正面作用  
『伊讲』:回归自然语言的本色

你大概已经猜到了『伊讲』大概是个什么东西,没错,把几种语义化方案中被我视为可欲的那些特性合并起来,便是『伊讲』的特性:伊是一种强语义化的、让说话者主动表达语义的、语义开放的、去中心化的、非匿名化的(因而是个人化的)、强社会性的语义化方案。

方案 言语持久化 贴标签 用行动说话 语义化言说 词汇索引 机器理解 语法标记
实例  IM/BBS  blog/MB  豆瓣  维基  Google  IBM Watson  伊讲
语义化  无  弱  强  中等  中等  强  强
语义表达  无  主动  主动  主动  被动  被动  主动
开放性  开放  开放  封闭  半开放  开放  开放  开放
匿名化  否  否  否  是  是  是  否
语义中心化    否  是  是  不必  不必  否
语义自主性  无  强  强  强  弱  弱  强
社会性  无  弱  强  无  无  无  强

在我列举的各方案中,豆瓣拥有最多我所期待的特性,但豆瓣也有两个我最痛恨的特性:她是封闭的(即语义专制的),也是语义中心化的,而同时,twitter(或其他微博客)是开放和去中心化的(当然,豆瓣同时也是微博客,但她的这两部分在语义功能上是相互孤立的,我说的是它区别于微博客的地方),但推特的语义化又太弱了,这是因为标签机制的语义功能太弱。

『伊讲』的方案,就是把twitter的标签升级为语法标记,从而让机器能够从(more...)

标签: | |
5537
你大概已经猜到了『伊讲』大概是个什么东西,没错,把几种语义化方案中被我视为可欲的那些特性合并起来,便是『伊讲』的特性:伊是一种强语义化的、让说话者主动表达语义的、语义开放的、去中心化的、非匿名化的(因而是个人化的)、强社会性的语义化方案。
方案 言语持久化 贴标签 用行动说话 语义化言说 词汇索引 机器理解 语法标记
实例  IM/BBS  blog/MB  豆瓣  维基  Google  IBM Watson  伊讲
语义化  无  弱  强  中等  中等  强  强
语义表达  无  主动  主动  主动  被动  被动  主动
开放性  开放  开放  封闭  半开放  开放  开放  开放
匿名化  否  否  否  是  是  是  否
语义中心化    否  是  是  不必  不必  否
语义自主性  无  强  强  强  弱  弱  强
社会性  无  弱  强  无  无  无  强
在我列举的各方案中,豆瓣拥有最多我所期待的特性,但豆瓣也有两个我最痛恨的特性:她是封闭的(即语义专制的),也是语义中心化的,而同时,twitter(或其他微博客)是开放和去中心化的(当然,豆瓣同时也是微博客,但她的这两部分在语义功能上是相互孤立的,我说的是它区别于微博客的地方),但推特的语义化又太弱了,这是因为标签机制的语义功能太弱。 『伊讲』的方案,就是把twitter的标签升级为语法标记,从而让机器能够从言语文本中深度提取语义,这样一来,用户便可以像在twitter中那么说话,但同时起到了在豆瓣中实施行动深度相当的语义效果,又不会被束缚于豆瓣那种“以行动说话”的方式对词汇和句型必定施加的严格限制,我将这种方案叫做“语法标记”。 语法标记方案的一个优势是,技术实现上非常容易,让机器解析一个带有语法标记的言语文本,是要求较低的任务,存在语法标记的情况下,语法解析工作是相当机械化的;假如我们的目标语言是英语的话,即便没有语法标记,解析也不会太难。 无标记解析确实也是一个选项,不过『伊讲』的目标语言是汉语,无标记解析会比较困难(比如划词就是个大麻烦),我一个人大概啃不下来(我下决心开始做『伊讲』的前提之一是,相信自己至少能够独力完成伊的第一个版本)。 除了汉语文本的特性带来的技术障碍,我选择标记方案还有另一个理由:无标记解析需要更多的词法和句法约定,这会给说话者施加更多限制,这是我不希望看到的,因为这会妨碍自然语言历来具有的持续进化特性。 有了标记,词法上可以充分自由:你可以将任意符号组合(只要和标记本身不冲突)当作动词用,或当作其他任何语法成分用,自然语言里就是这样的,比如你可能会说“昨天我又被方滨兴了,所以没有伊讲。” 若依靠无标记解析,即便解析器非常聪明,可能也要过好久,采集了足够多言语样本之后,才明白“方滨兴”和“伊讲”都可以当作动词用,在此之前,它可能会怀疑“方滨兴”和“了”之间漏了个什么词(总不能假定用户从来不会手抖吧?),而弄不明白“伊讲”到底是个名词、形容词还是助词,而借助标记,说话者可以直接告诉解析器那就是个动词。 其实语法标记也不算是说话者的额外负担,口语带很多标记,停顿、重音、声调等等,都可以被作为语法标记附加到语音流中,只是变成文本时,这些信息要么丢失了,只能靠阅读者自己脑补,或者被替换成了标点符号等书面标记,『伊讲』的解析器仍会尽量利用这些书面标记,但因为它还不够聪明,也不想预设太多约定,所以需要用户多加些标记。 现在让我们来看看『伊讲』在图灵时代的自然语言信息模型中处于什么位置: 图:图灵时代的自然语言信息模型 图中左边的主动方案就是『伊讲』,在接收到言语文本后,伊做了两件事:对文本作语法解析,提取其中语义并写入外部语义网,然后将文本格式化为易读形式送进相应的时间线,这些被提取的语义会一直关联着说话者。 在恰当的情境下,这些语义会被机器利用并产生意义,也会(在经历一系列转换后)进入说话者自己和其他人的信息环境中,变成对后者或许有价值的信息,继而在后者头脑中产生知识;在今后的文章里,我会解释“恰当的情境”和“一系列转换”究竟是什么,简单说,就是经过两层映射,首先是社会关系映射,其次是个体知识模型的映射,最终变成个体知识。 在我看来,定义这两层映射的模型,是『伊讲』的核心价值,它具体化了哈耶克的(加上我的)知识论哲学:知识分散存在于个体头脑,并通过社会关系网络传播,这种传播平行而分散的发生于整个社会关系网的一个个局部,特定个体在特定时刻获取何种信息,取决于他处于社会关系网的什么位置,以及他从自身这个节点出发,与哪些周围节点存在何种关系。 显然,这个模型是个人主义的,去中心化的,而同时又是充分参与并利用了外部语义网的。 好了,这就是『伊讲』。 或许你仍会问:听上去很好,可这究竟有啥用? 假如你觉得豆瓣比其他SNS多一点点好处,那『伊讲』就会把这好处放大很多倍,指数式的放大,比如: 1)记录生活:其他SNS也会记录你说过的话,但未经语义化的记录上用处不大的,比如你没法方便的“看看今年我看过哪些电影”,吃过哪些餐馆,去过哪些地方,碰到过哪些人,做过哪些事,买过哪些东西,买衣服花了多少钱,喝醉过几次…… 2)发展社会关系:其他SNS也会帮助你发展社会关系,但方式很单调(往往单调的让人厌烦),比如告诉你某人和你都关注谁谁谁,都被谁谁谁关注;豆瓣的方式有意思一些:会告诉你他和你都读过某某书,都喜欢某某电影,但也不过如此;伊讲的方式会有意思的多:比如伊可能告诉你,你们都在西湖里游过泳,都在大理骑过车,或都在5月35号喝醉过。 3)获得有意思的反馈:依我看,好的说话环境应该会对言语行为作出丰富而贴切的反馈,比如你说你正在读某本书,若能得到“你的某某朋友读过这本书”之类的反馈,会比较有意思,或者当你说想去某地方旅行,想吃点新鲜的,想听点新歌……,最好也会有反馈; 4)人机对话:实际上,在对言语进行反馈时,机器已经默默参与了对话,它在倾听你的言语,然后从外部语义网中提取一些它认为值得反馈给你的信息;在『伊讲』里,这种对话可以更直接的方式进行,即,你可以明确的对着机器说话,他会当即作出响应,比如你可以告诉它:我想看看明天的天气如何;给我放首新歌听听,你知道我口味的;或者,给我放首新歌听听,别管我口味……诸如此类(当然,这还是较远期的承诺,这方面的潜力会逐渐挖掘,这样的反馈需要机器真正了解词汇的“意义”,因为那需要驱动设备产生行为,我相信伊会慢慢被教会各种意义的) …… 还有许多好处,我就先不一一细述了,实际上也没法细述,语义信息的潜在价值是无穷无尽的,它有待我们一点点去挖掘,作为设计者的我,在开发测试过程中,也常常被它所展现出的潜力所打动。    
[微言]快递业的格雷欣法则

【2015-04-17】

@whigzhou: 劳动力供给急剧萎缩,各小快递又撑着不敢涨价,服务质量只能劣化,#名义价格刚性#又一例,原理和#格雷欣法则#类似,名义价格最容易比较,服务质量不容易比较,率先涨价者容易找死,除非另起品牌,否则谁都不敢涨价,问题是谁有能力乘机创立新品牌。

 

标签: | |
5612
【2015-04-17】 @whigzhou: 劳动力供给急剧萎缩,各小快递又撑着不敢涨价,服务质量只能劣化,#名义价格刚性#又一例,原理和#格雷欣法则#类似,名义价格最容易比较,服务质量不容易比较,率先涨价者容易找死,除非另起品牌,否则谁都不敢涨价,问题是谁有能力乘机创立新品牌。  
『伊讲』前传之二:语义化的几种方案

本文的“语义化”,是指“帮助自然语言使用者将其言语的相关语义信息持久化到外部语义网络中”。

【为何需要语义化】

首先是因为许多人想要生产语义,人类的表达需求从来都很强烈,而且他们多半会希望自己所表达的内容至少有机会在某些情形下产生意义,而随着外部语义网的地位日益提高,此类机会将在越来越大的程度上等同于它们进入这个语义网的机会;

其次是为了自由。自然语言的分立和自发协调特性,让它的使用者在表达上享有充分的自由,即,其语法规范乃由个体间协调过程自发形成,而非由某个单一意志所设计,在多大程度上遵循或偏离规范的问题上,个体始终保有自主性和灵活性,而在此问题上的大量个体选择,始终在推动着语言规范的持续进化,正因此,除非受某种强力所压制,基于自然语言而产生的文化网络可以是非常自由而开放的。

相比之下,至少到目前为止,图灵世界的人工系统几无例外的具有强烈的语义专制倾向,这是因为,这些人工系统的设计者通常将语法上的严格性和一致性列为非常优先的考虑,对于建造特定功能特定用途的工具,这么做可能是必须或有益的,但假如这种专制性扩大到在系统级别上主导作为人类社会存在基础的整个文化系统,那是不可接受的。

诚然,图灵世界也存在大量分立的人工系统,因为有着大量分立的程序员个体,以及大量尝试建造人工系统的分立意志,因而图灵世界同样有着丰富的多样性;然而,这些人工系统迄今还缺乏自然语言所具有的那种自发协调能力,因而这些系统之间的关系是两极化的:要么处于单一规范的专制之下,要么相互孤立。

所以,至少在眼下,我们仍需要自然语言。

幸运的是,已经有了种种努力来帮助自然语言使用者实现语义持久化,下面我们来比较一下这些方案的特点。(这些努力的本意当然未必是帮助自然语言使用者,但只要实际上有着这样的效果,我就会将其列为语义化方案,所以这里的“方案”一词,是从用户角度出发说的。)

【言语持久化】

这个方案通俗地说就是让用户可以用自然语言在图灵世界说话,从而让言说内容得以持久化,但语义仍然挥发了。

从文字编辑器、电子邮件、BBS、IM,到blog、twitter,已经产生了大量以自然语言表达的电子文本。

由于电磁介质是远比传统介质优良的持久化介质,可访问性也好得多,所以尽管被持久化的仅仅是言语而非语义,但这至少为说话者创造了一种机会:当未来有了某种二次语义化的可行手段之后,从这些言语中多少有望再现出一些语义。

【贴标签】

blog和twitter都引入了标签机制,允许说话者为其言语附加标签;标签是一种语义信息,尽管只是一种非常弱的语义,它只能在若干言语之间建立非常松散的语义关系,而无法在一条言语内部各成分之间建立语义关系,而后者才是语义的主要来源,所以这只能算一种弱语义化方案。

不过它也有一些好处:1)简单易用;2)语义是用户按其意图主动表达的;3)较为自由,对何种符号组合可以用作标签基本上没有限制。

【用行动说话】

前面我已提到,图灵世界产生语义的第二种方式,是用户使用应用程序实施行动,此时应用程序可能就这些行动产生一些相关语义,不过,通常应用程序采集这些语义是用来服务于它自身的目的,而不是帮助用户表达,所以这些语义未必与用户的表达意图之间有什么确切关系(况且用户在这么做时也并非想表达什么)。

不过,有些类型的应用程序,比如社交类应用,会提供这样的功能:当用户作出某个动作时,便产生一个语义结构,同时生成一句言语,这样一来,用户实施行动的效果就和说话颇有些相似,行内还有个古怪的词汇称呼此类动作,叫“发状态”,比如当你在豆瓣某个电影页面点击“看过”时,就相当于你说了“我看过某某电影”这样一句话。

这种方式的好处是:用户在说话的时候,一句言语被传送出去的同时,语义也被持久化了,而且这些语义确切对应了说话者的言说意图。

问题是,这种模式在语义上是高度专制的,每个动词对应着应用程序的一项功能,每类宾语名词对应着它的一个语义框架(即一组元语义),每个宾语名词对应着该语义框架下的一个语义实例,所有这些,都是程序员在与图灵机对话时明确规定好的,程序员就像这个封闭语言世界里的上帝,规定了你可以用哪些动词和名词,而且数量通常极为有限,比如豆瓣的动词大概不超过十个,主语则只有一个:我。←难怪有人说社交应用迷都是自恋狂。

【语义化言说】

维基实际上是一种增强了的标签系统;标签是一种弱语义,它不表示言语内部各成分之间的关系,而只是在言语之间建立关系;不过维基从两方面强化了标签的语义功能:1)强制任何言语必须附属于某一标签之下(从而构成一个词条),因而词条名便成为该言语的主题标签,2)维基鼓励用户在言语中大量使用标签作为词汇。

于是,言语之间的语义连接至少在数量上大幅膨胀了,尽管这种语义化仍然是肤浅的。(晚近的维基百科已包含了更多不那么肤浅的语义化信息,但这些信息的表达方式已经远离了自然语言,而是由词条编写者按照某个为特定词条类别而设计的语义框架填充而成(通常以键-值对形式出现在词条页面的右侧))

维基是开放的,意思是个体可以按自己的意图添加或编辑词条,从而表达语义(实际上这也是非常受限的,比如当你想添加一个人名词条时,维基会告诉你这个人物必须有一定重要性,比如是位大学教授),但就语义表达需要而言,最致命的是:维基是匿名化和语义中心化的。

匿名化是指:语义信息在被持久化时,丢失了它源自哪个说话者这一信息;语义中心化是指:语义网络在空间上是无歧义的,即,任一给定时刻,无论访问者从何种途径访问这个语义网络,他(它)读取到的语义拓扑是完全一样的,换句话说:与任一概念(或符号)相连接的语义拓扑,在任一时刻只有一个版本。(尽管每个维基词条可以保存多个版本,但这只是维基的一种编辑管理手段,任一时刻在语义网中生效的,即可能被行动者读取从而产生意义的,只有一个版本。)

正是这一点,和我的((more...)

标签: | |
5535
本文的“语义化”,是指“帮助自然语言使用者将其言语的相关语义信息持久化到外部语义网络中”。 【为何需要语义化】 首先是因为许多人想要生产语义,人类的表达需求从来都很强烈,而且他们多半会希望自己所表达的内容至少有机会在某些情形下产生意义,而随着外部语义网的地位日益提高,此类机会将在越来越大的程度上等同于它们进入这个语义网的机会; 其次是为了自由。自然语言的分立和自发协调特性,让它的使用者在表达上享有充分的自由,即,其语法规范乃由个体间协调过程自发形成,而非由某个单一意志所设计,在多大程度上遵循或偏离规范的问题上,个体始终保有自主性和灵活性,而在此问题上的大量个体选择,始终在推动着语言规范的持续进化,正因此,除非受某种强力所压制,基于自然语言而产生的文化网络可以是非常自由而开放的。 相比之下,至少到目前为止,图灵世界的人工系统几无例外的具有强烈的语义专制倾向,这是因为,这些人工系统的设计者通常将语法上的严格性和一致性列为非常优先的考虑,对于建造特定功能特定用途的工具,这么做可能是必须或有益的,但假如这种专制性扩大到在系统级别上主导作为人类社会存在基础的整个文化系统,那是不可接受的。 诚然,图灵世界也存在大量分立的人工系统,因为有着大量分立的程序员个体,以及大量尝试建造人工系统的分立意志,因而图灵世界同样有着丰富的多样性;然而,这些人工系统迄今还缺乏自然语言所具有的那种自发协调能力,因而这些系统之间的关系是两极化的:要么处于单一规范的专制之下,要么相互孤立。 所以,至少在眼下,我们仍需要自然语言。 幸运的是,已经有了种种努力来帮助自然语言使用者实现语义持久化,下面我们来比较一下这些方案的特点。(这些努力的本意当然未必是帮助自然语言使用者,但只要实际上有着这样的效果,我就会将其列为语义化方案,所以这里的“方案”一词,是从用户角度出发说的。) 【言语持久化】 这个方案通俗地说就是让用户可以用自然语言在图灵世界说话,从而让言说内容得以持久化,但语义仍然挥发了。 从文字编辑器、电子邮件、BBS、IM,到blog、twitter,已经产生了大量以自然语言表达的电子文本。 由于电磁介质是远比传统介质优良的持久化介质,可访问性也好得多,所以尽管被持久化的仅仅是言语而非语义,但这至少为说话者创造了一种机会:当未来有了某种二次语义化的可行手段之后,从这些言语中多少有望再现出一些语义。 【贴标签】 blog和twitter都引入了标签机制,允许说话者为其言语附加标签;标签是一种语义信息,尽管只是一种非常弱的语义,它只能在若干言语之间建立非常松散的语义关系,而无法在一条言语内部各成分之间建立语义关系,而后者才是语义的主要来源,所以这只能算一种弱语义化方案。 不过它也有一些好处:1)简单易用;2)语义是用户按其意图主动表达的;3)较为自由,对何种符号组合可以用作标签基本上没有限制。 【用行动说话】 前面我已提到,图灵世界产生语义的第二种方式,是用户使用应用程序实施行动,此时应用程序可能就这些行动产生一些相关语义,不过,通常应用程序采集这些语义是用来服务于它自身的目的,而不是帮助用户表达,所以这些语义未必与用户的表达意图之间有什么确切关系(况且用户在这么做时也并非想表达什么)。 不过,有些类型的应用程序,比如社交类应用,会提供这样的功能:当用户作出某个动作时,便产生一个语义结构,同时生成一句言语,这样一来,用户实施行动的效果就和说话颇有些相似,行内还有个古怪的词汇称呼此类动作,叫“发状态”,比如当你在豆瓣某个电影页面点击“看过”时,就相当于你说了“我看过某某电影”这样一句话。 这种方式的好处是:用户在说话的时候,一句言语被传送出去的同时,语义也被持久化了,而且这些语义确切对应了说话者的言说意图。 问题是,这种模式在语义上是高度专制的,每个动词对应着应用程序的一项功能,每类宾语名词对应着它的一个语义框架(即一组元语义),每个宾语名词对应着该语义框架下的一个语义实例,所有这些,都是程序员在与图灵机对话时明确规定好的,程序员就像这个封闭语言世界里的上帝,规定了你可以用哪些动词和名词,而且数量通常极为有限,比如豆瓣的动词大概不超过十个,主语则只有一个:我。←难怪有人说社交应用迷都是自恋狂。 【语义化言说】 维基实际上是一种增强了的标签系统;标签是一种弱语义,它不表示言语内部各成分之间的关系,而只是在言语之间建立关系;不过维基从两方面强化了标签的语义功能:1)强制任何言语必须附属于某一标签之下(从而构成一个词条),因而词条名便成为该言语的主题标签,2)维基鼓励用户在言语中大量使用标签作为词汇。 于是,言语之间的语义连接至少在数量上大幅膨胀了,尽管这种语义化仍然是肤浅的。(晚近的维基百科已包含了更多不那么肤浅的语义化信息,但这些信息的表达方式已经远离了自然语言,而是由词条编写者按照某个为特定词条类别而设计的语义框架填充而成(通常以键-值对形式出现在词条页面的右侧)) 维基是开放的,意思是个体可以按自己的意图添加或编辑词条,从而表达语义(实际上这也是非常受限的,比如当你想添加一个人名词条时,维基会告诉你这个人物必须有一定重要性,比如是位大学教授),但就语义表达需要而言,最致命的是:维基是匿名化和语义中心化的。 匿名化是指:语义信息在被持久化时,丢失了它源自哪个说话者这一信息;语义中心化是指:语义网络在空间上是无歧义的,即,任一给定时刻,无论访问者从何种途径访问这个语义网络,他(它)读取到的语义拓扑是完全一样的,换句话说:与任一概念(或符号)相连接的语义拓扑,在任一时刻只有一个版本。(尽管每个维基词条可以保存多个版本,但这只是维基的一种编辑管理手段,任一时刻在语义网中生效的,即可能被行动者读取从而产生意义的,只有一个版本。) 正是这一点,和我的(也是哈耶克的)知识论哲学背道而驰,正如哈耶克在论文“The Use of Knowledge in Society”(1945)中指出,知识分散存在于个体头脑,因而任一个体在任一时刻仅能访问到世界全部知识的极小部分,而且其中任意两个个体访问到的信息,总是大不相同。(也正因此,任何复杂到值得被珍视的社会,必须容许个体拥有起码的自由——不过我不打算在此细述这一判断与前述哲学之间的逻辑关系。) 直到外部语义网出现之前,上述断言仍然成立,但外部语义网是个例外,它确实可以实现中心化,问题是,在该网络地位日益显要的前景下,作为个人主义者和自由主义者,我当然希望它向着去中心化的方向发展,但维基的方向与此相反。 中心化必然导致语义专制,维基的开放性仅仅由创始人的善意、以及他所建立的组织文化所保障,那是靠不住的,实际上,维基已经发展出了一个金字塔式的层级审查系统,大量编辑在紧盯着词条的修改动向,据说每个词条的生杀大权最终掌握在36位全球顶级编辑手中;非常讽刺的是,Jimmy Wales恰恰也是哈耶克信徒,并曾宣称维基的哲学基础正是哈耶克的上述论文。 匿名化的另一个问题是使得言语行为失去了社会性,而许多人正是将说话当作一种社交活动,而不仅仅是为了创造语义(但反过来,创造语义会促进社交,这一点从豆瓣可以看得很清楚,从强语义性令其发展出了和其他弱语义SNS十分不同的社交形态)。 所以很明显,维基不是个适合说话的地方,除非你准备采取一种说一不二的知识权威(或语义上帝)的姿态,不过,这种姿态,和编撰百科全书这样的目标,倒好像是挺搭的。 【词汇索引】 搜索引擎从言语文本中提取出词汇(也叫关键词),并加以索引,从而产生语义(当然言语文本不是它索引的唯一对象,它还索引很多原本就已语义化的东西)。 起初,这种方式所达到的语义化程度并不比维基强多少,只是语义关系的数量会更庞大,因为维基只是将文本中部分词汇标签化,而搜索引擎会把所有词汇(除了虚词)都当作关键词来对待(即将其作为语义网中的一个节点)。 不过,随着搜索引擎对文本的理解能力不断提高,它提取语义的深度也在加深,因而从同一个文本集中所能提取到的语义更多也更不肤浅了。 就我们的需要而言(帮助自然语言使用者在图灵世界创造语义),这一方案的问题是:它也是匿名化的;和维基不同的是,维基的匿名化服务于其语义中心主义,要实现语义中心化,就只能匿名,而搜索引擎只是不关心一段言语的说话者是谁,因为其业务逻辑不需要它关心,任何文本只是作为某个统计样本集中的一个样本而被处理。 搜索引擎倒不必是语义中心化的,它完全可以为处于不同情境下的访问者就同一个词汇给出不同的语义拓扑(这种情况可以出现在个性化搜索或情境化搜索中,这就好比,当我们在不同场合与不同的人交谈时,就同一个概念可以获得不同的语义信息),即便它没这么做,至少也不存在什么业务逻辑上的需要,迫使它追求语义中心化。 然而,尽管不必是中心化的,搜索引擎处理语义的方式仍妨碍了它服务于我们的需求:它不会为说话者保留对其所创造语义的自主权,这里的自主说的不是删除修改隐藏之类的控制(这些当然也可以有),而是指:说话者一旦创造了一项语义,这项语义就理应始终存在并始终与他这一个体联系在一起,直到曾经听到过这句话的人(包括他自己)都死光了或者他们全都把它给忘了,我说“理应”,是因为在传统的自然语言世界,情形确乎如此。 比如我对你说了句“丘吉尔是个美国人”,你从该言语中提取出若干条语义,至少在一段时间内,你会将这些语义和我联系在一起(这种联系本身也是一种语义,但那是我用行动表达的,你经由观察我的行动而获得),在将这些语义与你头脑里既有的语义网做运算之后,你可能产生了一条新语义,类似于“此人说了句蠢话”,在你记忆存续的限度内,这些语义会始终存在于你的语义网中。 可是搜索引擎却不会如此处理语义,它们只会被当作一个统计样本对待,淹没在无数同类样本的海洋里,失去了其原本具有的个人面目。 【机器理解】 在语义深度提取方面走得最远的,可能是IBM的Watson,在某些条件下,它从文本中提取语义的能力已与人类相当(和搜索引擎一样,它也从其他来源提取语义),不过,就我的需求(帮助自然语言使用者在图灵世界创造语义)而言,Watson至少在近期内仍难以指望。 首先是因为它还过于昂贵,所以还不会大量制造,暂时只会被用于能带来显著收益的用途;我们知道,自然语言的理解是高度历史依赖的,机器的主要弱点便在于它没有经历导致每个人类个体存在的那漫长历史(注意:导致每一个体存在的历史,都是整个宇宙历史进程中的一条独特轨迹,每条轨迹都不同),因而未能继承历史所赋予个体的信息(包括进化史所赋予的遗传信息和生活史所赋予的个体经验),所以,在机器能够开始从某类文本中深度提取语义之前,必须经历一个代价高昂的预学习过程。 假如我们希望机器能够像我们的社交伙伴一样顺畅的理解我们的言语,必须至少让他经历三个预学习阶段:首先,它要获得理解人类语言所需要的认知能力,其次,它要学会特定的语种,并习得以该语种为母语的那个文化,最后,它还要了解它将要倾听的那个特定人类个体的说话习惯(即便同母语的人类个体之间也并不总是能够顺畅对话的)。 实施这一过程本身代价高昂,而且这部机器在这段时间内将被该任务所独占,所以,除非Watson已便宜到能被用作个人信息设备,还难以指望它来满足我们的需求,它或许已能够从我们的言语中深度提取语义,但和搜索引擎一样,还不可能为我们保留语义自主性,而只能将我们的言语当作统计样本做匿名化处理。 【总结】
方案 言语持久化 贴标签 用行动说话 语义化言说 词汇索引 机器理解
实例  IM/BBS  blog/MB  豆瓣  维基  Google  IBM Watson
语义化  无  弱    中等  中等  强
语义表达  无  主动  主动  主动  被动  被动
开放性  开放  开放  封闭  半开放  开放  开放
匿名化  否  否  否  是  是  是
语义中心化  否  否  是  是  不必  不必
语义自主性  无  强  强  强  弱  弱
社会性  无  弱  强  无  无  无
     
『伊讲』前传:外部语义网络的诞生

【前图灵时代不存在外部语义网络】

因为自然语言的语义挥发性,言语不包含语义,起初(说出口之前)与言语相关的语义结构,被串行化成了语音/文本流(这一串行化过程被我称为语法生成),所以尽管前图灵时代留下了大量文本,但并不存在一个外部语义网(所谓外部,乃指外于个体头脑),语义信息仅存在于个体头脑之中,文本仅在被个体阅读时才在阅读者头脑中再现为语义。

当然,在前文字时代,连言语本身也是挥发性的。

【外部语义网络已随图灵机而诞生】

今天,每台计算机里都存储着大量语义信息,当一部图灵机读取此类语义信息,并驱动某台设备作出动作时,便产生了“意义”;显然,存储了不同代码或连接了不同设备的各台图灵机,在读取同一条语义信息后,可能引发(或不引发)不同动作,因而在此意义上,图灵世界同样存在歧义。

图灵世界的语义经由两种途径产生,一种是程序员按(more...)

标签: | |
5533
【前图灵时代不存在外部语义网络】 因为自然语言的语义挥发性,言语不包含语义,起初(说出口之前)与言语相关的语义结构,被串行化成了语音/文本流(这一串行化过程被我称为语法生成),所以尽管前图灵时代留下了大量文本,但并不存在一个外部语义网(所谓外部,乃指外于个体头脑),语义信息仅存在于个体头脑之中,文本仅在被个体阅读时才在阅读者头脑中再现为语义。 当然,在前文字时代,连言语本身也是挥发性的。 【外部语义网络已随图灵机而诞生】 今天,每台计算机里都存储着大量语义信息,当一部图灵机读取此类语义信息,并驱动某台设备作出动作时,便产生了“意义”;显然,存储了不同代码或连接了不同设备的各台图灵机,在读取同一条语义信息后,可能引发(或不引发)不同动作,因而在此意义上,图灵世界同样存在歧义。 图灵世界的语义经由两种途径产生,一种是程序员按某种人工语言的语法进行编码的结果,当一台通用图灵机读取这些编码并作出反应后,会在存储器中产生一个语义结构,当这些结构进而被读取以驱动设备时,便产生了意义。 在此过程中,程序员和图灵机所扮演的角色相当于自然语言中的说话者和受话者,区别在于:程序员与图灵机的对话遵循着一套精心设计的、严格且完备的语法约定,因而在图灵世界中,从言语(即程序编码)到语义的映射关系可以是无歧义的(尽管从语义到意义的映射仍是有歧义的)。 程序员和图灵机的对话,(除了产生一个语义结构)更重要的意义在于:它会在通用图灵机上创造出一部特殊图灵机(或称应用程序),以及一个相应的语义框架(即一组元语义,元语义是一种指示如何产生其他语义的特殊语义),它让其他人(用户)可以使用这部特殊图灵机做一些事,而当他们果真这么做时,机器便会按上述语义框架产生一些新语义(比如银行交易记录),这是图灵世界产生语义的第二种途径。 重要之处在于,这是在世界中产生语义信息的全新方式,它更加彻底的解耦了语义和意义:前图灵时代的个体也会通过行动创造语义,这些语义存储在他自己头脑中,而当用户在使用应用程序做事时,他可能明白自己行动的意义,但其行动所产生的语义却和他无关,也不(像他运用自然语言时所产生的语义那样)存在于他头脑之中,同时,存储了这些语义的机器,也无须了解产生这些语义的那些行动的意义。 【外部语义网络的互联和壮大】 起初的外部语义网通常是孤立的,每个系统有着自己的元语义,往往无法访问其他系统的语义信息,但在建立语义交互规范的种种努力的推动下,系统间的语义交互能力正日益增强,一个庞大的全球互联的外部语义网络正在浮现。 这个语义网,和传统意义上的文化一样,在构成人类生活条件的诸因素中,占据着重要且越来越重要的地位;但和文化不同,外部语义网在人类生活中起作用的方式更为直接:它可以绕过个体而直接产生意义,因为在一个由众多图灵机(及其存储系统)所构成的系统中,信息是直接以语义化形式存储的,因而可以直接被图灵机所利用而引发动作。 相反,文化信息由(口述传统或文本介质中的)言语构成,而言语不包含语义,只有被个体头脑解析之后才产生语义,而且每一个体有着自己独特的解析函数。 随着外部语义网的日益壮大,并且驱动着越来越多的设备,其(在决定人类生活条件方面的)地位将逐渐超越文化,或者(假如我们将文化的概念稍加扩大)可以说,它将逐渐成为文化的主要构成部分。 比如,制造系统在下一刻将制造些什么商品,传媒在下一刻将播送哪些内容,个人在下一刻将面临何种信息环境、接收到哪些信息,接触到哪些人,在商店货架上看到哪些商品,个人的某一言辞或行动将引发何种后果,学术界的研究兴趣将转向何处,人们如何使用某个词汇,如何看待某一历史事件,诸如此类的事情,将在越来越大的程度上取决于这一网络的内容构成。 【自然语言在新文化中的地位】 假如情况确实如此,那便提示着一种前景:在由外部语义网所主导的新型文化中,自然语言的地位在下降;在新文化中,个体主要以两种方式向外部语义网添加语义:程序员以对着图灵机说话的方式,但不是用自然语言,而是用人工语言,与其说话意图相关的语义将按严格约定得以精确再现;而其他人(或其他时候的程序员)则以使用各种应用程序实施行动的方式产生语义,如此产生的语义与其行动意图之间的对应关系并不明确。 无论何种方式,所使用的都不是自然语言。 诚然,在某些情况下,当用户使用应用程序实施行动时——诸如在填写某个格式表单时,在豆瓣某电影页面上点击“看过”时,在一个投票页面上点击“赞成”时——,应用程序所产生的语义,与用户的行动意图之间,是有着相当明确的映射关系的,在此意义上,我们可以说,用户和程序员一样:按其意图创造了语义。 但是,和以言语创造语义相比,以行动创造语义有着极大局限,它完全受限于应用程序所设定的语义框架,后者规定了何种语义可能经由用户行动而产生,比如在豆瓣,你只能表达“我-喜欢-某某”的语义,而不能表达“我-讨厌-某某”的语义,你只能“赞”一个帖子,却不能“踩”它,或“切”它、“嗯”它、“扯”它,因为程序员规定你不能这么做。 所以在图灵世界,只有一小撮程序员(或许可以称其为图灵时代的巫师)能够充分自由的按其意图创造语义,因为他们与图灵机对话时所用的语言是图灵完备的。 【我的焦虑】 我丝毫没有暗示一种卢德分子的姿态,哀叹技术霸权的威胁。只有一小撮人有机会按其意图以持久化方式创造语义,这一事态并不新鲜;前图灵时代,尽管人人都在说话,但只有极小部分个体的极小部分言语进入持久化介质(从而有机会跨越时空而在其他个体头脑中产生语义),而绝大部分语义,要么当即挥发了,要么随个体死亡而消失,未在文化长河中留下痕迹。 当然,言语也可以口耳相传的接力传递方式而在非持久化(或者说不那么持久化的)介质上实现持久化,但如此流传下来的言语,在总量中所占比例也是极低的,传播通道很大程度上被一小撮巫师、游吟诗人、说唱艺人所垄断,而且当它们在听众头脑中被再现为语义时,这些语义与当初的言说意图之间的相关性,往往已经非常微弱了。 所以没什么大不了的。 不过我确实有一种焦虑,因为我意识到,在持久化语义生产这个行当里,以自然语言为工具的生产者的地位正在迅速跌落,而我本人,尽管也是位程序员,但也是位作家,而且相对而言我更偏爱以自然语言为工具生产语义,所以我不希望自然语言在这个行当里的地位沦落到无关痛痒的程度。 【注:尽管按我的定义,用自然语言产生的言语(和记录它们的文本)并不包含语义,但它们有机会跨越时空而在读者头脑中产生语义,并且基于共同文化背景,这些语义与言说者当初的言说意图可以是高度相关的(究竟在多大程度上相关,还要看文化背景的共同程度和言说者运用自然语言的能力),所以我觉得仍有理由将写作视为一种持久化语义生产工作。】 这一焦虑促使我思考一个问题:如何在图灵时代的语义生产行当中挽救自然语言的命运?  
『伊讲』的语言学基础

Semantics.1300x5801)自然语言以言语(speech)为其表达形式;

2)说话时,说话者通过语法生成器(GG)将某个与其说话意图相关的语义结构(SS-A)转换为言语;

3)言语通过传播介质(以语音流或文本流的形式)到达受话者(听者或读者,可以是他自己);

4)受话者通过语法解析器(GP)(并借助其头脑中已有的语义网络)将接收的言语解析为一个语义结构(SS-B);

5)受话者可能会将解析得到的语义(部分或全部)写入其语义网络中;

6)解析得到的语义可能当即触发受话者的某种行为;

7)当传播介质具有记忆性因而同(more...)

标签: |
5525
Semantics.1300x5801)自然语言以言语(speech)为其表达形式; 2)说话时,说话者通过语法生成器(GG)将某个与其说话意图相关的语义结构(SS-A)转换为言语; 3)言语通过传播介质(以语音流或文本流的形式)到达受话者(听者或读者,可以是他自己); 4)受话者通过语法解析器(GP)(并借助其头脑中已有的语义网络)将接收的言语解析为一个语义结构(SS-B); 5)受话者可能会将解析得到的语义(部分或全部)写入其语义网络中; 6)解析得到的语义可能当即触发受话者的某种行为; 7)当传播介质具有记忆性因而同时也是存储介质时,言语可能被存储; 8)言语不包含语义; 9)因而与言语相关的语义(无论SS-A或SS-B)不会被任何外部介质存储,自然语言的这一特性,被我称为“语义挥发性(semantic volatility)”; 10)从SS-A到SS-B之间至少经过了两次映射,这些映射函数存在于每一个体头脑中,它们在不同个体之间、在同一个体的不同时刻之间,都可以是不同的; 11)因而SS-A与SS-B之间的映射关系是高度多变且不稳定的,自然语言的这一特性,被我称为(空间维度上的)歧义和(时间维度上的)语义漂变; 12)SS-A与SS-B之间的相关性,取决于说话者的GG与受话者的GP的相关性,以及两者头脑中的语义网络的相似性,这些相关性,常被笼统的称为共同文化背景,它们进而取决 于两者生活史和神经结构的相似性,并最终取决于导致两个个体存在的全部历史;  
『伊讲』的哲学基础

1)知识(knowledge)是且仅是(可能)影响个体行为的信息(information);

2)知识的意义(meaning)仅在于它(可能)如何影响个体行为;

3)知识分散存在于个体头脑中;

4)存在于其他介质中的信息不是知识;

5)自然语言是一种信息工具,借助它,个体可以在自身或他人头脑中产生知识;

6)对自然语言的上述运用,在个体头脑中产生了一个语义网络(semantic network),它们之间通过口述传统或各种文本介质发生交互;

7)该语义网络的某些特性,使得(5)所提到的知识生产工作变得极富成效;

8)语义是且仅是(符号之间的)(more...)

标签: | |
5521
1)知识(knowledge)是且仅是(可能)影响个体行为的信息(information); 2)知识的意义(meaning)仅在于它(可能)如何影响个体行为; 3)知识分散存在于个体头脑中; 4)存在于其他介质中的信息不是知识; 5)自然语言是一种信息工具,借助它,个体可以在自身或他人头脑中产生知识; 6)对自然语言的上述运用,在个体头脑中产生了一个语义网络(semantic network),它们之间通过口述传统或各种文本介质发生交互; 7)该语义网络的某些特性,使得(5)所提到的知识生产工作变得极富成效; 8)语义是且仅是(符号之间的)关系; 9)语义不包含意义; 9.1)当语义与个体头脑中的其他信息共同影响行为时,意义出现了; 10)言语通过(经由语法转换)接入上述语义网络而获得其语义结构(即一组关系); 11)言语不包含意义; 12)言语仅在被听(或读)者接受时,才(在如何可能影响其当前或未来行为的sense上)产生意义; 13)当众多个体在众多时刻众多场合进行(5)中的知识生产工作时,任何言语和语义结构之间的映射函数必定是高度多变(varied)而不稳定的(unstable); 14)这种(空间维度上的)多变和(时间维度上的)不稳定,常被称为“歧义”和“衍讹”(我称之为“语义漂变(semantic free float)”); 15)歧义和语义漂变是自然语言的特性而非缺陷,它让上述语义网络保持自由和开放性; 16)所谓(语义上的)自由,是指任何个体在任何时候任何场合都有机会创造新语义; 17)所谓(语义上的)开放性,是指语义网络有能力不断容纳新语义;