含有〈语义〉标签的文章(5)

语义的起源

【2015-10-16】

@海德沙龙 本文摘选自作者一部有关桑(布须曼)人神话传说的专著,其中谈论了桑人神话中的一种叙事方式,即如何通过图形或符号传达意义,对我们理解语言的演化和早期图形文字的起源都有所启发,类似现象在其他文化中也都可以看到,但桑人提供了一个更原始朴素的例子 °桑人神话的叙事方式

@whigzhou: 我推荐此文是因为它呼应了我有关语言的一个看法:言语无法也不必包含意义,它只是一个刺激序列,用于在听者头脑里唤起相应的观念。

(more...)
标签: | |
6920
【2015-10-16】 @海德沙龙 本文摘选自作者一部有关桑(布须曼)人神话传说的专著,其中谈论了桑人神话中的一种叙事方式,即如何通过图形或符号传达意义,对我们理解语言的演化和早期图形文字的起源都有所启发,类似现象在其他文化中也都可以看到,但桑人提供了一个更原始朴素的例子 °桑人神话的叙事方式 @whigzhou: 我推荐此文是因为它呼应了我有关语言的一个看法:言语无法也不必包含意义,它只是一个刺激序列,用于在听者头脑里唤起相应的观念。 @whigzhou: 由此引出两个推论:1)言语的信息量和被交流观念的信息量没有直接对应关系;2)有效交流所需要的最小言语单位是不可确定的,可能只是一个音节,也可能是一段长篇大论 @whigzhou: 这一观点若运用在短语这一层次(表现为所谓典故),相信多数人都会同意,但其实在基础词汇这一层次,和多个句子组成的大段落这样的层次,同样成立  
『伊讲』:回归自然语言的本色

你大概已经猜到了『伊讲』大概是个什么东西,没错,把几种语义化方案中被我视为可欲的那些特性合并起来,便是『伊讲』的特性:伊是一种强语义化的、让说话者主动表达语义的、语义开放的、去中心化的、非匿名化的(因而是个人化的)、强社会性的语义化方案。

方案 言语持久化 贴标签 用行动说话 语义化言说 词汇索引 机器理解 语法标记
实例  IM/BBS  blog/MB  豆瓣  维基  Google  IBM Watson  伊讲
语义化  无  弱  强  中等  中等  强  强
语义表达  无  主动  主动  主动  被动  被动  主动
开放性  开放  开放  封闭  半开放  开放  开放  开放
匿名化  否  否  否  是  是  是  否
语义中心化    否  是  是  不必  不必  否
语义自主性  无  强  强  强  弱  弱  强
社会性  无  弱  强  无  无  无  强

在我列举的各方案中,豆瓣拥有最多我所期待的特性,但豆瓣也有两个我最痛恨的特性:她是封闭的(即语义专制的),也是语义中心化的,而同时,twitter(或其他微博客)是开放和去中心化的(当然,豆瓣同时也是微博客,但她的这两部分在语义功能上是相互孤立的,我说的是它区别于微博客的地方),但推特的语义化又太弱了,这是因为标签机制的语义功能太弱。

『伊讲』的方案,就是把twitter的标签升级为语法标记,从而让机器能够从(more...)

标签: | |
5537
你大概已经猜到了『伊讲』大概是个什么东西,没错,把几种语义化方案中被我视为可欲的那些特性合并起来,便是『伊讲』的特性:伊是一种强语义化的、让说话者主动表达语义的、语义开放的、去中心化的、非匿名化的(因而是个人化的)、强社会性的语义化方案。
方案 言语持久化 贴标签 用行动说话 语义化言说 词汇索引 机器理解 语法标记
实例  IM/BBS  blog/MB  豆瓣  维基  Google  IBM Watson  伊讲
语义化  无  弱  强  中等  中等  强  强
语义表达  无  主动  主动  主动  被动  被动  主动
开放性  开放  开放  封闭  半开放  开放  开放  开放
匿名化  否  否  否  是  是  是  否
语义中心化    否  是  是  不必  不必  否
语义自主性  无  强  强  强  弱  弱  强
社会性  无  弱  强  无  无  无  强
在我列举的各方案中,豆瓣拥有最多我所期待的特性,但豆瓣也有两个我最痛恨的特性:她是封闭的(即语义专制的),也是语义中心化的,而同时,twitter(或其他微博客)是开放和去中心化的(当然,豆瓣同时也是微博客,但她的这两部分在语义功能上是相互孤立的,我说的是它区别于微博客的地方),但推特的语义化又太弱了,这是因为标签机制的语义功能太弱。 『伊讲』的方案,就是把twitter的标签升级为语法标记,从而让机器能够从言语文本中深度提取语义,这样一来,用户便可以像在twitter中那么说话,但同时起到了在豆瓣中实施行动深度相当的语义效果,又不会被束缚于豆瓣那种“以行动说话”的方式对词汇和句型必定施加的严格限制,我将这种方案叫做“语法标记”。 语法标记方案的一个优势是,技术实现上非常容易,让机器解析一个带有语法标记的言语文本,是要求较低的任务,存在语法标记的情况下,语法解析工作是相当机械化的;假如我们的目标语言是英语的话,即便没有语法标记,解析也不会太难。 无标记解析确实也是一个选项,不过『伊讲』的目标语言是汉语,无标记解析会比较困难(比如划词就是个大麻烦),我一个人大概啃不下来(我下决心开始做『伊讲』的前提之一是,相信自己至少能够独力完成伊的第一个版本)。 除了汉语文本的特性带来的技术障碍,我选择标记方案还有另一个理由:无标记解析需要更多的词法和句法约定,这会给说话者施加更多限制,这是我不希望看到的,因为这会妨碍自然语言历来具有的持续进化特性。 有了标记,词法上可以充分自由:你可以将任意符号组合(只要和标记本身不冲突)当作动词用,或当作其他任何语法成分用,自然语言里就是这样的,比如你可能会说“昨天我又被方滨兴了,所以没有伊讲。” 若依靠无标记解析,即便解析器非常聪明,可能也要过好久,采集了足够多言语样本之后,才明白“方滨兴”和“伊讲”都可以当作动词用,在此之前,它可能会怀疑“方滨兴”和“了”之间漏了个什么词(总不能假定用户从来不会手抖吧?),而弄不明白“伊讲”到底是个名词、形容词还是助词,而借助标记,说话者可以直接告诉解析器那就是个动词。 其实语法标记也不算是说话者的额外负担,口语带很多标记,停顿、重音、声调等等,都可以被作为语法标记附加到语音流中,只是变成文本时,这些信息要么丢失了,只能靠阅读者自己脑补,或者被替换成了标点符号等书面标记,『伊讲』的解析器仍会尽量利用这些书面标记,但因为它还不够聪明,也不想预设太多约定,所以需要用户多加些标记。 现在让我们来看看『伊讲』在图灵时代的自然语言信息模型中处于什么位置: 图:图灵时代的自然语言信息模型 图中左边的主动方案就是『伊讲』,在接收到言语文本后,伊做了两件事:对文本作语法解析,提取其中语义并写入外部语义网,然后将文本格式化为易读形式送进相应的时间线,这些被提取的语义会一直关联着说话者。 在恰当的情境下,这些语义会被机器利用并产生意义,也会(在经历一系列转换后)进入说话者自己和其他人的信息环境中,变成对后者或许有价值的信息,继而在后者头脑中产生知识;在今后的文章里,我会解释“恰当的情境”和“一系列转换”究竟是什么,简单说,就是经过两层映射,首先是社会关系映射,其次是个体知识模型的映射,最终变成个体知识。 在我看来,定义这两层映射的模型,是『伊讲』的核心价值,它具体化了哈耶克的(加上我的)知识论哲学:知识分散存在于个体头脑,并通过社会关系网络传播,这种传播平行而分散的发生于整个社会关系网的一个个局部,特定个体在特定时刻获取何种信息,取决于他处于社会关系网的什么位置,以及他从自身这个节点出发,与哪些周围节点存在何种关系。 显然,这个模型是个人主义的,去中心化的,而同时又是充分参与并利用了外部语义网的。 好了,这就是『伊讲』。 或许你仍会问:听上去很好,可这究竟有啥用? 假如你觉得豆瓣比其他SNS多一点点好处,那『伊讲』就会把这好处放大很多倍,指数式的放大,比如: 1)记录生活:其他SNS也会记录你说过的话,但未经语义化的记录上用处不大的,比如你没法方便的“看看今年我看过哪些电影”,吃过哪些餐馆,去过哪些地方,碰到过哪些人,做过哪些事,买过哪些东西,买衣服花了多少钱,喝醉过几次…… 2)发展社会关系:其他SNS也会帮助你发展社会关系,但方式很单调(往往单调的让人厌烦),比如告诉你某人和你都关注谁谁谁,都被谁谁谁关注;豆瓣的方式有意思一些:会告诉你他和你都读过某某书,都喜欢某某电影,但也不过如此;伊讲的方式会有意思的多:比如伊可能告诉你,你们都在西湖里游过泳,都在大理骑过车,或都在5月35号喝醉过。 3)获得有意思的反馈:依我看,好的说话环境应该会对言语行为作出丰富而贴切的反馈,比如你说你正在读某本书,若能得到“你的某某朋友读过这本书”之类的反馈,会比较有意思,或者当你说想去某地方旅行,想吃点新鲜的,想听点新歌……,最好也会有反馈; 4)人机对话:实际上,在对言语进行反馈时,机器已经默默参与了对话,它在倾听你的言语,然后从外部语义网中提取一些它认为值得反馈给你的信息;在『伊讲』里,这种对话可以更直接的方式进行,即,你可以明确的对着机器说话,他会当即作出响应,比如你可以告诉它:我想看看明天的天气如何;给我放首新歌听听,你知道我口味的;或者,给我放首新歌听听,别管我口味……诸如此类(当然,这还是较远期的承诺,这方面的潜力会逐渐挖掘,这样的反馈需要机器真正了解词汇的“意义”,因为那需要驱动设备产生行为,我相信伊会慢慢被教会各种意义的) …… 还有许多好处,我就先不一一细述了,实际上也没法细述,语义信息的潜在价值是无穷无尽的,它有待我们一点点去挖掘,作为设计者的我,在开发测试过程中,也常常被它所展现出的潜力所打动。    
『伊讲』前传之二:语义化的几种方案

本文的“语义化”,是指“帮助自然语言使用者将其言语的相关语义信息持久化到外部语义网络中”。

【为何需要语义化】

首先是因为许多人想要生产语义,人类的表达需求从来都很强烈,而且他们多半会希望自己所表达的内容至少有机会在某些情形下产生意义,而随着外部语义网的地位日益提高,此类机会将在越来越大的程度上等同于它们进入这个语义网的机会;

其次是为了自由。自然语言的分立和自发协调特性,让它的使用者在表达上享有充分的自由,即,其语法规范乃由个体间协调过程自发形成,而非由某个单一意志所设计,在多大程度上遵循或偏离规范的问题上,个体始终保有自主性和灵活性,而在此问题上的大量个体选择,始终在推动着语言规范的持续进化,正因此,除非受某种强力所压制,基于自然语言而产生的文化网络可以是非常自由而开放的。

相比之下,至少到目前为止,图灵世界的人工系统几无例外的具有强烈的语义专制倾向,这是因为,这些人工系统的设计者通常将语法上的严格性和一致性列为非常优先的考虑,对于建造特定功能特定用途的工具,这么做可能是必须或有益的,但假如这种专制性扩大到在系统级别上主导作为人类社会存在基础的整个文化系统,那是不可接受的。

诚然,图灵世界也存在大量分立的人工系统,因为有着大量分立的程序员个体,以及大量尝试建造人工系统的分立意志,因而图灵世界同样有着丰富的多样性;然而,这些人工系统迄今还缺乏自然语言所具有的那种自发协调能力,因而这些系统之间的关系是两极化的:要么处于单一规范的专制之下,要么相互孤立。

所以,至少在眼下,我们仍需要自然语言。

幸运的是,已经有了种种努力来帮助自然语言使用者实现语义持久化,下面我们来比较一下这些方案的特点。(这些努力的本意当然未必是帮助自然语言使用者,但只要实际上有着这样的效果,我就会将其列为语义化方案,所以这里的“方案”一词,是从用户角度出发说的。)

【言语持久化】

这个方案通俗地说就是让用户可以用自然语言在图灵世界说话,从而让言说内容得以持久化,但语义仍然挥发了。

从文字编辑器、电子邮件、BBS、IM,到blog、twitter,已经产生了大量以自然语言表达的电子文本。

由于电磁介质是远比传统介质优良的持久化介质,可访问性也好得多,所以尽管被持久化的仅仅是言语而非语义,但这至少为说话者创造了一种机会:当未来有了某种二次语义化的可行手段之后,从这些言语中多少有望再现出一些语义。

【贴标签】

blog和twitter都引入了标签机制,允许说话者为其言语附加标签;标签是一种语义信息,尽管只是一种非常弱的语义,它只能在若干言语之间建立非常松散的语义关系,而无法在一条言语内部各成分之间建立语义关系,而后者才是语义的主要来源,所以这只能算一种弱语义化方案。

不过它也有一些好处:1)简单易用;2)语义是用户按其意图主动表达的;3)较为自由,对何种符号组合可以用作标签基本上没有限制。

【用行动说话】

前面我已提到,图灵世界产生语义的第二种方式,是用户使用应用程序实施行动,此时应用程序可能就这些行动产生一些相关语义,不过,通常应用程序采集这些语义是用来服务于它自身的目的,而不是帮助用户表达,所以这些语义未必与用户的表达意图之间有什么确切关系(况且用户在这么做时也并非想表达什么)。

不过,有些类型的应用程序,比如社交类应用,会提供这样的功能:当用户作出某个动作时,便产生一个语义结构,同时生成一句言语,这样一来,用户实施行动的效果就和说话颇有些相似,行内还有个古怪的词汇称呼此类动作,叫“发状态”,比如当你在豆瓣某个电影页面点击“看过”时,就相当于你说了“我看过某某电影”这样一句话。

这种方式的好处是:用户在说话的时候,一句言语被传送出去的同时,语义也被持久化了,而且这些语义确切对应了说话者的言说意图。

问题是,这种模式在语义上是高度专制的,每个动词对应着应用程序的一项功能,每类宾语名词对应着它的一个语义框架(即一组元语义),每个宾语名词对应着该语义框架下的一个语义实例,所有这些,都是程序员在与图灵机对话时明确规定好的,程序员就像这个封闭语言世界里的上帝,规定了你可以用哪些动词和名词,而且数量通常极为有限,比如豆瓣的动词大概不超过十个,主语则只有一个:我。←难怪有人说社交应用迷都是自恋狂。

【语义化言说】

维基实际上是一种增强了的标签系统;标签是一种弱语义,它不表示言语内部各成分之间的关系,而只是在言语之间建立关系;不过维基从两方面强化了标签的语义功能:1)强制任何言语必须附属于某一标签之下(从而构成一个词条),因而词条名便成为该言语的主题标签,2)维基鼓励用户在言语中大量使用标签作为词汇。

于是,言语之间的语义连接至少在数量上大幅膨胀了,尽管这种语义化仍然是肤浅的。(晚近的维基百科已包含了更多不那么肤浅的语义化信息,但这些信息的表达方式已经远离了自然语言,而是由词条编写者按照某个为特定词条类别而设计的语义框架填充而成(通常以键-值对形式出现在词条页面的右侧))

维基是开放的,意思是个体可以按自己的意图添加或编辑词条,从而表达语义(实际上这也是非常受限的,比如当你想添加一个人名词条时,维基会告诉你这个人物必须有一定重要性,比如是位大学教授),但就语义表达需要而言,最致命的是:维基是匿名化和语义中心化的。

匿名化是指:语义信息在被持久化时,丢失了它源自哪个说话者这一信息;语义中心化是指:语义网络在空间上是无歧义的,即,任一给定时刻,无论访问者从何种途径访问这个语义网络,他(它)读取到的语义拓扑是完全一样的,换句话说:与任一概念(或符号)相连接的语义拓扑,在任一时刻只有一个版本。(尽管每个维基词条可以保存多个版本,但这只是维基的一种编辑管理手段,任一时刻在语义网中生效的,即可能被行动者读取从而产生意义的,只有一个版本。)

正是这一点,和我的((more...)

标签: | |
5535
本文的“语义化”,是指“帮助自然语言使用者将其言语的相关语义信息持久化到外部语义网络中”。 【为何需要语义化】 首先是因为许多人想要生产语义,人类的表达需求从来都很强烈,而且他们多半会希望自己所表达的内容至少有机会在某些情形下产生意义,而随着外部语义网的地位日益提高,此类机会将在越来越大的程度上等同于它们进入这个语义网的机会; 其次是为了自由。自然语言的分立和自发协调特性,让它的使用者在表达上享有充分的自由,即,其语法规范乃由个体间协调过程自发形成,而非由某个单一意志所设计,在多大程度上遵循或偏离规范的问题上,个体始终保有自主性和灵活性,而在此问题上的大量个体选择,始终在推动着语言规范的持续进化,正因此,除非受某种强力所压制,基于自然语言而产生的文化网络可以是非常自由而开放的。 相比之下,至少到目前为止,图灵世界的人工系统几无例外的具有强烈的语义专制倾向,这是因为,这些人工系统的设计者通常将语法上的严格性和一致性列为非常优先的考虑,对于建造特定功能特定用途的工具,这么做可能是必须或有益的,但假如这种专制性扩大到在系统级别上主导作为人类社会存在基础的整个文化系统,那是不可接受的。 诚然,图灵世界也存在大量分立的人工系统,因为有着大量分立的程序员个体,以及大量尝试建造人工系统的分立意志,因而图灵世界同样有着丰富的多样性;然而,这些人工系统迄今还缺乏自然语言所具有的那种自发协调能力,因而这些系统之间的关系是两极化的:要么处于单一规范的专制之下,要么相互孤立。 所以,至少在眼下,我们仍需要自然语言。 幸运的是,已经有了种种努力来帮助自然语言使用者实现语义持久化,下面我们来比较一下这些方案的特点。(这些努力的本意当然未必是帮助自然语言使用者,但只要实际上有着这样的效果,我就会将其列为语义化方案,所以这里的“方案”一词,是从用户角度出发说的。) 【言语持久化】 这个方案通俗地说就是让用户可以用自然语言在图灵世界说话,从而让言说内容得以持久化,但语义仍然挥发了。 从文字编辑器、电子邮件、BBS、IM,到blog、twitter,已经产生了大量以自然语言表达的电子文本。 由于电磁介质是远比传统介质优良的持久化介质,可访问性也好得多,所以尽管被持久化的仅仅是言语而非语义,但这至少为说话者创造了一种机会:当未来有了某种二次语义化的可行手段之后,从这些言语中多少有望再现出一些语义。 【贴标签】 blog和twitter都引入了标签机制,允许说话者为其言语附加标签;标签是一种语义信息,尽管只是一种非常弱的语义,它只能在若干言语之间建立非常松散的语义关系,而无法在一条言语内部各成分之间建立语义关系,而后者才是语义的主要来源,所以这只能算一种弱语义化方案。 不过它也有一些好处:1)简单易用;2)语义是用户按其意图主动表达的;3)较为自由,对何种符号组合可以用作标签基本上没有限制。 【用行动说话】 前面我已提到,图灵世界产生语义的第二种方式,是用户使用应用程序实施行动,此时应用程序可能就这些行动产生一些相关语义,不过,通常应用程序采集这些语义是用来服务于它自身的目的,而不是帮助用户表达,所以这些语义未必与用户的表达意图之间有什么确切关系(况且用户在这么做时也并非想表达什么)。 不过,有些类型的应用程序,比如社交类应用,会提供这样的功能:当用户作出某个动作时,便产生一个语义结构,同时生成一句言语,这样一来,用户实施行动的效果就和说话颇有些相似,行内还有个古怪的词汇称呼此类动作,叫“发状态”,比如当你在豆瓣某个电影页面点击“看过”时,就相当于你说了“我看过某某电影”这样一句话。 这种方式的好处是:用户在说话的时候,一句言语被传送出去的同时,语义也被持久化了,而且这些语义确切对应了说话者的言说意图。 问题是,这种模式在语义上是高度专制的,每个动词对应着应用程序的一项功能,每类宾语名词对应着它的一个语义框架(即一组元语义),每个宾语名词对应着该语义框架下的一个语义实例,所有这些,都是程序员在与图灵机对话时明确规定好的,程序员就像这个封闭语言世界里的上帝,规定了你可以用哪些动词和名词,而且数量通常极为有限,比如豆瓣的动词大概不超过十个,主语则只有一个:我。←难怪有人说社交应用迷都是自恋狂。 【语义化言说】 维基实际上是一种增强了的标签系统;标签是一种弱语义,它不表示言语内部各成分之间的关系,而只是在言语之间建立关系;不过维基从两方面强化了标签的语义功能:1)强制任何言语必须附属于某一标签之下(从而构成一个词条),因而词条名便成为该言语的主题标签,2)维基鼓励用户在言语中大量使用标签作为词汇。 于是,言语之间的语义连接至少在数量上大幅膨胀了,尽管这种语义化仍然是肤浅的。(晚近的维基百科已包含了更多不那么肤浅的语义化信息,但这些信息的表达方式已经远离了自然语言,而是由词条编写者按照某个为特定词条类别而设计的语义框架填充而成(通常以键-值对形式出现在词条页面的右侧)) 维基是开放的,意思是个体可以按自己的意图添加或编辑词条,从而表达语义(实际上这也是非常受限的,比如当你想添加一个人名词条时,维基会告诉你这个人物必须有一定重要性,比如是位大学教授),但就语义表达需要而言,最致命的是:维基是匿名化和语义中心化的。 匿名化是指:语义信息在被持久化时,丢失了它源自哪个说话者这一信息;语义中心化是指:语义网络在空间上是无歧义的,即,任一给定时刻,无论访问者从何种途径访问这个语义网络,他(它)读取到的语义拓扑是完全一样的,换句话说:与任一概念(或符号)相连接的语义拓扑,在任一时刻只有一个版本。(尽管每个维基词条可以保存多个版本,但这只是维基的一种编辑管理手段,任一时刻在语义网中生效的,即可能被行动者读取从而产生意义的,只有一个版本。) 正是这一点,和我的(也是哈耶克的)知识论哲学背道而驰,正如哈耶克在论文“The Use of Knowledge in Society”(1945)中指出,知识分散存在于个体头脑,因而任一个体在任一时刻仅能访问到世界全部知识的极小部分,而且其中任意两个个体访问到的信息,总是大不相同。(也正因此,任何复杂到值得被珍视的社会,必须容许个体拥有起码的自由——不过我不打算在此细述这一判断与前述哲学之间的逻辑关系。) 直到外部语义网出现之前,上述断言仍然成立,但外部语义网是个例外,它确实可以实现中心化,问题是,在该网络地位日益显要的前景下,作为个人主义者和自由主义者,我当然希望它向着去中心化的方向发展,但维基的方向与此相反。 中心化必然导致语义专制,维基的开放性仅仅由创始人的善意、以及他所建立的组织文化所保障,那是靠不住的,实际上,维基已经发展出了一个金字塔式的层级审查系统,大量编辑在紧盯着词条的修改动向,据说每个词条的生杀大权最终掌握在36位全球顶级编辑手中;非常讽刺的是,Jimmy Wales恰恰也是哈耶克信徒,并曾宣称维基的哲学基础正是哈耶克的上述论文。 匿名化的另一个问题是使得言语行为失去了社会性,而许多人正是将说话当作一种社交活动,而不仅仅是为了创造语义(但反过来,创造语义会促进社交,这一点从豆瓣可以看得很清楚,从强语义性令其发展出了和其他弱语义SNS十分不同的社交形态)。 所以很明显,维基不是个适合说话的地方,除非你准备采取一种说一不二的知识权威(或语义上帝)的姿态,不过,这种姿态,和编撰百科全书这样的目标,倒好像是挺搭的。 【词汇索引】 搜索引擎从言语文本中提取出词汇(也叫关键词),并加以索引,从而产生语义(当然言语文本不是它索引的唯一对象,它还索引很多原本就已语义化的东西)。 起初,这种方式所达到的语义化程度并不比维基强多少,只是语义关系的数量会更庞大,因为维基只是将文本中部分词汇标签化,而搜索引擎会把所有词汇(除了虚词)都当作关键词来对待(即将其作为语义网中的一个节点)。 不过,随着搜索引擎对文本的理解能力不断提高,它提取语义的深度也在加深,因而从同一个文本集中所能提取到的语义更多也更不肤浅了。 就我们的需要而言(帮助自然语言使用者在图灵世界创造语义),这一方案的问题是:它也是匿名化的;和维基不同的是,维基的匿名化服务于其语义中心主义,要实现语义中心化,就只能匿名,而搜索引擎只是不关心一段言语的说话者是谁,因为其业务逻辑不需要它关心,任何文本只是作为某个统计样本集中的一个样本而被处理。 搜索引擎倒不必是语义中心化的,它完全可以为处于不同情境下的访问者就同一个词汇给出不同的语义拓扑(这种情况可以出现在个性化搜索或情境化搜索中,这就好比,当我们在不同场合与不同的人交谈时,就同一个概念可以获得不同的语义信息),即便它没这么做,至少也不存在什么业务逻辑上的需要,迫使它追求语义中心化。 然而,尽管不必是中心化的,搜索引擎处理语义的方式仍妨碍了它服务于我们的需求:它不会为说话者保留对其所创造语义的自主权,这里的自主说的不是删除修改隐藏之类的控制(这些当然也可以有),而是指:说话者一旦创造了一项语义,这项语义就理应始终存在并始终与他这一个体联系在一起,直到曾经听到过这句话的人(包括他自己)都死光了或者他们全都把它给忘了,我说“理应”,是因为在传统的自然语言世界,情形确乎如此。 比如我对你说了句“丘吉尔是个美国人”,你从该言语中提取出若干条语义,至少在一段时间内,你会将这些语义和我联系在一起(这种联系本身也是一种语义,但那是我用行动表达的,你经由观察我的行动而获得),在将这些语义与你头脑里既有的语义网做运算之后,你可能产生了一条新语义,类似于“此人说了句蠢话”,在你记忆存续的限度内,这些语义会始终存在于你的语义网中。 可是搜索引擎却不会如此处理语义,它们只会被当作一个统计样本对待,淹没在无数同类样本的海洋里,失去了其原本具有的个人面目。 【机器理解】 在语义深度提取方面走得最远的,可能是IBM的Watson,在某些条件下,它从文本中提取语义的能力已与人类相当(和搜索引擎一样,它也从其他来源提取语义),不过,就我的需求(帮助自然语言使用者在图灵世界创造语义)而言,Watson至少在近期内仍难以指望。 首先是因为它还过于昂贵,所以还不会大量制造,暂时只会被用于能带来显著收益的用途;我们知道,自然语言的理解是高度历史依赖的,机器的主要弱点便在于它没有经历导致每个人类个体存在的那漫长历史(注意:导致每一个体存在的历史,都是整个宇宙历史进程中的一条独特轨迹,每条轨迹都不同),因而未能继承历史所赋予个体的信息(包括进化史所赋予的遗传信息和生活史所赋予的个体经验),所以,在机器能够开始从某类文本中深度提取语义之前,必须经历一个代价高昂的预学习过程。 假如我们希望机器能够像我们的社交伙伴一样顺畅的理解我们的言语,必须至少让他经历三个预学习阶段:首先,它要获得理解人类语言所需要的认知能力,其次,它要学会特定的语种,并习得以该语种为母语的那个文化,最后,它还要了解它将要倾听的那个特定人类个体的说话习惯(即便同母语的人类个体之间也并不总是能够顺畅对话的)。 实施这一过程本身代价高昂,而且这部机器在这段时间内将被该任务所独占,所以,除非Watson已便宜到能被用作个人信息设备,还难以指望它来满足我们的需求,它或许已能够从我们的言语中深度提取语义,但和搜索引擎一样,还不可能为我们保留语义自主性,而只能将我们的言语当作统计样本做匿名化处理。 【总结】
方案 言语持久化 贴标签 用行动说话 语义化言说 词汇索引 机器理解
实例  IM/BBS  blog/MB  豆瓣  维基  Google  IBM Watson
语义化  无  弱    中等  中等  强
语义表达  无  主动  主动  主动  被动  被动
开放性  开放  开放  封闭  半开放  开放  开放
匿名化  否  否  否  是  是  是
语义中心化  否  否  是  是  不必  不必
语义自主性  无  强  强  强  弱  弱
社会性  无  弱  强  无  无  无
     
[微言]奎因难题

【2012-08-29】

@whigzhou: 批罗活动给我自己带来的第一个成果,发现一个重要问题,像罗斯巴德这种通过行为本身(比如所谓劳动与土壤的结合)来获得权利的方式,会面临奎因难题,即,一个事件本身是不包含语义的,而权利的描述是包含语义的,所以,从现象到语义的过渡必须由一个对话过程来完成,而罗氏体系中缺乏这个对话过程

@whigzhou: 这样,一碰到稍稍复杂一点的情景,罗氏理论就完全无从着手

@Azzssss: “语义”是什么意思?

@whigzhou: 你看看这个(more...)

标签: | |
4511
【2012-08-29】 @whigzhou: 批罗活动给我自己带来的第一个成果,发现一个重要问题,像罗斯巴德这种通过行为本身(比如所谓劳动与土壤的结合)来获得权利的方式,会面临奎因难题,即,一个事件本身是不包含语义的,而权利的描述是包含语义的,所以,从现象到语义的过渡必须由一个对话过程来完成,而罗氏体系中缺乏这个对话过程 @whigzhou: 这样,一碰到稍稍复杂一点的情景,罗氏理论就完全无从着手 @Azzssss: “语义”是什么意思? @whigzhou: 你看看这个大概就明白了 http://t.cn/zW3w2zm @logisgood: 除了数学公理体系,其它理论都会有这样的困难,从具体到抽象的鸿沟。 @whigzhou: 有对话就可以解决,而契约主义是基于对话的 @whigzhou: 所以罗氏提到的资源只有土地一种,离开土地就彻底抓瞎,举个例子:一群野牛游荡在一片草原上,某甲追踪它们,伺机射杀了一只,那么,甲的劳动究竟是与这片草原结合了,还是与这个牛群?还是仅仅他射中的那头牛?还是他瞄准过的? @whigzhou: 这个问题,只有当两个相互竞争资源的猎手对话时,才能被澄清  
“市场失灵”是什么意思?

我很少用这个词,无论是在表达自己观点,还是评论别人观点时,因为它已被用得太滥,混乱到难以用来准确传达意思了。

不过既然小橘子又提到这茬(她与jflycn的这段讨论有点长,我就不在这儿摘录了),而且显然许多人还在用它,我觉得还是有必要理一理。

“市场失灵”这个词,我听到过且还能想起来的,至少有这样几种用法:

1)一种可欲的状况,没有在市场制度下出现(或者相反,一种不可欲的状况,在市场制度下出现了,下同);

2)任何现实制度,多少都包括些市场的和非市场的元素,在某些事情的发展上,市场元素没能起主导作用,因而未能让一些可欲的状况出现;(这种用法很让人抓狂,但确实不少见)

3)一种可欲的、且至少可以合理想象(所谓“可以合理想象的”,是指它与目前已知的自然律都不冲突(more...)

标签: | |
1645
我很少用这个词,无论是在表达自己观点,还是评论别人观点时,因为它已被用得太滥,混乱到难以用来准确传达意思了。 不过既然小橘子又提到这茬(她与jflycn的这段讨论有点长,我就不在这儿摘录了),而且显然许多人还在用它,我觉得还是有必要理一理。 “市场失灵”这个词,我听到过且还能想起来的,至少有这样几种用法: 1)一种可欲的状况,没有在市场制度下出现(或者相反,一种不可欲的状况,在市场制度下出现了,下同); 2)任何现实制度,多少都包括些市场的和非市场的元素,在某些事情的发展上,市场元素没能起主导作用,因而未能让一些可欲的状况出现;(这种用法很让人抓狂,但确实不少见) 3)一种可欲的、且至少可以合理想象(所谓“可以合理想象的”,是指它与目前已知的自然律都不冲突)的状况,在市场制度下没有出现; 4)一种可欲的、可想象的状况,尽管我们可以合理的想象其如何从某个初始状态发展而来,并且从那个初始时刻起,我们已等待了足够长时间,但它还是没有在市场制度下出现; 5)一种可欲的状况,在市场制度下没出现,但在不同于市场制度的另一种制度下,或者,加入一些非市场元素的市场制度中,因为这些非市场元素的作用,出现了; 6)依我们对市场及其进化机制的了解,本可期待某种状况在某个有限时间段内出现,但它让我们失望了。 前两种是最常见的朴素说法:市场未能消除乞丐,市场没有让每个人感到幸福,等等,这不过是在用貌似学术化的语言,倾诉一个宗教性的情怀:看哪,市场不是天堂。如此而已。 第3种说法相当于:市场没能爬上视野所及的最高峰;这就好比:进化没能造就出可以想象的性能最优良的器官;对此,我可以轻松坦然接受,只要你不把市场和进化视为上帝,都可以坦然接受:市场是一种类进化机制,它是短视和渐进的,到达视野内最高峰的路上,或许有着难以逾越的鸿沟。 第4种说法是第3种的加强版,QWERTY键盘是最常见的例子,它考虑了路径可达性(没有忘记进化是渐进的),但没有考虑路径的历史依赖(但忘记了进化是短视的)。 第5种说法是对市场最有力的质疑,但是,它对“失灵”一词的原有词义做了最大的扭曲,它想说的其实不是“市场失灵”,而是“市场不好”,至少在某些方面没有其它制度好,这当然是可以接受的,至少是值得严肃讨论的,假如我们搁置价值观分歧(即对什么是“可欲的”的分歧),可以举出很多例子说明市场在某些方面不如其他制度。 问题是,对制度的比较不能仅从“某些方面”进行,通货膨胀是坏事,金本位可以消除通胀,但金本位在其他方面造成的代价呢?假如金二愿意,朝鲜也可消除通胀,还可以避免许许多多在市场中出现的“不可欲的”结果,那又如何? 当你比较两种制度时,必须考虑它们的总体效果,而当你评估一项依票决结果为市场制度打补丁的动议时,不能只考虑补丁的效果,也不能只考虑“有这个补丁的市场和没有这个补丁的市场”之间的差别,还要考虑“一个引入了票决补丁制的市场和没有票决补丁制的市场”之间的差别。 所以,当人们在第5种意义上说“市场失灵”时,他们其实想说的或许只是:市场制度是有代价的(我完全同意),或:市场制度比其他替代制度差(我不同意)。 最后,按我对“失灵”一词的理解,第6种说法才是对该词的正确用法,但它仅相当于:我们对市场的理解有待改进,因而对它的预期应有所调整——当然,没错,我想没人会反对。