含有〈语言〉标签的文章(79)

不那么重要

【2016-04-08】

@海德沙龙 《美式英语里那些”u”是怎么丢掉的》 是啊,究竟是怎么弄丢的?

@whigzhou: 文化进化的有趣案例,印刷术启动了一个英语拼写向统一标准靠拢的自发协调过程,而由于传播障碍的存在,协调过程在英美两个社会各自进行,最终收敛到了不同的均衡点。

@whigzhou: 由此也可看出,在协调博弈中,均衡点的位置往往有着很大任意性,最终收敛在哪个点上也并不那么重要(-(more...)

标签: | |
7061
【2016-04-08】 @海德沙龙 《美式英语里那些"u"是怎么丢掉的》 是啊,究竟是怎么弄丢的? @whigzhou: 文化进化的有趣案例,印刷术启动了一个英语拼写向统一标准靠拢的自发协调过程,而由于传播障碍的存在,协调过程在英美两个社会各自进行,最终收敛到了不同的均衡点。 @whigzhou: 由此也可看出,在协调博弈中,均衡点的位置往往有着很大任意性,最终收敛在哪个点上也并不那么重要(-or和-our在功能上同样有效),重要的是能否收敛到某个点  
[译文]美式英语里那些”u”是怎么丢掉的

The case of the missing “u”s in American English
美式英语缺失的u

作者:Olivia Goldhill @2016-1-17
译者:林翠(@cwlinnil)
校对:小册子(@昵称被抢的小册子)
来源:Quartz,http://qz.com/596395/the-case-of-the-missing-us-in-american-english/

When my American editor asked me to research why Brits spell their words with so many extra ‘u’s, I immediately knew he had it all wrong. As a British journalist, it’s perfectly obvious to me that we have the correct number of ‘u’s, and that American spelling has lost its vowels along the way.

我的编辑,美国人,约我写文探讨英国人拼写词汇时用到的那么多额外的u,我第一反应是他从提法上就错了。在我这位英国记者看来,毫无疑问,我们用的u不多不少,是美国人不知从何时起丢掉了一些元音。

“Color,” “honor,” and “favor” all look quite stubby to me—they’re positively crying out to be adorned with a few extra ‘u’s.

像color,honor,favor这样的词,以我看来又粗又短——正不停哭叫着要找回那些额外的u来装扮其容貌。

But it turns out that the “o(u)r” suffix has quite a confused history. The Online Etymology Dictionary reports that –our comes from old French while –or is Latin. English has used both endings for several centuries. Indeed, the first three folios of Shakespeare’s plays reportedly used both spellings equally.

但其实,o(u)r这个后缀来历挺复杂。查在线词源词典,-our来自古法文,-or来自拉丁文。曾经有好几百年,两种结尾同时在英文里使用。例如,在莎士比亚戏剧前三版的对开本里,据说两种拼写就不加区分。

But by the late 18th and early 19th centuries, both the US and the UK started to solidify their preferences, and did so differently.

但在十八世纪后期至十九世纪前期,美国人和英国人各自确立了截然不同的偏好。

The US took a particularly strong stand thanks to Noah Webster, American lexicographer and c(more...)

标签: | |
6718
The case of the missing “u”s in American English 美式英语缺失的u 作者:Olivia Goldhill @2016-1-17 译者:林翠(@cwlinnil) 校对:小册子(@昵称被抢的小册子) 来源:Quartz,http://qz.com/596395/the-case-of-the-missing-us-in-american-english/ When my American editor asked me to research why Brits spell their words with so many extra ‘u’s, I immediately knew he had it all wrong. As a British journalist, it’s perfectly obvious to me that we have the correct number of ‘u’s, and that American spelling has lost its vowels along the way. 我的编辑,美国人,约我写文探讨英国人拼写词汇时用到的那么多额外的u,我第一反应是他从提法上就错了。在我这位英国记者看来,毫无疑问,我们用的u不多不少,是美国人不知从何时起丢掉了一些元音。 “Color,” “honor,” and “favor” all look quite stubby to me—they’re positively crying out to be adorned with a few extra ‘u’s. 像color,honor,favor这样的词,以我看来又粗又短——正不停哭叫着要找回那些额外的u来装扮其容貌。 But it turns out that the “o(u)r” suffix has quite a confused history. The Online Etymology Dictionary reports that –our comes from old French while –or is Latin. English has used both endings for several centuries. Indeed, the first three folios of Shakespeare’s plays reportedly used both spellings equally. 但其实,o(u)r这个后缀来历挺复杂。查在线词源词典,-our来自古法文,-or来自拉丁文。曾经有好几百年,两种结尾同时在英文里使用。例如,在莎士比亚戏剧前三版的对开本里,据说两种拼写就不加区分。 But by the late 18th and early 19th centuries, both the US and the UK started to solidify their preferences, and did so differently. 但在十八世纪后期至十九世纪前期,美国人和英国人各自确立了截然不同的偏好。 The US took a particularly strong stand thanks to Noah Webster, American lexicographer and co-namesake of the Merriam-Webster dictionaries. Webster was a language reformer and, as Merriam-Webster.com notes, the creator of a dictionary in 1806 that attempted to rectify some of the inconsistencies he observed in English spelling. He preferred to use the –or suffix and also suggested many other successful changes, such as reversing “re” to create “theater” and “center,” rather than “theatre” and centre.” 美式拼写立场特别明确,这要归功于美国词典编纂家诺亚·韦伯斯特,即《韦氏词典》的韦氏。韦伯斯特是当年的语言革新人物,据公司官网Merriam-Webster.com 提供的资料,他在1806年出版词典,目的之一是澄清某些不一致的英文拼写。他选择了后缀 -or,除此还有很多得到采用的改动,比如对调 -re为-er后,造出theater和center,代替了原有的theatre和centre。 However, other Webster proposals, such as changing “tongue” to “tung,” “women” to “wimmen,” “island” to “iland,” and “thumb” to “thum” were ultimately rejected. 韦伯斯特也有过一些别的提议,后来没有得到认可,例如把tongue换成tung,women换成wimmen,island换成iland,thumb换成thum。 Meanwhile in the UK, Samuel Johnson wrote A Dictionary of the English Language in 1755. Johnson was far more of a spelling purist than Webster, and decided that in cases where the origin of the word was unclear, it was more likely to have a French than Latin root. “We have few Latin words, among the terms of domestick use, which are not French,” wrote Johnson. And so he preferred –our to –or. 而在英国,塞缪尔·约翰逊博士于1755年编就《英文字典》。约翰逊博士远比韦伯斯特更热衷于拼写纯正化。并且断定,如果一个词来源不清楚,那它更可能拥有法文词根,而非拉丁词根。约翰逊博士的说法是:“我们平常用的词里面,非法语来源的拉丁词不多。”所以, -our与 -or之间他选择 -our。 “I have endeavoured to proceed with a scholar’s reverence for antiquity, and a grammarian’s regard to the genius of our tongue,” he wrote. As such, he “attempted few alterations.” 他写道:“学者崇奉古老传统,语法家则看重吾辈口舌之灵巧,我始终以此两者自勉。”有鉴于此,他“尽量不作改动。” So while the UK chose to preserve linguistic roots, the US opted to modernize spelling. And if you’re wondering which country got it right, the answer is, well, neither. Language is constantly evolving, and the US and UK simply went their different linguistic ways. 总而言之,在英国人选择保护词源时,美国人则选择改革拼写。谁对谁错的问题没有意义。语言在不断地演变,英美只是走上了不同进化道路,如此而已。 (编辑:辉格@whigzhou) *注:本译文未经原作者授权,本站对原文不持有也不主张任何权利,如果你恰好对原文拥有权益并希望我们移除相关内容,请私信联系,我们会立即作出响应。

——海德沙龙·翻译组,致力于将英文世界的好文章搬进中文世界——

会说有文字语言的文盲

【2016-01-15】

@海德沙龙 《数数能力的进化》 人类数数和使用数字的能力,是一项十分晚近的发展, 其历史很可能远远短于现代智人的历史,人类学家发现,多数狩猎采集群体的语言都缺乏表示比3更大数字的词汇,本文介绍了一项对澳洲语系的各语言中数字词汇演变的研究,其中有些很有意思的发现

@海德沙龙: 另外,显示计数能力的考古证据最早出现于四万多年前的中石器时代(一块叫Lebombo bone的骨头,上面有许多计数刻痕),而中石器时代正经历着一次认知革命。

(more...)
标签: | | |
7018
【2016-01-15】 @海德沙龙 《数数能力的进化》 人类数数和使用数字的能力,是一项十分晚近的发展, 其历史很可能远远短于现代智人的历史,人类学家发现,多数狩猎采集群体的语言都缺乏表示比3更大数字的词汇,本文介绍了一项对澳洲语系的各语言中数字词汇演变的研究,其中有些很有意思的发现 @海德沙龙: 另外,显示计数能力的考古证据最早出现于四万多年前的中石器时代(一块叫Lebombo bone的骨头,上面有许多计数刻痕),而中石器时代正经历着一次认知革命。 @whigzhou: 计数、文字以及更一般的符号处理能力,让人类认知系统跨上了一个台阶,我在《沐猿而冠》中将之称为“第二轮升级” @whigzhou: 《信息简史》作者(见第二章)也认为符号处理能力是一种革命性的发展,因而有文字语言和无文字语言有着根本性的区别,我觉得很有道理,依我看,即便是习得了有文字语言的文盲,认知能力也大不同于只掌握了无文字语言的人 @whigzhou: 因为有文字语言能够编码高级而复杂的多的meme系统,而更高级复杂的meme系统同样可以惠及文盲,只要他习得该语言  
小心被中文毒害

【2015-10-30】

最近听到不少诸如“别让孩子学中文或读中文材料以免受其毒害”之类的,我看有点反应过度了,说几点看法:

1)中文(即汉语官话之书面语)不是很好的语言,特别是在表达精确而复杂的结构性内容时,

2)但这不好不是该语言的“本性”决定的,而是因为它缺乏被高密度大强度的运用于此类精确表达的历史,

3)认为学某种语言就会被该语言所特有的思维模式所困住,这种想法过于语言决定论了,

4)有些人确实会被语言困住,但那是因为他们自己足够蠢,或信息条件足够闭塞,

5)语言没什么固有不变的本性,使用者总是在不断改造它,当某种表达需(more...)

标签: | |
6935
【2015-10-30】 最近听到不少诸如“别让孩子学中文或读中文材料以免受其毒害”之类的,我看有点反应过度了,说几点看法: 1)中文(即汉语官话之书面语)不是很好的语言,特别是在表达精确而复杂的结构性内容时, 2)但这不好不是该语言的“本性”决定的,而是因为它缺乏被高密度大强度的运用于此类精确表达的历史, 3)认为学某种语言就会被该语言所特有的思维模式所困住,这种想法过于语言决定论了, 4)有些人确实会被语言困住,但那是因为他们自己足够蠢,或信息条件足够闭塞, 5)语言没什么固有不变的本性,使用者总是在不断改造它,当某种表达需求足够强烈、频繁而普遍时,新成分就会被创造出来, 6)就认知能力发展而言,拼音化和非拼音化书面语各有好处,有机会各学一门挺好, 7)但不学也没什么大不了的,因为发展符号认知能力的其他机会很多,错过一种也无所谓, 8)当代中文材料里垃圾居多,这没错, 9)但因此而认为孩子学中文时接触这些材料会把脑子学坏,是没有道理的过度恐慌, 10)许多孩子确实被教坏了,比如学到很多坏的思考方法,习得很多坏的文化, 11)但这不是因为接触了太多垃圾,而是因为没机会读到好东西, 12)希望将孩子隔离在垃圾之外,这既无必要,也做不到,哪里都有很多垃圾,英文世界也是, 13)重要的是要让他有机会接触好东西,品味都是靠多吃练出来的。  
语义的起源

【2015-10-16】

@海德沙龙 本文摘选自作者一部有关桑(布须曼)人神话传说的专著,其中谈论了桑人神话中的一种叙事方式,即如何通过图形或符号传达意义,对我们理解语言的演化和早期图形文字的起源都有所启发,类似现象在其他文化中也都可以看到,但桑人提供了一个更原始朴素的例子 °桑人神话的叙事方式

@whigzhou: 我推荐此文是因为它呼应了我有关语言的一个看法:言语无法也不必包含意义,它只是一个刺激序列,用于在听者头脑里唤起相应的观念。

(more...)
标签: | |
6920
【2015-10-16】 @海德沙龙 本文摘选自作者一部有关桑(布须曼)人神话传说的专著,其中谈论了桑人神话中的一种叙事方式,即如何通过图形或符号传达意义,对我们理解语言的演化和早期图形文字的起源都有所启发,类似现象在其他文化中也都可以看到,但桑人提供了一个更原始朴素的例子 °桑人神话的叙事方式 @whigzhou: 我推荐此文是因为它呼应了我有关语言的一个看法:言语无法也不必包含意义,它只是一个刺激序列,用于在听者头脑里唤起相应的观念。 @whigzhou: 由此引出两个推论:1)言语的信息量和被交流观念的信息量没有直接对应关系;2)有效交流所需要的最小言语单位是不可确定的,可能只是一个音节,也可能是一段长篇大论 @whigzhou: 这一观点若运用在短语这一层次(表现为所谓典故),相信多数人都会同意,但其实在基础词汇这一层次,和多个句子组成的大段落这样的层次,同样成立  
[大象]“进化”还是“演化”?

“进化”还是“演化”?
辉格
2015年6月6日

时不时会听到这样一种说法,说把“evolution”翻译成“进化”是个错误,因为后者暗含了“进步”的意思,因而这个译法容易让人错误的以为生物进化过程是有着特定方向的,甚至是朝着某种预定目标阶梯式推进的,就像登山那样,循着一级级台阶爬向一个预先存在的巅峰,而最终有幸站在巅峰上的,正是我们人类。

批评者(本文一律用这个词来指称持下列批评意见的人)认为,进化没有方向性,更没有预定目标,进化这个概念也并不包含“从低级到高级”的进步意味(我们甚至无法客观的比较高级和低级),而且evolution一词也没有这样的含义,所以正确的译法是“演化”;比如2009年出版的《为什么要相信达尔文》一书便采用了这一译法,芝加哥大学的龙漫远教授在为该译本作序时还特意强调:——

对于中心概念evolution——这一被长期误译为‘进化’的最重要的单词,书使用了中国近代最伟大的学者和翻译家之一严复准确翻译出的‘演化’(天演)一词。这是中文世界对演化生物学中心概念理解的一个重要进步。

另外,据说前些年台湾的官编教科书也都改用了“演化”这一译法。

那么,上述批评是否成立?“进化”果真是个误译吗?我的回答并不是简单的是或否,因为这一批评实际上包含了一系列观点,让我们一个个分开看。

【词源学】

英语evolution一词源自拉丁语evolvo,意思是展开或打开,批评者也常据此宣称该词没有进步和目的性意味;我承认,它确实没有进步意味,但有着强烈的目的性意味,实际上,该词在近代被(比如18世纪瑞士博物学家Charles Bonnet)用于描绘生物现象时,起初是指生物个体的发育过程,即后来用develop一词所表达的意思。

此时,“展开”的意思便是“按预定步骤、朝着预定结果展开”,因为很明显,生物个体的发育过程,即是从未成形的胚胎向着该物种所特有的成熟形态发展的过程,这是一个其步骤和结果皆高度可预见的过程;这一点我们对照evolution的另一种用法可以看得更清楚:作为一个军事术语,该词的意思是,让军队(比如在演习中)按预定方案展开部署。

后来,当进化思想开始萌生时,这个词转而被用来描绘生物的种系发生过程,也就是说,在如此使用该词的人看来,种系发生就像个体发育一样,是在一种生物内在倾向的驱动下自动展开的过程;目前有据可查的首位采用该用法的学者是苏格兰博物学家罗伯特·詹姆森,他在一篇论(more...)

标签: | |
5583
“进化”还是“演化”? 辉格 2015年6月6日 时不时会听到这样一种说法,说把“evolution”翻译成“进化”是个错误,因为后者暗含了“进步”的意思,因而这个译法容易让人错误的以为生物进化过程是有着特定方向的,甚至是朝着某种预定目标阶梯式推进的,就像登山那样,循着一级级台阶爬向一个预先存在的巅峰,而最终有幸站在巅峰上的,正是我们人类。 批评者(本文一律用这个词来指称持下列批评意见的人)认为,进化没有方向性,更没有预定目标,进化这个概念也并不包含“从低级到高级”的进步意味(我们甚至无法客观的比较高级和低级),而且evolution一词也没有这样的含义,所以正确的译法是“演化”;比如2009年出版的《为什么要相信达尔文》一书便采用了这一译法,芝加哥大学的龙漫远教授在为该译本作序时还特意强调:——

对于中心概念evolution——这一被长期误译为‘进化’的最重要的单词,书使用了中国近代最伟大的学者和翻译家之一严复准确翻译出的‘演化’(天演)一词。这是中文世界对演化生物学中心概念理解的一个重要进步。

另外,据说前些年台湾的官编教科书也都改用了“演化”这一译法。 那么,上述批评是否成立?“进化”果真是个误译吗?我的回答并不是简单的是或否,因为这一批评实际上包含了一系列观点,让我们一个个分开看。 【词源学】 英语evolution一词源自拉丁语evolvo,意思是展开或打开,批评者也常据此宣称该词没有进步和目的性意味;我承认,它确实没有进步意味,但有着强烈的目的性意味,实际上,该词在近代被(比如18世纪瑞士博物学家[[Charles Bonnet]])用于描绘生物现象时,起初是指生物个体的发育过程,即后来用develop一词所表达的意思。 此时,“展开”的意思便是“按预定步骤、朝着预定结果展开”,因为很明显,生物个体的发育过程,即是从未成形的胚胎向着该物种所特有的成熟形态发展的过程,这是一个其步骤和结果皆高度可预见的过程;这一点我们对照evolution的另一种用法可以看得更清楚:作为一个军事术语,该词的意思是,让军队(比如在演习中)按预定方案展开部署。 后来,当进化思想开始萌生时,这个词转而被用来描绘生物的种系发生过程,也就是说,在如此使用该词的人看来,种系发生就像个体发育一样,是在一种生物内在倾向的驱动下自动展开的过程;目前有据可查的首位采用该用法的学者是苏格兰博物学家罗伯特·詹姆森,他在一篇论文里介绍拉马克理论时用了evolve一词,而拉马克的进化理论,恰恰是一种目的论的、阶梯式的线性进化观。 这样的进化观念,按现代生物学理论,当然是非常错误的,但当时许多博物学家确实或多或少是这么认为的,这也许让进化一词背上了一个历史包袱:容易令人望文生义而产生一些不恰当的联想,但这包袱不应由翻译者负责,因为原文本来就带着这层意思;支持这一点的另一个有力证据是:英语里还有devolution一词,是evolution的反义词,意思是退化,evolution若果真没有方向意味,那devolution又从何谈起? 【进化到底有没有方向性?】 至此,我已赞同了批评者的一个观点:“进化”一词曾经不恰当的包含了目的论和阶梯式进步的意味(但责任不在翻译者);那么,在排除了这个低级错误之后,进化过程是否仍可识别出某种方向性,让它仍配得上“进”这个字? 回答这个问题之前,我想最好先澄清一下:什么叫“进化”?什么叫“有没有”?什么叫“方向性”?先看第一个问号。 进化是指地球生物的全部历史吗?还是指该历史的某个方面?假如是后者,那它似乎就很容易配得上“进”字,因为我们可以认为它是专指整棵种系发生树上那些复杂性随时间而提升的线路,你可能会说这只是在玩弄文字游戏,但我有充分理由如此使用进化这一概念,因为这正是生物学界也是日常谈论中的传统用法。 实际上,从拉马克、斯宾塞到达尔文,提出种种进化理论的动机,就是为了解释:我们所看到的令人惊叹的复杂生命形态,是如何从更简单原始的形态演变而来的,正是这些他们所认为的高级生物在结构上的复杂性和功能上的精巧,牵引着他们的好奇心,需要一个特别的解释——假如他们不满足于“上帝创造了它们”这句无内容空话的话。 所以,作为对复杂性来源的一种解释,进化理论的要点即在于阐明,从简单到复杂这一有着明确方向性的过程是如何发生的,当然,你可以说这些进程只是整个生物历史中的一些线索,并非全部,这或许没错,问题是,我们何以认定“进化”一词非得是指整个生物史而不是其某个方面呢?况且,从它被早期进化理论家使用的上下文看,它难道不总是和“从简单到复杂、从低级到高级”这样的意思联系在一起吗?不妨读一下《物种起源》最后一节:

凝视树木交错的河岸,许多种类的无数植物覆盖其上,群鸟鸣于灌木丛中,各种昆虫飞来飞去,蚯蚓在湿土里爬过,并且默想一下,这些构造精巧的类型,彼此这样相异,并以这样复杂的方式相互依存,而它们都是由于在我们周围发生作用的法则产生出来的,这岂非有趣之事。……这样,从自然界的战争里,从饥饿和死亡里,我们便能体会到最可赞美的目的,即高级动物的产生,直接随之而至。认为生命及其若干能力原来是造物主注入到少数类型或一个类型中去的,而且认为在这个行星按照引力的既定法则继续运行的时候,最美丽的和最奇异的类型从如此简单的始端,过去,曾经而且现今还在进化着;这种观点是极其壮丽的。

随便翻几本谈论进化史的著作,类似辞句比比皆是。更明确的证据来自各种生物或地质史教科书上的年代表(可以参考“[[Timeline of the evolutionary history of life]]”和“{{生命演化历程}}”这两个维基词条),晚近年代的标志性生物,总是比早先年代的更复杂,换句话说,尽管简单形态的生物也在不断演变并不断产生新类元,可一旦出现了比它们更复杂的类型,前者就不会再被当作某个地质年代的标志性生物。 反过来,我们很少听到有人用进化这个词去描绘像器官退化这样的事情,这种事情确实存在,比如许多寄生生物,随着其与宿主的共生关系的持续,在某些功能上日益依赖宿主,因而相应器官退化甚至消失,可是人们用来描绘这种情况的词汇,更可能是退化而非进化;如此,我们难道没有理由认为,人们提及“进化”时,强调的正是生物历史中复杂性提升的那些方面? 【那么整个生物历史有方向性吗?】 至此,我的论证仅仅针对“进化”一词的用法,这是个语言学问题,并未涉及任何生物学事实,你可能觉得这样的话题过于琐碎,好吧,现在让我们抛开词义之争,看看在事实问题上还有没有什么分歧。 直觉上,我们很容易相信生物历史是有方向性的(这里所谓方向性,是指某项统计指标与时间的相关性,即,若以该指标为Y轴,时间为X轴,采样值所构成的曲线要么向上倾向,要么向下倾斜),比如就以下类型的首次出现而言:真核生物晚于原核生物、多细胞晚于单细胞、复杂神经系统(比如大脑)晚于简单神经系统、真社会性昆虫晚于非社会性昆虫……总之,更复杂的形态总是更晚出现(咦?这不正是进化论的核心要点之一吗?) 这样,我们至少找出了一个指标——每个地质年代的最高生物复杂性——它是有方向性的。 但是批评者拒绝承认生物历史具有方向性:因为我们没有理由认为自然选择在任何条件下都偏爱更复杂的形态,而事实已表明,在某些条件下(比如在某些寄生关系中),它恰恰偏爱简单形态,同时,我们不能假定未来环境条件会如何变化,所以,从我们所接受的进化理论中,推不出任何方向性。 这个理由本身没错,问题是,我们所谈论的生物历史,并非发生在“任何条件下”,而是发生在银河系某个特定角落的某颗特定行星的特定时间段上,而这段特定历史有着一个极其重要的背景条件:太阳以近乎恒定的速率向地球输送能量,同时,维持地球生命系统的地质和化学条件,在此期间没有遭受毁灭性的破坏。 于是我们便面临上述第二个问号:什么叫“有没有”?说“生物史方向性”,究竟是指现代生物学在理论上保证了(即无论环境条件如何)它有方向性?还是指特定生物史在事实上表现出了方向性?假如是指后一种,那么答案是显而易见的:它有着明确无疑的方向性。 这是最弱意义上的方向性,但我们还可以指望更强意义的方向性,即,地球生命史所表现出的方向性,并非偶然,而是在满足某些简单背景条件——比如有机物丰度不降低、地球能量输入不衰减,诸如此类——的前提下必定会出现。实际上,一些研究复杂系统特别是生物复杂性的科学家,已经做出了这方面的尝试,或许他们的理论尚未被生物学界主流所认可,但至少还没有什么理由认为他们的想法在理论上就是行不通的。 【复杂性可以度量吗?】 对上述见解,批评者常提出的一种反驳是:复杂性根本不是一个科学概念,它无法被度量,既然无法度量,所谓方向性也就丧失了统计基础——你连采样曲线都画不出,谈何上倾下倾? 直觉上,我们很容易接受复杂性这个概念,当我们谈论“真核细胞比原核细胞复杂、多细胞生物比单细胞生物复杂、真社会性蚂蚁巢群比蚂蚁个体复杂、一只麻雀比一条蚯蚓复杂、一只猫的头脑比一只海胆的神经系统复杂……”时,无论说者和听者,似乎都能领会复杂一词的意思,而不是茫然不知所云。 而且生物学家也确实在用各种指标比较不同类元的复杂性,比如细胞分化程度、组织/器官的数量和分化程度、行为灵活性、神经系统的规模……等等;但批评者认为,这些指标是武断挑选的,不具有客观性(甚至挑选标准可能带有人类中心主义倾向),而且既然没有一个单一指标,所谓复杂性就无法被量化。 是直觉错了吗?不是。为证明这一点,不妨设想一种复杂性的终极度量方法,称之为终极,是因为它至少目前在技术上还不可行,这只是个思想实验,用来说明:宣称复杂性不可度量是错误的。 假设我们的生物学知识已足够充分,并且拥有充足的计算资源,让我们可以对生物体进行高度逼真的数字建模,逼真程度达到:若火星人拿到某物种成熟个体的模型数据,并掌握了必要的分子生物技术,便可从小分子开始造出(注意是造出而不是培育出,因为我们假设火星不存在该物种发育所需条件)一个成熟个体,然后,若将该造物混进一群该模型所模拟的原型生物,它无法被地球生物学家辨认出来。 于是我们有了一种度量复杂性的方法:数一下这个数字模型的比特数。 有人可能会问:何必如此麻烦,直接计算遗传物质里的信息量不就行了,毕竟遗传编码本身就是数字化的啊?问题是,至少对于多细胞生物,体现其复杂性的信息不仅存在于遗传物质里,也存在于体细胞中,因为发育过程乃至整个生活史中,个体在不断从环境中“吸收”信息,表现为各体细胞的基因开关状态,和神经细胞的突触连接拓扑与强度,所以假如只计算受精卵内遗传物质的信息量,会大大低估多细胞生物的复杂度。 最高复杂度随时间而提升,体现了进化是一个积累过程;积累性表现在三个方面,首先是构造元件库的扩充,假如我们把生物个体看作一部生存繁殖机器的话,用来建造它的元件是各种适应器,适应器一旦获得,只要还在履行某种功能,自然选择就会将它保持在种系的元件库里;假如每个种系的元件库都随时间而扩充,整个生物系统的元件库也将日益庞大。 其次是自组织,每当物种获得一种新元件,便会引发一个自组织过程,因为组成有机体的其他元件会对新伙伴作出反应,并与之建立一系列相互依赖关系,这些关系不仅本身构成了有机体复杂性的一方面,而且往往使得参与其中的元件发生改变而履行新功能,从而使元件本身也变得精致化了(精致意味着包含更多信息)。 最后也最壮观的,是新结构涌现(或曰元系统跃迁,[[metasystem transition]]),新结构可以由不同物种的共生关系,或者由同物种的近亲群聚而成,这样的结构较为松散,但假如这种关系朝向平等共享复制通道的方向发展,便可能在新层次上创建出相当于单一个体的紧密结构,就像从原核细胞内共生关系中发展出的真核细胞,从类似团藻的这样近亲群聚发展出真正的多细胞生物,从松散结合的近亲蚂蚁群体发展出和单一个体一样紧密的真社会性巢群。 任何层次上的新结构涌现,皆须以存在一个庞大而丰富的下层结构为基础,后者为新结构提供了元件库,也正因此,层次更多、结构更复杂的生物,总是晚于简单生物而出现,因为它们需要等待后者变得足够丰富以便用作其构造元件。 【另一种方向性:适应性】 除了复杂性,我们还有望从地球生命史中找出另一种方向性:总的适应性水平随时间而提高。乍一看,总适应性水平这个概念似乎不可能有意义,因为自然选择作用于具体的个体或种群,因而我们只能对个体、种群或物种谈论适应性。 但实际上,总适应性(或平均适应性)这个概念是有意义的,为说明这一点,我需要引入另一个思想实验,我称之为“姐妹地球”。设想地球有一个妹妹,她在所有方面与地球完全一样,唯一的差别是:她比地球年轻两亿岁,就是说,她和地球经历了完全相同的历史,只是其历史比地球滞后了两亿年。 好,现在我们可以为“总适应性”给出一个操作性定义了:任一时刻,从两个地球各随机选取一组种群,扔到对方的相似生态位上,隔若干年后看,来自哪颗地球的移民繁殖成效高,即认为它在那一刻的总适应性更高。 因为两颗地球的姐妹性质,上述同时刻跨球比较完全等价于同球的跨时间比较,假如比较结果呈现出某种固定模式,谈论总适应性便是有意义的,假如呈现出的模式是:晚近时刻的总适应性总是高于早先时刻,那就可以说,地球生命史在总适应性上也具有方向性。 尽管我们永远没机会做这个实验,但地球生命史上其实有过一些效果近似的实验(虽然近似度不高),为我们观察总适应水平提供了一些机会。在由地理隔绝所造成的相对孤立的各生态系统之间,隐约可以看到一些评估总适应性的线索,比如生物学家发现,岛屿的生态系统往往更容易被外来物种所入侵。 另外,面积较小、土地贫瘠(因而生物量小)且长期孤绝的澳洲,相比面积更大、生物更繁盛的大陆,在抵御入侵物种时,似乎表现的更为脆弱;在全球排名前一百的入侵物种榜单上,我们看到的原产地绝大多数是欧亚美非,极少有来自澳洲或更小生态系统的。 类似的,我们也可以比较两个物种的适应性,而且方法更简单易行,比如将两个物种规模相当的种群同置于若干生态位中,若干年后,看看哪个繁殖成效更高;当然,有些物种对之间可能分不出高下(或根本放不进同一生态位),这意味着物种适应性集合是偏序的、而非全序的,但只要是偏序的,我们就不能说:物种适应性是无意义的、无法比较的。 【高级低级之分有意义吗?】 批评者对“进化”一词的另一项抱怨是:它往往和高级/低级、原始/发达、成功/失败之类的观念联系在一起,但这些概念是无意义的,因为但凡经历了自然选择考验而生存下来的物种,按定义都是最具适应性的,没有理由说一些比另一些更适应、更成功、更高级,至少这种区分在同时代的物种(或更大类元)之间是无意义的。 或者,即便有意义,那也是基于人类的特有偏见:当我们比较认知能力时,采取的是人类中心主义,比较视觉能力时,采取的是灵长类中心主义,比较运动能力时,采取的是脊椎动物中心主义……,总之,无论比较什么,我们的关注焦点总是放在从原始汤通往我们自己的那条进化路线上,其余皆被视为“旁支”而予以忽视,正是这种偏见导致了阶梯式直线进化的错误观念。 这一批评包含了许多正确成分,除了其一般结论:高级低级是无意义的。正如我已阐明的,它至少可以有一种意义:复杂性高低;而且你恐怕很难说上述对复杂性的操作性定义也是人类中心主义的。 类似的,我们也可以有意义的谈论物种(或更大类元)的成功程度,“入侵物种”这个名字其实已经暗示了这一点,还有许多指标可以用来衡量成功,比如地理上的分布广度,所占据生态位的多样性,我们甚至还有一个度量成功的终极方法:计算物种的总生物量(大约相当于其所占用的原子量),你同样很难说这种度量是人类中心主义的。 一旦我们同意这些衡量标准是客观的,那么回头再看,人类确实称得上高级和成功,站在生命之巅傲视众生的、最令人生畏的入侵物种,无疑是我们,甚至我们的小伙伴们——老鼠、猫、蟑螂——也因得到我们的提携而成了可怕的入侵物种。 【为何进步概念如此受抵制?】 自启蒙时代直到上世纪初,有关进步的观念很少受到挑战,对于落后/进步、低级/高级、原始/成熟、朴陋/发达、野蛮/文明等等词汇所表达的意思,人们多少都有着共同的领会,尽管对于什么才算进步或高级,有着许多不同看法,但至少都承认这样的区分是有意义的。 然而自从一战以来,这些概念越来越受到抵制,并逐渐被清理出人文学科、社会科学界乃至公共舆论,甚至包括像生物学这样的自然科学领域;结果是,低级、原始、野蛮之类的词汇,几乎已成为禁忌;最为讽刺的是,推动这一清理工作的主要力量,恰恰来自左派阵营中常被称为(也常自视为)进步主义的那些思想流派。 其中最突出的一股潮流,被称为文化相对主义,它源自美国的文化人类学,但其影响几乎渗入了所有人文与社会学科。在我看来,生物学界对“进化”一词的抵制,彻底否认生命历程的方向性,拒绝任何高低之分,也是上述相对主义运动的一部分。 然而,如此推向极端的相对主义,实在与常识相去太远,以至其主张者自己也难以遵行,他们一方面要求人们不要去评判其他文化的高低优劣,一方面却不遗余力的攻击基督教、西方传统和各种他们所不喜欢的社会习俗。 当然,这么做未必算是自相矛盾,比如他们可以把相对主义解释为一种元规则:不得评判一种文化,除非这一评判是指向那些“鼓励其成员对其他文化大加评判”的文化特性,那倒也可以自圆其说,问题是,他们要求人们不去评判的,往往正是具有这些特性的文化,而且评判者所针对的,也往往正是这些特性,或者导致这些特性的其他方面。 实际上,在现代文明发展起来之前,几乎所有传统文化都强烈倾向于将异种文化作为挞伐对象(无论是伦理评价上还是行动上),而这些相对主义者身处其中、被他们骂得狗血淋头的西方文明社会,恰恰是最能宽容异种文化的——从这里,你真的就看不出任何高下之分吗? 不过话说回来,尽管我拒绝相对主义,但并不认为它一无是处,它确实有助于将我们从浸淫其中因而熟视无睹的文化背景中拉出来,促使我们对自身文化特性作出反思,重新评估哪些是最值得珍视的,哪些是为在一个多元开放社会和平共处而必须加以捍卫的,哪些是出于共存的需要必需加以克制和调整的,哪些只是我们的偏好或偏见。 然而,反思的结果不必是也不应是要求我们放弃自己的文化身份和伦理立场,或者放弃我们的偏好和偏见——除非它有碍于和平共存的需要。 类似的,对“进化”的批评意见,也可促使我们反思以往对复杂性和适应性的评价,看看哪些评价是出于人类中心主义的偏见,哪些是更客观的,但这一反思不必让我们放弃因我们祖先所走过的伟大进化历程,最终让我们登上灵性之巅而带来的骄傲和荣耀。
如何说一句正确的荒唐话

【2015-06-25】

@局外人c的空间:请教:“第一,转基因的环境危害、对其他物种的侵害、对人体的潜在风险,需要很长时间才能证明。第二,别人研发的转基因,相当于在不同的族群和区域里做了标……”。 以上是否完全胡扯?

@whigzhou: 第一句本身不算错,问题是它可以原封不动的适用于任何育种方法,把转基因单拎出来说就扯蛋了

@whigzhou: 这就好比说:剖腹产生下的男孩子,需要很长时间的观察,才能确信是否会变成另一个希特勒。(more...)

标签: |
6151
【2015-06-25】 @局外人c的空间:请教:“第一,转基因的环境危害、对其他物种的侵害、对人体的潜在风险,需要很长时间才能证明。第二,别人研发的转基因,相当于在不同的族群和区域里做了标……”。 以上是否完全胡扯? @whigzhou: 第一句本身不算错,问题是它可以原封不动的适用于任何育种方法,把转基因单拎出来说就扯蛋了 @whigzhou: 这就好比说:剖腹产生下的男孩子,需要很长时间的观察,才能确信是否会变成另一个希特勒。嗯,确实没错。 @whigzhou: 类似的,我可以在大街上随便找个男人,对他说:“昨晚你老婆没来陪我睡觉”,这几乎肯定是句正确的话  
Extreme Nativism

The Stuff of Thought》(第三章)

Pinker对Fodor的批评有个致命的漏洞,尽管Fodor的理论(按Pinker的表述,我不确定是否准确)无疑是荒唐的,而且Pinker的替代观点也很可能是对的(但依我看其有效性最多适用于动词,而不大可能适用于名词),但他的论证逻辑有缺陷。

Pinker将Fodor的Extreme Nativism归结为(或许只是个稻草人):
1)简单动词(相对于复合动词)是原子化的,不可还原的;这意味着——
2)所有简单动词都有着与之一一对应的神经结构;
3)因为这些神经(more...)

标签:
5557
The Stuff of Thought》(第三章) Pinker对Fodor的批评有个致命的漏洞,尽管Fodor的理论(按Pinker的表述,我不确定是否准确)无疑是荒唐的,而且Pinker的替代观点也很可能是对的(但依我看其有效性最多适用于动词,而不大可能适用于名词),但他的论证逻辑有缺陷。 Pinker将Fodor的Extreme Nativism归结为(或许只是个稻草人): 1)简单动词(相对于复合动词)是原子化的,不可还原的;这意味着—— 2)所有简单动词都有着与之一一对应的神经结构; 3)因为这些神经结构是不可还原的,因而也是先天的; 而Pinker的批评逻辑是: 1)简单动词的语法特性可以被归结为一组比它们更基础的、数量也少得多的概念; 2)因而简单动词是可还原的; 3)因而每个简单动词不必对应一个先天神经结构; “五六千个简单动词都每个对应着一个先天神经结构”——这显然是太过疯狂的假定,问题是—— 1)动词的语法特性(乃至一部分语义特性)可以被还原为更基础的概念,并不意味着它们在语义上也可以被彻底还原到这些基础概念,完全有可能,它们的部分语义成分就是无法还原的——或者说,任何此类还原努力总是信息有损的,其完整语义只能由其与其他词汇之间的全部关系来表达——这便意味着它们是原子的; 2)原子性或不可还原性,只要求它们每个都对应一个独特的神经结构,那不必是先天的; 3)这一独特神经结构中,可以包括Pinker所指出的那些语法特性,即,它们与一组基础概念之间的关系,但同样也可以包括它们与其他动词和名词之间的语义关系(而非语法关系); 4)只要去掉先天性这一要求,Fodor的理论就看不出任何荒谬之处,完全可能成立。
[微言]语言决定思想还是表达思想?

【2015-05-07】

@哈客曼:【陈嘉映:言意新辨】语言是思想得以表达的形式系统。 @whigzhou 大师怎么看陈老师的这篇长文。http://t.cn/8s1lOgI

@whigzhou: 好文章。依我看,语言决定论和“语言只是思想的表达”的说法都是不对的,说话既可以是既有思想的表达,也可以是思想过程本身,并且持续影响着未来的思考方式和内容

@whigzhou: 这同样是一个迭代过程,或许是有mentalese,但假如只有mentalese,我们的思想会非常简陋,言说过程不断精致化我们的思想,而更精致的思想继而又产生更精致的言说,如此迭代。

@whigzhou: 此其一。其二:从根本上说,语言的功能不是表达,而是在听者(可以是说话(more...)

标签: |
5620
【2015-05-07】 @哈客曼:【陈嘉映:言意新辨】语言是思想得以表达的形式系统。 @whigzhou 大师怎么看陈老师的这篇长文。http://t.cn/8s1lOgI @whigzhou: 好文章。依我看,语言决定论和“语言只是思想的表达”的说法都是不对的,说话既可以是既有思想的表达,也可以是思想过程本身,并且持续影响着未来的思考方式和内容 @whigzhou: 这同样是一个迭代过程,或许是有mentalese,但假如只有mentalese,我们的思想会非常简陋,言说过程不断精致化我们的思想,而更精致的思想继而又产生更精致的言说,如此迭代。 @whigzhou: 此其一。其二:从根本上说,语言的功能不是表达,而是在听者(可以是说话者自己)那里引出行为,任何陈述句的意义,在且仅在于它有机会在未来经由某个语义结构而转变为祈使句,若没有这样的机会,这句话便是无意义的 @whigzhou: 当然,这个引出过程可以非常迂回。这话题很有意思,不过现在忙着写代码没工夫细说,以后再谈 @tertio:任何神经通路的最终目的都是肌肉动作,原话记不太清了。 @whigzhou: 嗯嗯,严格说可能还要加上内分泌腺 @tertio:回复@whigzhou:内分泌如果不影响肌肉动作,也就没有存在的必要了。所以这句话还是严格的,发挥一下就是:所有系统内部过程的最终作用在于它对外部世界的影响。--几乎是图灵测试的一个注脚。 @whigzhou: 回复@tertio:等等,出汗好像可以独自构成意义(不过我不确定没有任何肌肉参与是否也能出汗) @whigzhou: 昨天和@sw小橘子 聊起陈老师文章里提到的汉语学生不擅长处理反事实句的例子,我不确定那个实验是否靠谱,也不认为那是支持语言决定论的有力证据,不过我确实发现很多人缺乏熟练处理反事实句的能力,比如在微博上,我放在“假如”后面的话就经常被评论者当作直述句来对待,我觉得这是认知能力的问题。 @whigzhou: 与直述句相比,处理反事实句需要更高阶的认知能力,实际上需要一种三阶虚拟机:首先是任何波普式造物都有的内部表征虚拟机,其次是自我表征所构成的意识虚拟机(这是语言的前提),而反事实句需要在意识虚拟机上再创建一部虚拟机来执行反事实信念下的逻辑演算 @whigzhou: 有关波普式造物(Popperian creatures),参见《自由的进化》第327页译注1,有关内部表征,参见http://t.cn/RAFY4df @whigzhou: 我认为心智健全的人都拥有这种能力,但只有经过适当练习才能熟练自如的运用它,而不同的文化与教育环境,提供了不同的练习机会。我猜测,在中文世界,这样的练习机会可能比较差,因为据我了解,在该文化中,反事实句经常被当作婉转直述句来使用 @哈客曼: 最近想到,对语言的处理才是人类最核心的能力,无论从哲学,技术,管理还是政治来说,似乎对人类所有的目的系统都是成立的。 @whigzhou: 嗯同意 @whigzhou: 汉语世界的人还特别喜欢揣摩说话者的“言下之意”,这是最让我讨厌的事情,其实我根本没什么言下之意,我从来不喜欢把意思放在言下,依我看,正是此类文化背景,训练了人们婉转和揣摩的能力,而削弱了他们处理复杂的反事实和条件分支语句的能力 @pathto:英语中虚拟语态,通过语法,明显的提醒读者这只是假设不是真的。汉语中似乎没有类似的语法吧 @whigzhou: 果若有这样的表达需要,缺少的语法成分很容易被创造出来,人们每天都在创造新词和新表达方式,不会(像语言决定论者认为的那样)傻傻的被束缚在语言牢笼中。比如,汉语以往确实不易表达虚拟语态,但“会”字已经被用来弥补这一缺陷,其使用频率似乎也在提高。 @whigzhou: “假如我是个女人,我会愿意嫁给里根” @whigzhou: 许多被蔑称为“翻译腔”或“港台腔”的表达方式,其实都是类似的创造,蔑者因为自己傻,不懂  
『伊讲』:回归自然语言的本色

你大概已经猜到了『伊讲』大概是个什么东西,没错,把几种语义化方案中被我视为可欲的那些特性合并起来,便是『伊讲』的特性:伊是一种强语义化的、让说话者主动表达语义的、语义开放的、去中心化的、非匿名化的(因而是个人化的)、强社会性的语义化方案。

方案 言语持久化 贴标签 用行动说话 语义化言说 词汇索引 机器理解 语法标记
实例  IM/BBS  blog/MB  豆瓣  维基  Google  IBM Watson  伊讲
语义化  无  弱  强  中等  中等  强  强
语义表达  无  主动  主动  主动  被动  被动  主动
开放性  开放  开放  封闭  半开放  开放  开放  开放
匿名化  否  否  否  是  是  是  否
语义中心化    否  是  是  不必  不必  否
语义自主性  无  强  强  强  弱  弱  强
社会性  无  弱  强  无  无  无  强

在我列举的各方案中,豆瓣拥有最多我所期待的特性,但豆瓣也有两个我最痛恨的特性:她是封闭的(即语义专制的),也是语义中心化的,而同时,twitter(或其他微博客)是开放和去中心化的(当然,豆瓣同时也是微博客,但她的这两部分在语义功能上是相互孤立的,我说的是它区别于微博客的地方),但推特的语义化又太弱了,这是因为标签机制的语义功能太弱。

『伊讲』的方案,就是把twitter的标签升级为语法标记,从而让机器能够从(more...)

标签: | |
5537
你大概已经猜到了『伊讲』大概是个什么东西,没错,把几种语义化方案中被我视为可欲的那些特性合并起来,便是『伊讲』的特性:伊是一种强语义化的、让说话者主动表达语义的、语义开放的、去中心化的、非匿名化的(因而是个人化的)、强社会性的语义化方案。
方案 言语持久化 贴标签 用行动说话 语义化言说 词汇索引 机器理解 语法标记
实例  IM/BBS  blog/MB  豆瓣  维基  Google  IBM Watson  伊讲
语义化  无  弱  强  中等  中等  强  强
语义表达  无  主动  主动  主动  被动  被动  主动
开放性  开放  开放  封闭  半开放  开放  开放  开放
匿名化  否  否  否  是  是  是  否
语义中心化    否  是  是  不必  不必  否
语义自主性  无  强  强  强  弱  弱  强
社会性  无  弱  强  无  无  无  强
在我列举的各方案中,豆瓣拥有最多我所期待的特性,但豆瓣也有两个我最痛恨的特性:她是封闭的(即语义专制的),也是语义中心化的,而同时,twitter(或其他微博客)是开放和去中心化的(当然,豆瓣同时也是微博客,但她的这两部分在语义功能上是相互孤立的,我说的是它区别于微博客的地方),但推特的语义化又太弱了,这是因为标签机制的语义功能太弱。 『伊讲』的方案,就是把twitter的标签升级为语法标记,从而让机器能够从言语文本中深度提取语义,这样一来,用户便可以像在twitter中那么说话,但同时起到了在豆瓣中实施行动深度相当的语义效果,又不会被束缚于豆瓣那种“以行动说话”的方式对词汇和句型必定施加的严格限制,我将这种方案叫做“语法标记”。 语法标记方案的一个优势是,技术实现上非常容易,让机器解析一个带有语法标记的言语文本,是要求较低的任务,存在语法标记的情况下,语法解析工作是相当机械化的;假如我们的目标语言是英语的话,即便没有语法标记,解析也不会太难。 无标记解析确实也是一个选项,不过『伊讲』的目标语言是汉语,无标记解析会比较困难(比如划词就是个大麻烦),我一个人大概啃不下来(我下决心开始做『伊讲』的前提之一是,相信自己至少能够独力完成伊的第一个版本)。 除了汉语文本的特性带来的技术障碍,我选择标记方案还有另一个理由:无标记解析需要更多的词法和句法约定,这会给说话者施加更多限制,这是我不希望看到的,因为这会妨碍自然语言历来具有的持续进化特性。 有了标记,词法上可以充分自由:你可以将任意符号组合(只要和标记本身不冲突)当作动词用,或当作其他任何语法成分用,自然语言里就是这样的,比如你可能会说“昨天我又被方滨兴了,所以没有伊讲。” 若依靠无标记解析,即便解析器非常聪明,可能也要过好久,采集了足够多言语样本之后,才明白“方滨兴”和“伊讲”都可以当作动词用,在此之前,它可能会怀疑“方滨兴”和“了”之间漏了个什么词(总不能假定用户从来不会手抖吧?),而弄不明白“伊讲”到底是个名词、形容词还是助词,而借助标记,说话者可以直接告诉解析器那就是个动词。 其实语法标记也不算是说话者的额外负担,口语带很多标记,停顿、重音、声调等等,都可以被作为语法标记附加到语音流中,只是变成文本时,这些信息要么丢失了,只能靠阅读者自己脑补,或者被替换成了标点符号等书面标记,『伊讲』的解析器仍会尽量利用这些书面标记,但因为它还不够聪明,也不想预设太多约定,所以需要用户多加些标记。 现在让我们来看看『伊讲』在图灵时代的自然语言信息模型中处于什么位置: 图:图灵时代的自然语言信息模型 图中左边的主动方案就是『伊讲』,在接收到言语文本后,伊做了两件事:对文本作语法解析,提取其中语义并写入外部语义网,然后将文本格式化为易读形式送进相应的时间线,这些被提取的语义会一直关联着说话者。 在恰当的情境下,这些语义会被机器利用并产生意义,也会(在经历一系列转换后)进入说话者自己和其他人的信息环境中,变成对后者或许有价值的信息,继而在后者头脑中产生知识;在今后的文章里,我会解释“恰当的情境”和“一系列转换”究竟是什么,简单说,就是经过两层映射,首先是社会关系映射,其次是个体知识模型的映射,最终变成个体知识。 在我看来,定义这两层映射的模型,是『伊讲』的核心价值,它具体化了哈耶克的(加上我的)知识论哲学:知识分散存在于个体头脑,并通过社会关系网络传播,这种传播平行而分散的发生于整个社会关系网的一个个局部,特定个体在特定时刻获取何种信息,取决于他处于社会关系网的什么位置,以及他从自身这个节点出发,与哪些周围节点存在何种关系。 显然,这个模型是个人主义的,去中心化的,而同时又是充分参与并利用了外部语义网的。 好了,这就是『伊讲』。 或许你仍会问:听上去很好,可这究竟有啥用? 假如你觉得豆瓣比其他SNS多一点点好处,那『伊讲』就会把这好处放大很多倍,指数式的放大,比如: 1)记录生活:其他SNS也会记录你说过的话,但未经语义化的记录上用处不大的,比如你没法方便的“看看今年我看过哪些电影”,吃过哪些餐馆,去过哪些地方,碰到过哪些人,做过哪些事,买过哪些东西,买衣服花了多少钱,喝醉过几次…… 2)发展社会关系:其他SNS也会帮助你发展社会关系,但方式很单调(往往单调的让人厌烦),比如告诉你某人和你都关注谁谁谁,都被谁谁谁关注;豆瓣的方式有意思一些:会告诉你他和你都读过某某书,都喜欢某某电影,但也不过如此;伊讲的方式会有意思的多:比如伊可能告诉你,你们都在西湖里游过泳,都在大理骑过车,或都在5月35号喝醉过。 3)获得有意思的反馈:依我看,好的说话环境应该会对言语行为作出丰富而贴切的反馈,比如你说你正在读某本书,若能得到“你的某某朋友读过这本书”之类的反馈,会比较有意思,或者当你说想去某地方旅行,想吃点新鲜的,想听点新歌……,最好也会有反馈; 4)人机对话:实际上,在对言语进行反馈时,机器已经默默参与了对话,它在倾听你的言语,然后从外部语义网中提取一些它认为值得反馈给你的信息;在『伊讲』里,这种对话可以更直接的方式进行,即,你可以明确的对着机器说话,他会当即作出响应,比如你可以告诉它:我想看看明天的天气如何;给我放首新歌听听,你知道我口味的;或者,给我放首新歌听听,别管我口味……诸如此类(当然,这还是较远期的承诺,这方面的潜力会逐渐挖掘,这样的反馈需要机器真正了解词汇的“意义”,因为那需要驱动设备产生行为,我相信伊会慢慢被教会各种意义的) …… 还有许多好处,我就先不一一细述了,实际上也没法细述,语义信息的潜在价值是无穷无尽的,它有待我们一点点去挖掘,作为设计者的我,在开发测试过程中,也常常被它所展现出的潜力所打动。    
『伊讲』前传之二:语义化的几种方案

本文的“语义化”,是指“帮助自然语言使用者将其言语的相关语义信息持久化到外部语义网络中”。

【为何需要语义化】

首先是因为许多人想要生产语义,人类的表达需求从来都很强烈,而且他们多半会希望自己所表达的内容至少有机会在某些情形下产生意义,而随着外部语义网的地位日益提高,此类机会将在越来越大的程度上等同于它们进入这个语义网的机会;

其次是为了自由。自然语言的分立和自发协调特性,让它的使用者在表达上享有充分的自由,即,其语法规范乃由个体间协调过程自发形成,而非由某个单一意志所设计,在多大程度上遵循或偏离规范的问题上,个体始终保有自主性和灵活性,而在此问题上的大量个体选择,始终在推动着语言规范的持续进化,正因此,除非受某种强力所压制,基于自然语言而产生的文化网络可以是非常自由而开放的。

相比之下,至少到目前为止,图灵世界的人工系统几无例外的具有强烈的语义专制倾向,这是因为,这些人工系统的设计者通常将语法上的严格性和一致性列为非常优先的考虑,对于建造特定功能特定用途的工具,这么做可能是必须或有益的,但假如这种专制性扩大到在系统级别上主导作为人类社会存在基础的整个文化系统,那是不可接受的。

诚然,图灵世界也存在大量分立的人工系统,因为有着大量分立的程序员个体,以及大量尝试建造人工系统的分立意志,因而图灵世界同样有着丰富的多样性;然而,这些人工系统迄今还缺乏自然语言所具有的那种自发协调能力,因而这些系统之间的关系是两极化的:要么处于单一规范的专制之下,要么相互孤立。

所以,至少在眼下,我们仍需要自然语言。

幸运的是,已经有了种种努力来帮助自然语言使用者实现语义持久化,下面我们来比较一下这些方案的特点。(这些努力的本意当然未必是帮助自然语言使用者,但只要实际上有着这样的效果,我就会将其列为语义化方案,所以这里的“方案”一词,是从用户角度出发说的。)

【言语持久化】

这个方案通俗地说就是让用户可以用自然语言在图灵世界说话,从而让言说内容得以持久化,但语义仍然挥发了。

从文字编辑器、电子邮件、BBS、IM,到blog、twitter,已经产生了大量以自然语言表达的电子文本。

由于电磁介质是远比传统介质优良的持久化介质,可访问性也好得多,所以尽管被持久化的仅仅是言语而非语义,但这至少为说话者创造了一种机会:当未来有了某种二次语义化的可行手段之后,从这些言语中多少有望再现出一些语义。

【贴标签】

blog和twitter都引入了标签机制,允许说话者为其言语附加标签;标签是一种语义信息,尽管只是一种非常弱的语义,它只能在若干言语之间建立非常松散的语义关系,而无法在一条言语内部各成分之间建立语义关系,而后者才是语义的主要来源,所以这只能算一种弱语义化方案。

不过它也有一些好处:1)简单易用;2)语义是用户按其意图主动表达的;3)较为自由,对何种符号组合可以用作标签基本上没有限制。

【用行动说话】

前面我已提到,图灵世界产生语义的第二种方式,是用户使用应用程序实施行动,此时应用程序可能就这些行动产生一些相关语义,不过,通常应用程序采集这些语义是用来服务于它自身的目的,而不是帮助用户表达,所以这些语义未必与用户的表达意图之间有什么确切关系(况且用户在这么做时也并非想表达什么)。

不过,有些类型的应用程序,比如社交类应用,会提供这样的功能:当用户作出某个动作时,便产生一个语义结构,同时生成一句言语,这样一来,用户实施行动的效果就和说话颇有些相似,行内还有个古怪的词汇称呼此类动作,叫“发状态”,比如当你在豆瓣某个电影页面点击“看过”时,就相当于你说了“我看过某某电影”这样一句话。

这种方式的好处是:用户在说话的时候,一句言语被传送出去的同时,语义也被持久化了,而且这些语义确切对应了说话者的言说意图。

问题是,这种模式在语义上是高度专制的,每个动词对应着应用程序的一项功能,每类宾语名词对应着它的一个语义框架(即一组元语义),每个宾语名词对应着该语义框架下的一个语义实例,所有这些,都是程序员在与图灵机对话时明确规定好的,程序员就像这个封闭语言世界里的上帝,规定了你可以用哪些动词和名词,而且数量通常极为有限,比如豆瓣的动词大概不超过十个,主语则只有一个:我。←难怪有人说社交应用迷都是自恋狂。

【语义化言说】

维基实际上是一种增强了的标签系统;标签是一种弱语义,它不表示言语内部各成分之间的关系,而只是在言语之间建立关系;不过维基从两方面强化了标签的语义功能:1)强制任何言语必须附属于某一标签之下(从而构成一个词条),因而词条名便成为该言语的主题标签,2)维基鼓励用户在言语中大量使用标签作为词汇。

于是,言语之间的语义连接至少在数量上大幅膨胀了,尽管这种语义化仍然是肤浅的。(晚近的维基百科已包含了更多不那么肤浅的语义化信息,但这些信息的表达方式已经远离了自然语言,而是由词条编写者按照某个为特定词条类别而设计的语义框架填充而成(通常以键-值对形式出现在词条页面的右侧))

维基是开放的,意思是个体可以按自己的意图添加或编辑词条,从而表达语义(实际上这也是非常受限的,比如当你想添加一个人名词条时,维基会告诉你这个人物必须有一定重要性,比如是位大学教授),但就语义表达需要而言,最致命的是:维基是匿名化和语义中心化的。

匿名化是指:语义信息在被持久化时,丢失了它源自哪个说话者这一信息;语义中心化是指:语义网络在空间上是无歧义的,即,任一给定时刻,无论访问者从何种途径访问这个语义网络,他(它)读取到的语义拓扑是完全一样的,换句话说:与任一概念(或符号)相连接的语义拓扑,在任一时刻只有一个版本。(尽管每个维基词条可以保存多个版本,但这只是维基的一种编辑管理手段,任一时刻在语义网中生效的,即可能被行动者读取从而产生意义的,只有一个版本。)

正是这一点,和我的((more...)

标签: | |
5535
本文的“语义化”,是指“帮助自然语言使用者将其言语的相关语义信息持久化到外部语义网络中”。 【为何需要语义化】 首先是因为许多人想要生产语义,人类的表达需求从来都很强烈,而且他们多半会希望自己所表达的内容至少有机会在某些情形下产生意义,而随着外部语义网的地位日益提高,此类机会将在越来越大的程度上等同于它们进入这个语义网的机会; 其次是为了自由。自然语言的分立和自发协调特性,让它的使用者在表达上享有充分的自由,即,其语法规范乃由个体间协调过程自发形成,而非由某个单一意志所设计,在多大程度上遵循或偏离规范的问题上,个体始终保有自主性和灵活性,而在此问题上的大量个体选择,始终在推动着语言规范的持续进化,正因此,除非受某种强力所压制,基于自然语言而产生的文化网络可以是非常自由而开放的。 相比之下,至少到目前为止,图灵世界的人工系统几无例外的具有强烈的语义专制倾向,这是因为,这些人工系统的设计者通常将语法上的严格性和一致性列为非常优先的考虑,对于建造特定功能特定用途的工具,这么做可能是必须或有益的,但假如这种专制性扩大到在系统级别上主导作为人类社会存在基础的整个文化系统,那是不可接受的。 诚然,图灵世界也存在大量分立的人工系统,因为有着大量分立的程序员个体,以及大量尝试建造人工系统的分立意志,因而图灵世界同样有着丰富的多样性;然而,这些人工系统迄今还缺乏自然语言所具有的那种自发协调能力,因而这些系统之间的关系是两极化的:要么处于单一规范的专制之下,要么相互孤立。 所以,至少在眼下,我们仍需要自然语言。 幸运的是,已经有了种种努力来帮助自然语言使用者实现语义持久化,下面我们来比较一下这些方案的特点。(这些努力的本意当然未必是帮助自然语言使用者,但只要实际上有着这样的效果,我就会将其列为语义化方案,所以这里的“方案”一词,是从用户角度出发说的。) 【言语持久化】 这个方案通俗地说就是让用户可以用自然语言在图灵世界说话,从而让言说内容得以持久化,但语义仍然挥发了。 从文字编辑器、电子邮件、BBS、IM,到blog、twitter,已经产生了大量以自然语言表达的电子文本。 由于电磁介质是远比传统介质优良的持久化介质,可访问性也好得多,所以尽管被持久化的仅仅是言语而非语义,但这至少为说话者创造了一种机会:当未来有了某种二次语义化的可行手段之后,从这些言语中多少有望再现出一些语义。 【贴标签】 blog和twitter都引入了标签机制,允许说话者为其言语附加标签;标签是一种语义信息,尽管只是一种非常弱的语义,它只能在若干言语之间建立非常松散的语义关系,而无法在一条言语内部各成分之间建立语义关系,而后者才是语义的主要来源,所以这只能算一种弱语义化方案。 不过它也有一些好处:1)简单易用;2)语义是用户按其意图主动表达的;3)较为自由,对何种符号组合可以用作标签基本上没有限制。 【用行动说话】 前面我已提到,图灵世界产生语义的第二种方式,是用户使用应用程序实施行动,此时应用程序可能就这些行动产生一些相关语义,不过,通常应用程序采集这些语义是用来服务于它自身的目的,而不是帮助用户表达,所以这些语义未必与用户的表达意图之间有什么确切关系(况且用户在这么做时也并非想表达什么)。 不过,有些类型的应用程序,比如社交类应用,会提供这样的功能:当用户作出某个动作时,便产生一个语义结构,同时生成一句言语,这样一来,用户实施行动的效果就和说话颇有些相似,行内还有个古怪的词汇称呼此类动作,叫“发状态”,比如当你在豆瓣某个电影页面点击“看过”时,就相当于你说了“我看过某某电影”这样一句话。 这种方式的好处是:用户在说话的时候,一句言语被传送出去的同时,语义也被持久化了,而且这些语义确切对应了说话者的言说意图。 问题是,这种模式在语义上是高度专制的,每个动词对应着应用程序的一项功能,每类宾语名词对应着它的一个语义框架(即一组元语义),每个宾语名词对应着该语义框架下的一个语义实例,所有这些,都是程序员在与图灵机对话时明确规定好的,程序员就像这个封闭语言世界里的上帝,规定了你可以用哪些动词和名词,而且数量通常极为有限,比如豆瓣的动词大概不超过十个,主语则只有一个:我。←难怪有人说社交应用迷都是自恋狂。 【语义化言说】 维基实际上是一种增强了的标签系统;标签是一种弱语义,它不表示言语内部各成分之间的关系,而只是在言语之间建立关系;不过维基从两方面强化了标签的语义功能:1)强制任何言语必须附属于某一标签之下(从而构成一个词条),因而词条名便成为该言语的主题标签,2)维基鼓励用户在言语中大量使用标签作为词汇。 于是,言语之间的语义连接至少在数量上大幅膨胀了,尽管这种语义化仍然是肤浅的。(晚近的维基百科已包含了更多不那么肤浅的语义化信息,但这些信息的表达方式已经远离了自然语言,而是由词条编写者按照某个为特定词条类别而设计的语义框架填充而成(通常以键-值对形式出现在词条页面的右侧)) 维基是开放的,意思是个体可以按自己的意图添加或编辑词条,从而表达语义(实际上这也是非常受限的,比如当你想添加一个人名词条时,维基会告诉你这个人物必须有一定重要性,比如是位大学教授),但就语义表达需要而言,最致命的是:维基是匿名化和语义中心化的。 匿名化是指:语义信息在被持久化时,丢失了它源自哪个说话者这一信息;语义中心化是指:语义网络在空间上是无歧义的,即,任一给定时刻,无论访问者从何种途径访问这个语义网络,他(它)读取到的语义拓扑是完全一样的,换句话说:与任一概念(或符号)相连接的语义拓扑,在任一时刻只有一个版本。(尽管每个维基词条可以保存多个版本,但这只是维基的一种编辑管理手段,任一时刻在语义网中生效的,即可能被行动者读取从而产生意义的,只有一个版本。) 正是这一点,和我的(也是哈耶克的)知识论哲学背道而驰,正如哈耶克在论文“The Use of Knowledge in Society”(1945)中指出,知识分散存在于个体头脑,因而任一个体在任一时刻仅能访问到世界全部知识的极小部分,而且其中任意两个个体访问到的信息,总是大不相同。(也正因此,任何复杂到值得被珍视的社会,必须容许个体拥有起码的自由——不过我不打算在此细述这一判断与前述哲学之间的逻辑关系。) 直到外部语义网出现之前,上述断言仍然成立,但外部语义网是个例外,它确实可以实现中心化,问题是,在该网络地位日益显要的前景下,作为个人主义者和自由主义者,我当然希望它向着去中心化的方向发展,但维基的方向与此相反。 中心化必然导致语义专制,维基的开放性仅仅由创始人的善意、以及他所建立的组织文化所保障,那是靠不住的,实际上,维基已经发展出了一个金字塔式的层级审查系统,大量编辑在紧盯着词条的修改动向,据说每个词条的生杀大权最终掌握在36位全球顶级编辑手中;非常讽刺的是,Jimmy Wales恰恰也是哈耶克信徒,并曾宣称维基的哲学基础正是哈耶克的上述论文。 匿名化的另一个问题是使得言语行为失去了社会性,而许多人正是将说话当作一种社交活动,而不仅仅是为了创造语义(但反过来,创造语义会促进社交,这一点从豆瓣可以看得很清楚,从强语义性令其发展出了和其他弱语义SNS十分不同的社交形态)。 所以很明显,维基不是个适合说话的地方,除非你准备采取一种说一不二的知识权威(或语义上帝)的姿态,不过,这种姿态,和编撰百科全书这样的目标,倒好像是挺搭的。 【词汇索引】 搜索引擎从言语文本中提取出词汇(也叫关键词),并加以索引,从而产生语义(当然言语文本不是它索引的唯一对象,它还索引很多原本就已语义化的东西)。 起初,这种方式所达到的语义化程度并不比维基强多少,只是语义关系的数量会更庞大,因为维基只是将文本中部分词汇标签化,而搜索引擎会把所有词汇(除了虚词)都当作关键词来对待(即将其作为语义网中的一个节点)。 不过,随着搜索引擎对文本的理解能力不断提高,它提取语义的深度也在加深,因而从同一个文本集中所能提取到的语义更多也更不肤浅了。 就我们的需要而言(帮助自然语言使用者在图灵世界创造语义),这一方案的问题是:它也是匿名化的;和维基不同的是,维基的匿名化服务于其语义中心主义,要实现语义中心化,就只能匿名,而搜索引擎只是不关心一段言语的说话者是谁,因为其业务逻辑不需要它关心,任何文本只是作为某个统计样本集中的一个样本而被处理。 搜索引擎倒不必是语义中心化的,它完全可以为处于不同情境下的访问者就同一个词汇给出不同的语义拓扑(这种情况可以出现在个性化搜索或情境化搜索中,这就好比,当我们在不同场合与不同的人交谈时,就同一个概念可以获得不同的语义信息),即便它没这么做,至少也不存在什么业务逻辑上的需要,迫使它追求语义中心化。 然而,尽管不必是中心化的,搜索引擎处理语义的方式仍妨碍了它服务于我们的需求:它不会为说话者保留对其所创造语义的自主权,这里的自主说的不是删除修改隐藏之类的控制(这些当然也可以有),而是指:说话者一旦创造了一项语义,这项语义就理应始终存在并始终与他这一个体联系在一起,直到曾经听到过这句话的人(包括他自己)都死光了或者他们全都把它给忘了,我说“理应”,是因为在传统的自然语言世界,情形确乎如此。 比如我对你说了句“丘吉尔是个美国人”,你从该言语中提取出若干条语义,至少在一段时间内,你会将这些语义和我联系在一起(这种联系本身也是一种语义,但那是我用行动表达的,你经由观察我的行动而获得),在将这些语义与你头脑里既有的语义网做运算之后,你可能产生了一条新语义,类似于“此人说了句蠢话”,在你记忆存续的限度内,这些语义会始终存在于你的语义网中。 可是搜索引擎却不会如此处理语义,它们只会被当作一个统计样本对待,淹没在无数同类样本的海洋里,失去了其原本具有的个人面目。 【机器理解】 在语义深度提取方面走得最远的,可能是IBM的Watson,在某些条件下,它从文本中提取语义的能力已与人类相当(和搜索引擎一样,它也从其他来源提取语义),不过,就我的需求(帮助自然语言使用者在图灵世界创造语义)而言,Watson至少在近期内仍难以指望。 首先是因为它还过于昂贵,所以还不会大量制造,暂时只会被用于能带来显著收益的用途;我们知道,自然语言的理解是高度历史依赖的,机器的主要弱点便在于它没有经历导致每个人类个体存在的那漫长历史(注意:导致每一个体存在的历史,都是整个宇宙历史进程中的一条独特轨迹,每条轨迹都不同),因而未能继承历史所赋予个体的信息(包括进化史所赋予的遗传信息和生活史所赋予的个体经验),所以,在机器能够开始从某类文本中深度提取语义之前,必须经历一个代价高昂的预学习过程。 假如我们希望机器能够像我们的社交伙伴一样顺畅的理解我们的言语,必须至少让他经历三个预学习阶段:首先,它要获得理解人类语言所需要的认知能力,其次,它要学会特定的语种,并习得以该语种为母语的那个文化,最后,它还要了解它将要倾听的那个特定人类个体的说话习惯(即便同母语的人类个体之间也并不总是能够顺畅对话的)。 实施这一过程本身代价高昂,而且这部机器在这段时间内将被该任务所独占,所以,除非Watson已便宜到能被用作个人信息设备,还难以指望它来满足我们的需求,它或许已能够从我们的言语中深度提取语义,但和搜索引擎一样,还不可能为我们保留语义自主性,而只能将我们的言语当作统计样本做匿名化处理。 【总结】
方案 言语持久化 贴标签 用行动说话 语义化言说 词汇索引 机器理解
实例  IM/BBS  blog/MB  豆瓣  维基  Google  IBM Watson
语义化  无  弱    中等  中等  强
语义表达  无  主动  主动  主动  被动  被动
开放性  开放  开放  封闭  半开放  开放  开放
匿名化  否  否  否  是  是  是
语义中心化  否  否  是  是  不必  不必
语义自主性  无  强  强  强  弱  弱
社会性  无  弱  强  无  无  无
     
『伊讲』前传:外部语义网络的诞生

【前图灵时代不存在外部语义网络】

因为自然语言的语义挥发性,言语不包含语义,起初(说出口之前)与言语相关的语义结构,被串行化成了语音/文本流(这一串行化过程被我称为语法生成),所以尽管前图灵时代留下了大量文本,但并不存在一个外部语义网(所谓外部,乃指外于个体头脑),语义信息仅存在于个体头脑之中,文本仅在被个体阅读时才在阅读者头脑中再现为语义。

当然,在前文字时代,连言语本身也是挥发性的。

【外部语义网络已随图灵机而诞生】

今天,每台计算机里都存储着大量语义信息,当一部图灵机读取此类语义信息,并驱动某台设备作出动作时,便产生了“意义”;显然,存储了不同代码或连接了不同设备的各台图灵机,在读取同一条语义信息后,可能引发(或不引发)不同动作,因而在此意义上,图灵世界同样存在歧义。

图灵世界的语义经由两种途径产生,一种是程序员按(more...)

标签: | |
5533
【前图灵时代不存在外部语义网络】 因为自然语言的语义挥发性,言语不包含语义,起初(说出口之前)与言语相关的语义结构,被串行化成了语音/文本流(这一串行化过程被我称为语法生成),所以尽管前图灵时代留下了大量文本,但并不存在一个外部语义网(所谓外部,乃指外于个体头脑),语义信息仅存在于个体头脑之中,文本仅在被个体阅读时才在阅读者头脑中再现为语义。 当然,在前文字时代,连言语本身也是挥发性的。 【外部语义网络已随图灵机而诞生】 今天,每台计算机里都存储着大量语义信息,当一部图灵机读取此类语义信息,并驱动某台设备作出动作时,便产生了“意义”;显然,存储了不同代码或连接了不同设备的各台图灵机,在读取同一条语义信息后,可能引发(或不引发)不同动作,因而在此意义上,图灵世界同样存在歧义。 图灵世界的语义经由两种途径产生,一种是程序员按某种人工语言的语法进行编码的结果,当一台通用图灵机读取这些编码并作出反应后,会在存储器中产生一个语义结构,当这些结构进而被读取以驱动设备时,便产生了意义。 在此过程中,程序员和图灵机所扮演的角色相当于自然语言中的说话者和受话者,区别在于:程序员与图灵机的对话遵循着一套精心设计的、严格且完备的语法约定,因而在图灵世界中,从言语(即程序编码)到语义的映射关系可以是无歧义的(尽管从语义到意义的映射仍是有歧义的)。 程序员和图灵机的对话,(除了产生一个语义结构)更重要的意义在于:它会在通用图灵机上创造出一部特殊图灵机(或称应用程序),以及一个相应的语义框架(即一组元语义,元语义是一种指示如何产生其他语义的特殊语义),它让其他人(用户)可以使用这部特殊图灵机做一些事,而当他们果真这么做时,机器便会按上述语义框架产生一些新语义(比如银行交易记录),这是图灵世界产生语义的第二种途径。 重要之处在于,这是在世界中产生语义信息的全新方式,它更加彻底的解耦了语义和意义:前图灵时代的个体也会通过行动创造语义,这些语义存储在他自己头脑中,而当用户在使用应用程序做事时,他可能明白自己行动的意义,但其行动所产生的语义却和他无关,也不(像他运用自然语言时所产生的语义那样)存在于他头脑之中,同时,存储了这些语义的机器,也无须了解产生这些语义的那些行动的意义。 【外部语义网络的互联和壮大】 起初的外部语义网通常是孤立的,每个系统有着自己的元语义,往往无法访问其他系统的语义信息,但在建立语义交互规范的种种努力的推动下,系统间的语义交互能力正日益增强,一个庞大的全球互联的外部语义网络正在浮现。 这个语义网,和传统意义上的文化一样,在构成人类生活条件的诸因素中,占据着重要且越来越重要的地位;但和文化不同,外部语义网在人类生活中起作用的方式更为直接:它可以绕过个体而直接产生意义,因为在一个由众多图灵机(及其存储系统)所构成的系统中,信息是直接以语义化形式存储的,因而可以直接被图灵机所利用而引发动作。 相反,文化信息由(口述传统或文本介质中的)言语构成,而言语不包含语义,只有被个体头脑解析之后才产生语义,而且每一个体有着自己独特的解析函数。 随着外部语义网的日益壮大,并且驱动着越来越多的设备,其(在决定人类生活条件方面的)地位将逐渐超越文化,或者(假如我们将文化的概念稍加扩大)可以说,它将逐渐成为文化的主要构成部分。 比如,制造系统在下一刻将制造些什么商品,传媒在下一刻将播送哪些内容,个人在下一刻将面临何种信息环境、接收到哪些信息,接触到哪些人,在商店货架上看到哪些商品,个人的某一言辞或行动将引发何种后果,学术界的研究兴趣将转向何处,人们如何使用某个词汇,如何看待某一历史事件,诸如此类的事情,将在越来越大的程度上取决于这一网络的内容构成。 【自然语言在新文化中的地位】 假如情况确实如此,那便提示着一种前景:在由外部语义网所主导的新型文化中,自然语言的地位在下降;在新文化中,个体主要以两种方式向外部语义网添加语义:程序员以对着图灵机说话的方式,但不是用自然语言,而是用人工语言,与其说话意图相关的语义将按严格约定得以精确再现;而其他人(或其他时候的程序员)则以使用各种应用程序实施行动的方式产生语义,如此产生的语义与其行动意图之间的对应关系并不明确。 无论何种方式,所使用的都不是自然语言。 诚然,在某些情况下,当用户使用应用程序实施行动时——诸如在填写某个格式表单时,在豆瓣某电影页面上点击“看过”时,在一个投票页面上点击“赞成”时——,应用程序所产生的语义,与用户的行动意图之间,是有着相当明确的映射关系的,在此意义上,我们可以说,用户和程序员一样:按其意图创造了语义。 但是,和以言语创造语义相比,以行动创造语义有着极大局限,它完全受限于应用程序所设定的语义框架,后者规定了何种语义可能经由用户行动而产生,比如在豆瓣,你只能表达“我-喜欢-某某”的语义,而不能表达“我-讨厌-某某”的语义,你只能“赞”一个帖子,却不能“踩”它,或“切”它、“嗯”它、“扯”它,因为程序员规定你不能这么做。 所以在图灵世界,只有一小撮程序员(或许可以称其为图灵时代的巫师)能够充分自由的按其意图创造语义,因为他们与图灵机对话时所用的语言是图灵完备的。 【我的焦虑】 我丝毫没有暗示一种卢德分子的姿态,哀叹技术霸权的威胁。只有一小撮人有机会按其意图以持久化方式创造语义,这一事态并不新鲜;前图灵时代,尽管人人都在说话,但只有极小部分个体的极小部分言语进入持久化介质(从而有机会跨越时空而在其他个体头脑中产生语义),而绝大部分语义,要么当即挥发了,要么随个体死亡而消失,未在文化长河中留下痕迹。 当然,言语也可以口耳相传的接力传递方式而在非持久化(或者说不那么持久化的)介质上实现持久化,但如此流传下来的言语,在总量中所占比例也是极低的,传播通道很大程度上被一小撮巫师、游吟诗人、说唱艺人所垄断,而且当它们在听众头脑中被再现为语义时,这些语义与当初的言说意图之间的相关性,往往已经非常微弱了。 所以没什么大不了的。 不过我确实有一种焦虑,因为我意识到,在持久化语义生产这个行当里,以自然语言为工具的生产者的地位正在迅速跌落,而我本人,尽管也是位程序员,但也是位作家,而且相对而言我更偏爱以自然语言为工具生产语义,所以我不希望自然语言在这个行当里的地位沦落到无关痛痒的程度。 【注:尽管按我的定义,用自然语言产生的言语(和记录它们的文本)并不包含语义,但它们有机会跨越时空而在读者头脑中产生语义,并且基于共同文化背景,这些语义与言说者当初的言说意图可以是高度相关的(究竟在多大程度上相关,还要看文化背景的共同程度和言说者运用自然语言的能力),所以我觉得仍有理由将写作视为一种持久化语义生产工作。】 这一焦虑促使我思考一个问题:如何在图灵时代的语义生产行当中挽救自然语言的命运?  
『伊讲』的语言学基础

Semantics.1300x5801)自然语言以言语(speech)为其表达形式;

2)说话时,说话者通过语法生成器(GG)将某个与其说话意图相关的语义结构(SS-A)转换为言语;

3)言语通过传播介质(以语音流或文本流的形式)到达受话者(听者或读者,可以是他自己);

4)受话者通过语法解析器(GP)(并借助其头脑中已有的语义网络)将接收的言语解析为一个语义结构(SS-B);

5)受话者可能会将解析得到的语义(部分或全部)写入其语义网络中;

6)解析得到的语义可能当即触发受话者的某种行为;

7)当传播介质具有记忆性因而同(more...)

标签: |
5525
Semantics.1300x5801)自然语言以言语(speech)为其表达形式; 2)说话时,说话者通过语法生成器(GG)将某个与其说话意图相关的语义结构(SS-A)转换为言语; 3)言语通过传播介质(以语音流或文本流的形式)到达受话者(听者或读者,可以是他自己); 4)受话者通过语法解析器(GP)(并借助其头脑中已有的语义网络)将接收的言语解析为一个语义结构(SS-B); 5)受话者可能会将解析得到的语义(部分或全部)写入其语义网络中; 6)解析得到的语义可能当即触发受话者的某种行为; 7)当传播介质具有记忆性因而同时也是存储介质时,言语可能被存储; 8)言语不包含语义; 9)因而与言语相关的语义(无论SS-A或SS-B)不会被任何外部介质存储,自然语言的这一特性,被我称为“语义挥发性(semantic volatility)”; 10)从SS-A到SS-B之间至少经过了两次映射,这些映射函数存在于每一个体头脑中,它们在不同个体之间、在同一个体的不同时刻之间,都可以是不同的; 11)因而SS-A与SS-B之间的映射关系是高度多变且不稳定的,自然语言的这一特性,被我称为(空间维度上的)歧义和(时间维度上的)语义漂变; 12)SS-A与SS-B之间的相关性,取决于说话者的GG与受话者的GP的相关性,以及两者头脑中的语义网络的相似性,这些相关性,常被笼统的称为共同文化背景,它们进而取决 于两者生活史和神经结构的相似性,并最终取决于导致两个个体存在的全部历史;  
『伊讲』的哲学基础

1)知识(knowledge)是且仅是(可能)影响个体行为的信息(information);

2)知识的意义(meaning)仅在于它(可能)如何影响个体行为;

3)知识分散存在于个体头脑中;

4)存在于其他介质中的信息不是知识;

5)自然语言是一种信息工具,借助它,个体可以在自身或他人头脑中产生知识;

6)对自然语言的上述运用,在个体头脑中产生了一个语义网络(semantic network),它们之间通过口述传统或各种文本介质发生交互;

7)该语义网络的某些特性,使得(5)所提到的知识生产工作变得极富成效;

8)语义是且仅是(符号之间的)(more...)

标签: | |
5521
1)知识(knowledge)是且仅是(可能)影响个体行为的信息(information); 2)知识的意义(meaning)仅在于它(可能)如何影响个体行为; 3)知识分散存在于个体头脑中; 4)存在于其他介质中的信息不是知识; 5)自然语言是一种信息工具,借助它,个体可以在自身或他人头脑中产生知识; 6)对自然语言的上述运用,在个体头脑中产生了一个语义网络(semantic network),它们之间通过口述传统或各种文本介质发生交互; 7)该语义网络的某些特性,使得(5)所提到的知识生产工作变得极富成效; 8)语义是且仅是(符号之间的)关系; 9)语义不包含意义; 9.1)当语义与个体头脑中的其他信息共同影响行为时,意义出现了; 10)言语通过(经由语法转换)接入上述语义网络而获得其语义结构(即一组关系); 11)言语不包含意义; 12)言语仅在被听(或读)者接受时,才(在如何可能影响其当前或未来行为的sense上)产生意义; 13)当众多个体在众多时刻众多场合进行(5)中的知识生产工作时,任何言语和语义结构之间的映射函数必定是高度多变(varied)而不稳定的(unstable); 14)这种(空间维度上的)多变和(时间维度上的)不稳定,常被称为“歧义”和“衍讹”(我称之为“语义漂变(semantic free float)”); 15)歧义和语义漂变是自然语言的特性而非缺陷,它让上述语义网络保持自由和开放性; 16)所谓(语义上的)自由,是指任何个体在任何时候任何场合都有机会创造新语义; 17)所谓(语义上的)开放性,是指语义网络有能力不断容纳新语义;
[微言]感觉和语言

【2014-09-12】

@whigzhou: 有些人赞美食物的形容词从来只有一个:香!每次听到这个带感叹号的字我都想吐,好像压根没体会过鲜、嫩、酥、脆、爽、糯、滑……

@夫子大师兄:不会表达就吃不出好味道?

@whigzhou: 依我看还真是这样,感觉与表达的关系不是单向的,而是相互影响相互训练,感觉分离是体验精细化的前提,而分离需要语言(或类似符号化系统)的帮助才能做到,否则就停留在蒙昧混沌状态,所以,表达细腻既说明感觉细腻,也有助于让感觉变得更细腻

@whigzhou: 说某些语言的人,成年后分(more...)

标签: |
5316
【2014-09-12】 @whigzhou: 有些人赞美食物的形容词从来只有一个:香!每次听到这个带感叹号的字我都想吐,好像压根没体会过鲜、嫩、酥、脆、爽、糯、滑…… @夫子大师兄:不会表达就吃不出好味道? @whigzhou: 依我看还真是这样,感觉与表达的关系不是单向的,而是相互影响相互训练,感觉分离是体验精细化的前提,而分离需要语言(或类似符号化系统)的帮助才能做到,否则就停留在蒙昧混沌状态,所以,表达细腻既说明感觉细腻,也有助于让感觉变得更细腻 @whigzhou: 说某些语言的人,成年后分辨不出某些语音,但幼儿期能分辨,就是感觉分离(或者叫离散化)的结果 @whigzhou: 感觉的离散化是其介入高级心理活动的基础,初始感觉经过离散化之后,才有机会唤起某些知觉,而被唤起的知觉活动的丰富性,受限于离散化的采样精度 @whigzhou: 而采样精度是按节省原则自动调节的,假如较精细的采样结果总是得不到其他模块的充分利用,精度就会自动调低,因为此时太精细就是浪费,于是感觉就被塑造得粗糙了 @whigzhou: 这就好比,财务分析师每月向老板交分析报表,起初每月厚厚一叠,但发现老板每次只花20秒翻一翻前两页,于是后来的报表就缩到只剩两页了,这是有效率的工作机制 @弗洛伊德背单词:"Any language is a conspiracy against experience in the sense that it is a collective attempt to manage experience by reducing it into discrete parcels." 任何语言都是一种对抗经验的阴谋,它把经验分解成为离散的互不关联的碎片来操纵主体经验 @whigzhou: 这是形成经验而非对抗经验 @whigzhou: 认为这是对抗经验,说明他理解的经验是“照相式”经验,而不是格式塔经验