含有〈语言〉标签的文章(43)

如何说一句正确的荒唐话

【2015-06-25】

@局外人c的空间:请教:“第一,转基因的环境危害、对其他物种的侵害、对人体的潜在风险,需要很长时间才能证明。第二,别人研发的转基因,相当于在不同的族群和区域里做了标……”。 以上是否完全胡扯?

@whigzhou: 第一句本身不算错,问题是它可以原封不动的适用于任何育种方法,把转基因单拎出来说就扯蛋了

@whigzhou: 这就好比说:剖腹产生下的男孩子,需要很长时间的观察,才能确信是否会变成另一个希特勒。(more...)

标签: |
6151
【2015-06-25】 @局外人c的空间:请教:“第一,转基因的环境危害、对其他物种的侵害、对人体的潜在风险,需要很长时间才能证明。第二,别人研发的转基因,相当于在不同的族群和区域里做了标……”。 以上是否完全胡扯? @whigzhou: 第一句本身不算错,问题是它可以原封不动的适用于任何育种方法,把转基因单拎出来说就扯蛋了 @whigzhou: 这就好比说:剖腹产生下的男孩子,需要很长时间的观察,才能确信是否会变成另一个希特勒。嗯,确实没错。 @whigzhou: 类似的,我可以在大街上随便找个男人,对他说:“昨晚你老婆没来陪我睡觉”,这几乎肯定是句正确的话  
Extreme Nativism

The Stuff of Thought》(第三章)

Pinker对Fodor的批评有个致命的漏洞,尽管Fodor的理论(按Pinker的表述,我不确定是否准确)无疑是荒唐的,而且Pinker的替代观点也很可能是对的(但依我看其有效性最多适用于动词,而不大可能适用于名词),但他的论证逻辑有缺陷。

Pinker将Fodor的Extreme Nativism归结为(或许只是个稻草人):
1)简单动词(相对于复合动词)是原子化的,不可还原的;这意味着——
2)所有简单动词都有着与之一一对应的神经结构;
3)因为这些神经(more...)

标签:
5557
The Stuff of Thought》(第三章) Pinker对Fodor的批评有个致命的漏洞,尽管Fodor的理论(按Pinker的表述,我不确定是否准确)无疑是荒唐的,而且Pinker的替代观点也很可能是对的(但依我看其有效性最多适用于动词,而不大可能适用于名词),但他的论证逻辑有缺陷。 Pinker将Fodor的Extreme Nativism归结为(或许只是个稻草人): 1)简单动词(相对于复合动词)是原子化的,不可还原的;这意味着—— 2)所有简单动词都有着与之一一对应的神经结构; 3)因为这些神经结构是不可还原的,因而也是先天的; 而Pinker的批评逻辑是: 1)简单动词的语法特性可以被归结为一组比它们更基础的、数量也少得多的概念; 2)因而简单动词是可还原的; 3)因而每个简单动词不必对应一个先天神经结构; “五六千个简单动词都每个对应着一个先天神经结构”——这显然是太过疯狂的假定,问题是—— 1)动词的语法特性(乃至一部分语义特性)可以被还原为更基础的概念,并不意味着它们在语义上也可以被彻底还原到这些基础概念,完全有可能,它们的部分语义成分就是无法还原的——或者说,任何此类还原努力总是信息有损的,其完整语义只能由其与其他词汇之间的全部关系来表达——这便意味着它们是原子的; 2)原子性或不可还原性,只要求它们每个都对应一个独特的神经结构,那不必是先天的; 3)这一独特神经结构中,可以包括Pinker所指出的那些语法特性,即,它们与一组基础概念之间的关系,但同样也可以包括它们与其他动词和名词之间的语义关系(而非语法关系); 4)只要去掉先天性这一要求,Fodor的理论就看不出任何荒谬之处,完全可能成立。
[微言]语言决定思想还是表达思想?

【2015-05-07】

@哈客曼:【陈嘉映:言意新辨】语言是思想得以表达的形式系统。 @whigzhou 大师怎么看陈老师的这篇长文。http://t.cn/8s1lOgI

@whigzhou: 好文章。依我看,语言决定论和“语言只是思想的表达”的说法都是不对的,说话既可以是既有思想的表达,也可以是思想过程本身,并且持续影响着未来的思考方式和内容

@whigzhou: 这同样是一个迭代过程,或许是有mentalese,但假如只有mentalese,我们的思想会非常简陋,言说过程不断精致化我们的思想,而更精致的思想继而又产生更精致的言说,如此迭代。

@whigzhou: 此其一。其二:从根本上说,语言的功能不是表达,而是在听者(可以是说话(more...)

标签: |
5620
【2015-05-07】 @哈客曼:【陈嘉映:言意新辨】语言是思想得以表达的形式系统。 @whigzhou 大师怎么看陈老师的这篇长文。http://t.cn/8s1lOgI @whigzhou: 好文章。依我看,语言决定论和“语言只是思想的表达”的说法都是不对的,说话既可以是既有思想的表达,也可以是思想过程本身,并且持续影响着未来的思考方式和内容 @whigzhou: 这同样是一个迭代过程,或许是有mentalese,但假如只有mentalese,我们的思想会非常简陋,言说过程不断精致化我们的思想,而更精致的思想继而又产生更精致的言说,如此迭代。 @whigzhou: 此其一。其二:从根本上说,语言的功能不是表达,而是在听者(可以是说话者自己)那里引出行为,任何陈述句的意义,在且仅在于它有机会在未来经由某个语义结构而转变为祈使句,若没有这样的机会,这句话便是无意义的 @whigzhou: 当然,这个引出过程可以非常迂回。这话题很有意思,不过现在忙着写代码没工夫细说,以后再谈 @tertio:任何神经通路的最终目的都是肌肉动作,原话记不太清了。 @whigzhou: 嗯嗯,严格说可能还要加上内分泌腺 @tertio:回复@whigzhou:内分泌如果不影响肌肉动作,也就没有存在的必要了。所以这句话还是严格的,发挥一下就是:所有系统内部过程的最终作用在于它对外部世界的影响。--几乎是图灵测试的一个注脚。 @whigzhou: 回复@tertio:等等,出汗好像可以独自构成意义(不过我不确定没有任何肌肉参与是否也能出汗) @whigzhou: 昨天和@sw小橘子 聊起陈老师文章里提到的汉语学生不擅长处理反事实句的例子,我不确定那个实验是否靠谱,也不认为那是支持语言决定论的有力证据,不过我确实发现很多人缺乏熟练处理反事实句的能力,比如在微博上,我放在“假如”后面的话就经常被评论者当作直述句来对待,我觉得这是认知能力的问题。 @whigzhou: 与直述句相比,处理反事实句需要更高阶的认知能力,实际上需要一种三阶虚拟机:首先是任何波普式造物都有的内部表征虚拟机,其次是自我表征所构成的意识虚拟机(这是语言的前提),而反事实句需要在意识虚拟机上再创建一部虚拟机来执行反事实信念下的逻辑演算 @whigzhou: 有关波普式造物(Popperian creatures),参见《自由的进化》第327页译注1,有关内部表征,参见http://t.cn/RAFY4df @whigzhou: 我认为心智健全的人都拥有这种能力,但只有经过适当练习才能熟练自如的运用它,而不同的文化与教育环境,提供了不同的练习机会。我猜测,在中文世界,这样的练习机会可能比较差,因为据我了解,在该文化中,反事实句经常被当作婉转直述句来使用 @哈客曼: 最近想到,对语言的处理才是人类最核心的能力,无论从哲学,技术,管理还是政治来说,似乎对人类所有的目的系统都是成立的。 @whigzhou: 嗯同意 @whigzhou: 汉语世界的人还特别喜欢揣摩说话者的“言下之意”,这是最让我讨厌的事情,其实我根本没什么言下之意,我从来不喜欢把意思放在言下,依我看,正是此类文化背景,训练了人们婉转和揣摩的能力,而削弱了他们处理复杂的反事实和条件分支语句的能力 @pathto:英语中虚拟语态,通过语法,明显的提醒读者这只是假设不是真的。汉语中似乎没有类似的语法吧 @whigzhou: 果若有这样的表达需要,缺少的语法成分很容易被创造出来,人们每天都在创造新词和新表达方式,不会(像语言决定论者认为的那样)傻傻的被束缚在语言牢笼中。比如,汉语以往确实不易表达虚拟语态,但“会”字已经被用来弥补这一缺陷,其使用频率似乎也在提高。 @whigzhou: “假如我是个女人,我会愿意嫁给里根” @whigzhou: 许多被蔑称为“翻译腔”或“港台腔”的表达方式,其实都是类似的创造,蔑者因为自己傻,不懂  
『伊讲』:回归自然语言的本色

你大概已经猜到了『伊讲』大概是个什么东西,没错,把几种语义化方案中被我视为可欲的那些特性合并起来,便是『伊讲』的特性:伊是一种强语义化的、让说话者主动表达语义的、语义开放的、去中心化的、非匿名化的(因而是个人化的)、强社会性的语义化方案。

方案 言语持久化 贴标签 用行动说话 语义化言说 词汇索引 机器理解 语法标记
实例  IM/BBS  blog/MB  豆瓣  维基  Google  IBM Watson  伊讲
语义化  无  弱  强  中等  中等  强  强
语义表达  无  主动  主动  主动  被动  被动  主动
开放性  开放  开放  封闭  半开放  开放  开放  开放
匿名化  否  否  否  是  是  是  否
语义中心化    否  是  是  不必  不必  否
语义自主性  无  强  强  强  弱  弱  强
社会性  无  弱  强  无  无  无  强

在我列举的各方案中,豆瓣拥有最多我所期待的特性,但豆瓣也有两个我最痛恨的特性:她是封闭的(即语义专制的),也是语义中心化的,而同时,twitter(或其他微博客)是开放和去中心化的(当然,豆瓣同时也是微博客,但她的这两部分在语义功能上是相互孤立的,我说的是它区别于微博客的地方),但推特的语义化又太弱了,这是因为标签机制的语义功能太弱。

『伊讲』的方案,就是把twitter的标签升级为语法标记,从而让机器能够从(more...)

标签: | |
5537
你大概已经猜到了『伊讲』大概是个什么东西,没错,把几种语义化方案中被我视为可欲的那些特性合并起来,便是『伊讲』的特性:伊是一种强语义化的、让说话者主动表达语义的、语义开放的、去中心化的、非匿名化的(因而是个人化的)、强社会性的语义化方案。
方案 言语持久化 贴标签 用行动说话 语义化言说 词汇索引 机器理解 语法标记
实例  IM/BBS  blog/MB  豆瓣  维基  Google  IBM Watson  伊讲
语义化  无  弱  强  中等  中等  强  强
语义表达  无  主动  主动  主动  被动  被动  主动
开放性  开放  开放  封闭  半开放  开放  开放  开放
匿名化  否  否  否  是  是  是  否
语义中心化    否  是  是  不必  不必  否
语义自主性  无  强  强  强  弱  弱  强
社会性  无  弱  强  无  无  无  强
在我列举的各方案中,豆瓣拥有最多我所期待的特性,但豆瓣也有两个我最痛恨的特性:她是封闭的(即语义专制的),也是语义中心化的,而同时,twitter(或其他微博客)是开放和去中心化的(当然,豆瓣同时也是微博客,但她的这两部分在语义功能上是相互孤立的,我说的是它区别于微博客的地方),但推特的语义化又太弱了,这是因为标签机制的语义功能太弱。 『伊讲』的方案,就是把twitter的标签升级为语法标记,从而让机器能够从言语文本中深度提取语义,这样一来,用户便可以像在twitter中那么说话,但同时起到了在豆瓣中实施行动深度相当的语义效果,又不会被束缚于豆瓣那种“以行动说话”的方式对词汇和句型必定施加的严格限制,我将这种方案叫做“语法标记”。 语法标记方案的一个优势是,技术实现上非常容易,让机器解析一个带有语法标记的言语文本,是要求较低的任务,存在语法标记的情况下,语法解析工作是相当机械化的;假如我们的目标语言是英语的话,即便没有语法标记,解析也不会太难。 无标记解析确实也是一个选项,不过『伊讲』的目标语言是汉语,无标记解析会比较困难(比如划词就是个大麻烦),我一个人大概啃不下来(我下决心开始做『伊讲』的前提之一是,相信自己至少能够独力完成伊的第一个版本)。 除了汉语文本的特性带来的技术障碍,我选择标记方案还有另一个理由:无标记解析需要更多的词法和句法约定,这会给说话者施加更多限制,这是我不希望看到的,因为这会妨碍自然语言历来具有的持续进化特性。 有了标记,词法上可以充分自由:你可以将任意符号组合(只要和标记本身不冲突)当作动词用,或当作其他任何语法成分用,自然语言里就是这样的,比如你可能会说“昨天我又被方滨兴了,所以没有伊讲。” 若依靠无标记解析,即便解析器非常聪明,可能也要过好久,采集了足够多言语样本之后,才明白“方滨兴”和“伊讲”都可以当作动词用,在此之前,它可能会怀疑“方滨兴”和“了”之间漏了个什么词(总不能假定用户从来不会手抖吧?),而弄不明白“伊讲”到底是个名词、形容词还是助词,而借助标记,说话者可以直接告诉解析器那就是个动词。 其实语法标记也不算是说话者的额外负担,口语带很多标记,停顿、重音、声调等等,都可以被作为语法标记附加到语音流中,只是变成文本时,这些信息要么丢失了,只能靠阅读者自己脑补,或者被替换成了标点符号等书面标记,『伊讲』的解析器仍会尽量利用这些书面标记,但因为它还不够聪明,也不想预设太多约定,所以需要用户多加些标记。 现在让我们来看看『伊讲』在图灵时代的自然语言信息模型中处于什么位置: 图:图灵时代的自然语言信息模型 图中左边的主动方案就是『伊讲』,在接收到言语文本后,伊做了两件事:对文本作语法解析,提取其中语义并写入外部语义网,然后将文本格式化为易读形式送进相应的时间线,这些被提取的语义会一直关联着说话者。 在恰当的情境下,这些语义会被机器利用并产生意义,也会(在经历一系列转换后)进入说话者自己和其他人的信息环境中,变成对后者或许有价值的信息,继而在后者头脑中产生知识;在今后的文章里,我会解释“恰当的情境”和“一系列转换”究竟是什么,简单说,就是经过两层映射,首先是社会关系映射,其次是个体知识模型的映射,最终变成个体知识。 在我看来,定义这两层映射的模型,是『伊讲』的核心价值,它具体化了哈耶克的(加上我的)知识论哲学:知识分散存在于个体头脑,并通过社会关系网络传播,这种传播平行而分散的发生于整个社会关系网的一个个局部,特定个体在特定时刻获取何种信息,取决于他处于社会关系网的什么位置,以及他从自身这个节点出发,与哪些周围节点存在何种关系。 显然,这个模型是个人主义的,去中心化的,而同时又是充分参与并利用了外部语义网的。 好了,这就是『伊讲』。 或许你仍会问:听上去很好,可这究竟有啥用? 假如你觉得豆瓣比其他SNS多一点点好处,那『伊讲』就会把这好处放大很多倍,指数式的放大,比如: 1)记录生活:其他SNS也会记录你说过的话,但未经语义化的记录上用处不大的,比如你没法方便的“看看今年我看过哪些电影”,吃过哪些餐馆,去过哪些地方,碰到过哪些人,做过哪些事,买过哪些东西,买衣服花了多少钱,喝醉过几次…… 2)发展社会关系:其他SNS也会帮助你发展社会关系,但方式很单调(往往单调的让人厌烦),比如告诉你某人和你都关注谁谁谁,都被谁谁谁关注;豆瓣的方式有意思一些:会告诉你他和你都读过某某书,都喜欢某某电影,但也不过如此;伊讲的方式会有意思的多:比如伊可能告诉你,你们都在西湖里游过泳,都在大理骑过车,或都在5月35号喝醉过。 3)获得有意思的反馈:依我看,好的说话环境应该会对言语行为作出丰富而贴切的反馈,比如你说你正在读某本书,若能得到“你的某某朋友读过这本书”之类的反馈,会比较有意思,或者当你说想去某地方旅行,想吃点新鲜的,想听点新歌……,最好也会有反馈; 4)人机对话:实际上,在对言语进行反馈时,机器已经默默参与了对话,它在倾听你的言语,然后从外部语义网中提取一些它认为值得反馈给你的信息;在『伊讲』里,这种对话可以更直接的方式进行,即,你可以明确的对着机器说话,他会当即作出响应,比如你可以告诉它:我想看看明天的天气如何;给我放首新歌听听,你知道我口味的;或者,给我放首新歌听听,别管我口味……诸如此类(当然,这还是较远期的承诺,这方面的潜力会逐渐挖掘,这样的反馈需要机器真正了解词汇的“意义”,因为那需要驱动设备产生行为,我相信伊会慢慢被教会各种意义的) …… 还有许多好处,我就先不一一细述了,实际上也没法细述,语义信息的潜在价值是无穷无尽的,它有待我们一点点去挖掘,作为设计者的我,在开发测试过程中,也常常被它所展现出的潜力所打动。    
『伊讲』前传之二:语义化的几种方案

本文的“语义化”,是指“帮助自然语言使用者将其言语的相关语义信息持久化到外部语义网络中”。

【为何需要语义化】

首先是因为许多人想要生产语义,人类的表达需求从来都很强烈,而且他们多半会希望自己所表达的内容至少有机会在某些情形下产生意义,而随着外部语义网的地位日益提高,此类机会将在越来越大的程度上等同于它们进入这个语义网的机会;

其次是为了自由。自然语言的分立和自发协调特性,让它的使用者在表达上享有充分的自由,即,其语法规范乃由个体间协调过程自发形成,而非由某个单一意志所设计,在多大程度上遵循或偏离规范的问题上,个体始终保有自主性和灵活性,而在此问题上的大量个体选择,始终在推动着语言规范的持续进化,正因此,除非受某种强力所压制,基于自然语言而产生的文化网络可以是非常自由而开放的。

相比之下,至少到目前为止,图灵世界的人工系统几无例外的具有强烈的语义专制倾向,这是因为,这些人工系统的设计者通常将语法上的严格性和一致性列为非常优先的考虑,对于建造特定功能特定用途的工具,这么做可能是必须或有益的,但假如这种专制性扩大到在系统级别上主导作为人类社会存在基础的整个文化系统,那是不可接受的。

诚然,图灵世界也存在大量分立的人工系统,因为有着大量分立的程序员个体,以及大量尝试建造人工系统的分立意志,因而图灵世界同样有着丰富的多样性;然而,这些人工系统迄今还缺乏自然语言所具有的那种自发协调能力,因而这些系统之间的关系是两极化的:要么处于单一规范的专制之下,要么相互孤立。

所以,至少在眼下,我们仍需要自然语言。

幸运的是,已经有了种种努力来帮助自然语言使用者实现语义持久化,下面我们来比较一下这些方案的特点。(这些努力的本意当然未必是帮助自然语言使用者,但只要实际上有着这样的效果,我就会将其列为语义化方案,所以这里的“方案”一词,是从用户角度出发说的。)

【言语持久化】

这个方案通俗地说就是让用户可以用自然语言在图灵世界说话,从而让言说内容得以持久化,但语义仍然挥发了。

从文字编辑器、电子邮件、BBS、IM,到blog、twitter,已经产生了大量以自然语言表达的电子文本。

由于电磁介质是远比传统介质优良的持久化介质,可访问性也好得多,所以尽管被持久化的仅仅是言语而非语义,但这至少为说话者创造了一种机会:当未来有了某种二次语义化的可行手段之后,从这些言语中多少有望再现出一些语义。

【贴标签】

blog和twitter都引入了标签机制,允许说话者为其言语附加标签;标签是一种语义信息,尽管只是一种非常弱的语义,它只能在若干言语之间建立非常松散的语义关系,而无法在一条言语内部各成分之间建立语义关系,而后者才是语义的主要来源,所以这只能算一种弱语义化方案。

不过它也有一些好处:1)简单易用;2)语义是用户按其意图主动表达的;3)较为自由,对何种符号组合可以用作标签基本上没有限制。

【用行动说话】

前面我已提到,图灵世界产生语义的第二种方式,是用户使用应用程序实施行动,此时应用程序可能就这些行动产生一些相关语义,不过,通常应用程序采集这些语义是用来服务于它自身的目的,而不是帮助用户表达,所以这些语义未必与用户的表达意图之间有什么确切关系(况且用户在这么做时也并非想表达什么)。

不过,有些类型的应用程序,比如社交类应用,会提供这样的功能:当用户作出某个动作时,便产生一个语义结构,同时生成一句言语,这样一来,用户实施行动的效果就和说话颇有些相似,行内还有个古怪的词汇称呼此类动作,叫“发状态”,比如当你在豆瓣某个电影页面点击“看过”时,就相当于你说了“我看过某某电影”这样一句话。

这种方式的好处是:用户在说话的时候,一句言语被传送出去的同时,语义也被持久化了,而且这些语义确切对应了说话者的言说意图。

问题是,这种模式在语义上是高度专制的,每个动词对应着应用程序的一项功能,每类宾语名词对应着它的一个语义框架(即一组元语义),每个宾语名词对应着该语义框架下的一个语义实例,所有这些,都是程序员在与图灵机对话时明确规定好的,程序员就像这个封闭语言世界里的上帝,规定了你可以用哪些动词和名词,而且数量通常极为有限,比如豆瓣的动词大概不超过十个,主语则只有一个:我。←难怪有人说社交应用迷都是自恋狂。

【语义化言说】

维基实际上是一种增强了的标签系统;标签是一种弱语义,它不表示言语内部各成分之间的关系,而只是在言语之间建立关系;不过维基从两方面强化了标签的语义功能:1)强制任何言语必须附属于某一标签之下(从而构成一个词条),因而词条名便成为该言语的主题标签,2)维基鼓励用户在言语中大量使用标签作为词汇。

于是,言语之间的语义连接至少在数量上大幅膨胀了,尽管这种语义化仍然是肤浅的。(晚近的维基百科已包含了更多不那么肤浅的语义化信息,但这些信息的表达方式已经远离了自然语言,而是由词条编写者按照某个为特定词条类别而设计的语义框架填充而成(通常以键-值对形式出现在词条页面的右侧))

维基是开放的,意思是个体可以按自己的意图添加或编辑词条,从而表达语义(实际上这也是非常受限的,比如当你想添加一个人名词条时,维基会告诉你这个人物必须有一定重要性,比如是位大学教授),但就语义表达需要而言,最致命的是:维基是匿名化和语义中心化的。

匿名化是指:语义信息在被持久化时,丢失了它源自哪个说话者这一信息;语义中心化是指:语义网络在空间上是无歧义的,即,任一给定时刻,无论访问者从何种途径访问这个语义网络,他(它)读取到的语义拓扑是完全一样的,换句话说:与任一概念(或符号)相连接的语义拓扑,在任一时刻只有一个版本。(尽管每个维基词条可以保存多个版本,但这只是维基的一种编辑管理手段,任一时刻在语义网中生效的,即可能被行动者读取从而产生意义的,只有一个版本。)

正是这一点,和我的((more...)

标签: | |
5535
本文的“语义化”,是指“帮助自然语言使用者将其言语的相关语义信息持久化到外部语义网络中”。 【为何需要语义化】 首先是因为许多人想要生产语义,人类的表达需求从来都很强烈,而且他们多半会希望自己所表达的内容至少有机会在某些情形下产生意义,而随着外部语义网的地位日益提高,此类机会将在越来越大的程度上等同于它们进入这个语义网的机会; 其次是为了自由。自然语言的分立和自发协调特性,让它的使用者在表达上享有充分的自由,即,其语法规范乃由个体间协调过程自发形成,而非由某个单一意志所设计,在多大程度上遵循或偏离规范的问题上,个体始终保有自主性和灵活性,而在此问题上的大量个体选择,始终在推动着语言规范的持续进化,正因此,除非受某种强力所压制,基于自然语言而产生的文化网络可以是非常自由而开放的。 相比之下,至少到目前为止,图灵世界的人工系统几无例外的具有强烈的语义专制倾向,这是因为,这些人工系统的设计者通常将语法上的严格性和一致性列为非常优先的考虑,对于建造特定功能特定用途的工具,这么做可能是必须或有益的,但假如这种专制性扩大到在系统级别上主导作为人类社会存在基础的整个文化系统,那是不可接受的。 诚然,图灵世界也存在大量分立的人工系统,因为有着大量分立的程序员个体,以及大量尝试建造人工系统的分立意志,因而图灵世界同样有着丰富的多样性;然而,这些人工系统迄今还缺乏自然语言所具有的那种自发协调能力,因而这些系统之间的关系是两极化的:要么处于单一规范的专制之下,要么相互孤立。 所以,至少在眼下,我们仍需要自然语言。 幸运的是,已经有了种种努力来帮助自然语言使用者实现语义持久化,下面我们来比较一下这些方案的特点。(这些努力的本意当然未必是帮助自然语言使用者,但只要实际上有着这样的效果,我就会将其列为语义化方案,所以这里的“方案”一词,是从用户角度出发说的。) 【言语持久化】 这个方案通俗地说就是让用户可以用自然语言在图灵世界说话,从而让言说内容得以持久化,但语义仍然挥发了。 从文字编辑器、电子邮件、BBS、IM,到blog、twitter,已经产生了大量以自然语言表达的电子文本。 由于电磁介质是远比传统介质优良的持久化介质,可访问性也好得多,所以尽管被持久化的仅仅是言语而非语义,但这至少为说话者创造了一种机会:当未来有了某种二次语义化的可行手段之后,从这些言语中多少有望再现出一些语义。 【贴标签】 blog和twitter都引入了标签机制,允许说话者为其言语附加标签;标签是一种语义信息,尽管只是一种非常弱的语义,它只能在若干言语之间建立非常松散的语义关系,而无法在一条言语内部各成分之间建立语义关系,而后者才是语义的主要来源,所以这只能算一种弱语义化方案。 不过它也有一些好处:1)简单易用;2)语义是用户按其意图主动表达的;3)较为自由,对何种符号组合可以用作标签基本上没有限制。 【用行动说话】 前面我已提到,图灵世界产生语义的第二种方式,是用户使用应用程序实施行动,此时应用程序可能就这些行动产生一些相关语义,不过,通常应用程序采集这些语义是用来服务于它自身的目的,而不是帮助用户表达,所以这些语义未必与用户的表达意图之间有什么确切关系(况且用户在这么做时也并非想表达什么)。 不过,有些类型的应用程序,比如社交类应用,会提供这样的功能:当用户作出某个动作时,便产生一个语义结构,同时生成一句言语,这样一来,用户实施行动的效果就和说话颇有些相似,行内还有个古怪的词汇称呼此类动作,叫“发状态”,比如当你在豆瓣某个电影页面点击“看过”时,就相当于你说了“我看过某某电影”这样一句话。 这种方式的好处是:用户在说话的时候,一句言语被传送出去的同时,语义也被持久化了,而且这些语义确切对应了说话者的言说意图。 问题是,这种模式在语义上是高度专制的,每个动词对应着应用程序的一项功能,每类宾语名词对应着它的一个语义框架(即一组元语义),每个宾语名词对应着该语义框架下的一个语义实例,所有这些,都是程序员在与图灵机对话时明确规定好的,程序员就像这个封闭语言世界里的上帝,规定了你可以用哪些动词和名词,而且数量通常极为有限,比如豆瓣的动词大概不超过十个,主语则只有一个:我。←难怪有人说社交应用迷都是自恋狂。 【语义化言说】 维基实际上是一种增强了的标签系统;标签是一种弱语义,它不表示言语内部各成分之间的关系,而只是在言语之间建立关系;不过维基从两方面强化了标签的语义功能:1)强制任何言语必须附属于某一标签之下(从而构成一个词条),因而词条名便成为该言语的主题标签,2)维基鼓励用户在言语中大量使用标签作为词汇。 于是,言语之间的语义连接至少在数量上大幅膨胀了,尽管这种语义化仍然是肤浅的。(晚近的维基百科已包含了更多不那么肤浅的语义化信息,但这些信息的表达方式已经远离了自然语言,而是由词条编写者按照某个为特定词条类别而设计的语义框架填充而成(通常以键-值对形式出现在词条页面的右侧)) 维基是开放的,意思是个体可以按自己的意图添加或编辑词条,从而表达语义(实际上这也是非常受限的,比如当你想添加一个人名词条时,维基会告诉你这个人物必须有一定重要性,比如是位大学教授),但就语义表达需要而言,最致命的是:维基是匿名化和语义中心化的。 匿名化是指:语义信息在被持久化时,丢失了它源自哪个说话者这一信息;语义中心化是指:语义网络在空间上是无歧义的,即,任一给定时刻,无论访问者从何种途径访问这个语义网络,他(它)读取到的语义拓扑是完全一样的,换句话说:与任一概念(或符号)相连接的语义拓扑,在任一时刻只有一个版本。(尽管每个维基词条可以保存多个版本,但这只是维基的一种编辑管理手段,任一时刻在语义网中生效的,即可能被行动者读取从而产生意义的,只有一个版本。) 正是这一点,和我的(也是哈耶克的)知识论哲学背道而驰,正如哈耶克在论文“The Use of Knowledge in Society”(1945)中指出,知识分散存在于个体头脑,因而任一个体在任一时刻仅能访问到世界全部知识的极小部分,而且其中任意两个个体访问到的信息,总是大不相同。(也正因此,任何复杂到值得被珍视的社会,必须容许个体拥有起码的自由——不过我不打算在此细述这一判断与前述哲学之间的逻辑关系。) 直到外部语义网出现之前,上述断言仍然成立,但外部语义网是个例外,它确实可以实现中心化,问题是,在该网络地位日益显要的前景下,作为个人主义者和自由主义者,我当然希望它向着去中心化的方向发展,但维基的方向与此相反。 中心化必然导致语义专制,维基的开放性仅仅由创始人的善意、以及他所建立的组织文化所保障,那是靠不住的,实际上,维基已经发展出了一个金字塔式的层级审查系统,大量编辑在紧盯着词条的修改动向,据说每个词条的生杀大权最终掌握在36位全球顶级编辑手中;非常讽刺的是,Jimmy Wales恰恰也是哈耶克信徒,并曾宣称维基的哲学基础正是哈耶克的上述论文。 匿名化的另一个问题是使得言语行为失去了社会性,而许多人正是将说话当作一种社交活动,而不仅仅是为了创造语义(但反过来,创造语义会促进社交,这一点从豆瓣可以看得很清楚,从强语义性令其发展出了和其他弱语义SNS十分不同的社交形态)。 所以很明显,维基不是个适合说话的地方,除非你准备采取一种说一不二的知识权威(或语义上帝)的姿态,不过,这种姿态,和编撰百科全书这样的目标,倒好像是挺搭的。 【词汇索引】 搜索引擎从言语文本中提取出词汇(也叫关键词),并加以索引,从而产生语义(当然言语文本不是它索引的唯一对象,它还索引很多原本就已语义化的东西)。 起初,这种方式所达到的语义化程度并不比维基强多少,只是语义关系的数量会更庞大,因为维基只是将文本中部分词汇标签化,而搜索引擎会把所有词汇(除了虚词)都当作关键词来对待(即将其作为语义网中的一个节点)。 不过,随着搜索引擎对文本的理解能力不断提高,它提取语义的深度也在加深,因而从同一个文本集中所能提取到的语义更多也更不肤浅了。 就我们的需要而言(帮助自然语言使用者在图灵世界创造语义),这一方案的问题是:它也是匿名化的;和维基不同的是,维基的匿名化服务于其语义中心主义,要实现语义中心化,就只能匿名,而搜索引擎只是不关心一段言语的说话者是谁,因为其业务逻辑不需要它关心,任何文本只是作为某个统计样本集中的一个样本而被处理。 搜索引擎倒不必是语义中心化的,它完全可以为处于不同情境下的访问者就同一个词汇给出不同的语义拓扑(这种情况可以出现在个性化搜索或情境化搜索中,这就好比,当我们在不同场合与不同的人交谈时,就同一个概念可以获得不同的语义信息),即便它没这么做,至少也不存在什么业务逻辑上的需要,迫使它追求语义中心化。 然而,尽管不必是中心化的,搜索引擎处理语义的方式仍妨碍了它服务于我们的需求:它不会为说话者保留对其所创造语义的自主权,这里的自主说的不是删除修改隐藏之类的控制(这些当然也可以有),而是指:说话者一旦创造了一项语义,这项语义就理应始终存在并始终与他这一个体联系在一起,直到曾经听到过这句话的人(包括他自己)都死光了或者他们全都把它给忘了,我说“理应”,是因为在传统的自然语言世界,情形确乎如此。 比如我对你说了句“丘吉尔是个美国人”,你从该言语中提取出若干条语义,至少在一段时间内,你会将这些语义和我联系在一起(这种联系本身也是一种语义,但那是我用行动表达的,你经由观察我的行动而获得),在将这些语义与你头脑里既有的语义网做运算之后,你可能产生了一条新语义,类似于“此人说了句蠢话”,在你记忆存续的限度内,这些语义会始终存在于你的语义网中。 可是搜索引擎却不会如此处理语义,它们只会被当作一个统计样本对待,淹没在无数同类样本的海洋里,失去了其原本具有的个人面目。 【机器理解】 在语义深度提取方面走得最远的,可能是IBM的Watson,在某些条件下,它从文本中提取语义的能力已与人类相当(和搜索引擎一样,它也从其他来源提取语义),不过,就我的需求(帮助自然语言使用者在图灵世界创造语义)而言,Watson至少在近期内仍难以指望。 首先是因为它还过于昂贵,所以还不会大量制造,暂时只会被用于能带来显著收益的用途;我们知道,自然语言的理解是高度历史依赖的,机器的主要弱点便在于它没有经历导致每个人类个体存在的那漫长历史(注意:导致每一个体存在的历史,都是整个宇宙历史进程中的一条独特轨迹,每条轨迹都不同),因而未能继承历史所赋予个体的信息(包括进化史所赋予的遗传信息和生活史所赋予的个体经验),所以,在机器能够开始从某类文本中深度提取语义之前,必须经历一个代价高昂的预学习过程。 假如我们希望机器能够像我们的社交伙伴一样顺畅的理解我们的言语,必须至少让他经历三个预学习阶段:首先,它要获得理解人类语言所需要的认知能力,其次,它要学会特定的语种,并习得以该语种为母语的那个文化,最后,它还要了解它将要倾听的那个特定人类个体的说话习惯(即便同母语的人类个体之间也并不总是能够顺畅对话的)。 实施这一过程本身代价高昂,而且这部机器在这段时间内将被该任务所独占,所以,除非Watson已便宜到能被用作个人信息设备,还难以指望它来满足我们的需求,它或许已能够从我们的言语中深度提取语义,但和搜索引擎一样,还不可能为我们保留语义自主性,而只能将我们的言语当作统计样本做匿名化处理。 【总结】
方案 言语持久化 贴标签 用行动说话 语义化言说 词汇索引 机器理解
实例  IM/BBS  blog/MB  豆瓣  维基  Google  IBM Watson
语义化  无  弱    中等  中等  强
语义表达  无  主动  主动  主动  被动  被动
开放性  开放  开放  封闭  半开放  开放  开放
匿名化  否  否  否  是  是  是
语义中心化  否  否  是  是  不必  不必
语义自主性  无  强  强  强  弱  弱
社会性  无  弱  强  无  无  无
     
『伊讲』前传:外部语义网络的诞生

【前图灵时代不存在外部语义网络】

因为自然语言的语义挥发性,言语不包含语义,起初(说出口之前)与言语相关的语义结构,被串行化成了语音/文本流(这一串行化过程被我称为语法生成),所以尽管前图灵时代留下了大量文本,但并不存在一个外部语义网(所谓外部,乃指外于个体头脑),语义信息仅存在于个体头脑之中,文本仅在被个体阅读时才在阅读者头脑中再现为语义。

当然,在前文字时代,连言语本身也是挥发性的。

【外部语义网络已随图灵机而诞生】

今天,每台计算机里都存储着大量语义信息,当一部图灵机读取此类语义信息,并驱动某台设备作出动作时,便产生了“意义”;显然,存储了不同代码或连接了不同设备的各台图灵机,在读取同一条语义信息后,可能引发(或不引发)不同动作,因而在此意义上,图灵世界同样存在歧义。

图灵世界的语义经由两种途径产生,一种是程序员按(more...)

标签: | |
5533
【前图灵时代不存在外部语义网络】 因为自然语言的语义挥发性,言语不包含语义,起初(说出口之前)与言语相关的语义结构,被串行化成了语音/文本流(这一串行化过程被我称为语法生成),所以尽管前图灵时代留下了大量文本,但并不存在一个外部语义网(所谓外部,乃指外于个体头脑),语义信息仅存在于个体头脑之中,文本仅在被个体阅读时才在阅读者头脑中再现为语义。 当然,在前文字时代,连言语本身也是挥发性的。 【外部语义网络已随图灵机而诞生】 今天,每台计算机里都存储着大量语义信息,当一部图灵机读取此类语义信息,并驱动某台设备作出动作时,便产生了“意义”;显然,存储了不同代码或连接了不同设备的各台图灵机,在读取同一条语义信息后,可能引发(或不引发)不同动作,因而在此意义上,图灵世界同样存在歧义。 图灵世界的语义经由两种途径产生,一种是程序员按某种人工语言的语法进行编码的结果,当一台通用图灵机读取这些编码并作出反应后,会在存储器中产生一个语义结构,当这些结构进而被读取以驱动设备时,便产生了意义。 在此过程中,程序员和图灵机所扮演的角色相当于自然语言中的说话者和受话者,区别在于:程序员与图灵机的对话遵循着一套精心设计的、严格且完备的语法约定,因而在图灵世界中,从言语(即程序编码)到语义的映射关系可以是无歧义的(尽管从语义到意义的映射仍是有歧义的)。 程序员和图灵机的对话,(除了产生一个语义结构)更重要的意义在于:它会在通用图灵机上创造出一部特殊图灵机(或称应用程序),以及一个相应的语义框架(即一组元语义,元语义是一种指示如何产生其他语义的特殊语义),它让其他人(用户)可以使用这部特殊图灵机做一些事,而当他们果真这么做时,机器便会按上述语义框架产生一些新语义(比如银行交易记录),这是图灵世界产生语义的第二种途径。 重要之处在于,这是在世界中产生语义信息的全新方式,它更加彻底的解耦了语义和意义:前图灵时代的个体也会通过行动创造语义,这些语义存储在他自己头脑中,而当用户在使用应用程序做事时,他可能明白自己行动的意义,但其行动所产生的语义却和他无关,也不(像他运用自然语言时所产生的语义那样)存在于他头脑之中,同时,存储了这些语义的机器,也无须了解产生这些语义的那些行动的意义。 【外部语义网络的互联和壮大】 起初的外部语义网通常是孤立的,每个系统有着自己的元语义,往往无法访问其他系统的语义信息,但在建立语义交互规范的种种努力的推动下,系统间的语义交互能力正日益增强,一个庞大的全球互联的外部语义网络正在浮现。 这个语义网,和传统意义上的文化一样,在构成人类生活条件的诸因素中,占据着重要且越来越重要的地位;但和文化不同,外部语义网在人类生活中起作用的方式更为直接:它可以绕过个体而直接产生意义,因为在一个由众多图灵机(及其存储系统)所构成的系统中,信息是直接以语义化形式存储的,因而可以直接被图灵机所利用而引发动作。 相反,文化信息由(口述传统或文本介质中的)言语构成,而言语不包含语义,只有被个体头脑解析之后才产生语义,而且每一个体有着自己独特的解析函数。 随着外部语义网的日益壮大,并且驱动着越来越多的设备,其(在决定人类生活条件方面的)地位将逐渐超越文化,或者(假如我们将文化的概念稍加扩大)可以说,它将逐渐成为文化的主要构成部分。 比如,制造系统在下一刻将制造些什么商品,传媒在下一刻将播送哪些内容,个人在下一刻将面临何种信息环境、接收到哪些信息,接触到哪些人,在商店货架上看到哪些商品,个人的某一言辞或行动将引发何种后果,学术界的研究兴趣将转向何处,人们如何使用某个词汇,如何看待某一历史事件,诸如此类的事情,将在越来越大的程度上取决于这一网络的内容构成。 【自然语言在新文化中的地位】 假如情况确实如此,那便提示着一种前景:在由外部语义网所主导的新型文化中,自然语言的地位在下降;在新文化中,个体主要以两种方式向外部语义网添加语义:程序员以对着图灵机说话的方式,但不是用自然语言,而是用人工语言,与其说话意图相关的语义将按严格约定得以精确再现;而其他人(或其他时候的程序员)则以使用各种应用程序实施行动的方式产生语义,如此产生的语义与其行动意图之间的对应关系并不明确。 无论何种方式,所使用的都不是自然语言。 诚然,在某些情况下,当用户使用应用程序实施行动时——诸如在填写某个格式表单时,在豆瓣某电影页面上点击“看过”时,在一个投票页面上点击“赞成”时——,应用程序所产生的语义,与用户的行动意图之间,是有着相当明确的映射关系的,在此意义上,我们可以说,用户和程序员一样:按其意图创造了语义。 但是,和以言语创造语义相比,以行动创造语义有着极大局限,它完全受限于应用程序所设定的语义框架,后者规定了何种语义可能经由用户行动而产生,比如在豆瓣,你只能表达“我-喜欢-某某”的语义,而不能表达“我-讨厌-某某”的语义,你只能“赞”一个帖子,却不能“踩”它,或“切”它、“嗯”它、“扯”它,因为程序员规定你不能这么做。 所以在图灵世界,只有一小撮程序员(或许可以称其为图灵时代的巫师)能够充分自由的按其意图创造语义,因为他们与图灵机对话时所用的语言是图灵完备的。 【我的焦虑】 我丝毫没有暗示一种卢德分子的姿态,哀叹技术霸权的威胁。只有一小撮人有机会按其意图以持久化方式创造语义,这一事态并不新鲜;前图灵时代,尽管人人都在说话,但只有极小部分个体的极小部分言语进入持久化介质(从而有机会跨越时空而在其他个体头脑中产生语义),而绝大部分语义,要么当即挥发了,要么随个体死亡而消失,未在文化长河中留下痕迹。 当然,言语也可以口耳相传的接力传递方式而在非持久化(或者说不那么持久化的)介质上实现持久化,但如此流传下来的言语,在总量中所占比例也是极低的,传播通道很大程度上被一小撮巫师、游吟诗人、说唱艺人所垄断,而且当它们在听众头脑中被再现为语义时,这些语义与当初的言说意图之间的相关性,往往已经非常微弱了。 所以没什么大不了的。 不过我确实有一种焦虑,因为我意识到,在持久化语义生产这个行当里,以自然语言为工具的生产者的地位正在迅速跌落,而我本人,尽管也是位程序员,但也是位作家,而且相对而言我更偏爱以自然语言为工具生产语义,所以我不希望自然语言在这个行当里的地位沦落到无关痛痒的程度。 【注:尽管按我的定义,用自然语言产生的言语(和记录它们的文本)并不包含语义,但它们有机会跨越时空而在读者头脑中产生语义,并且基于共同文化背景,这些语义与言说者当初的言说意图可以是高度相关的(究竟在多大程度上相关,还要看文化背景的共同程度和言说者运用自然语言的能力),所以我觉得仍有理由将写作视为一种持久化语义生产工作。】 这一焦虑促使我思考一个问题:如何在图灵时代的语义生产行当中挽救自然语言的命运?  
『伊讲』的语言学基础

Semantics.1300x5801)自然语言以言语(speech)为其表达形式;

2)说话时,说话者通过语法生成器(GG)将某个与其说话意图相关的语义结构(SS-A)转换为言语;

3)言语通过传播介质(以语音流或文本流的形式)到达受话者(听者或读者,可以是他自己);

4)受话者通过语法解析器(GP)(并借助其头脑中已有的语义网络)将接收的言语解析为一个语义结构(SS-B);

5)受话者可能会将解析得到的语义(部分或全部)写入其语义网络中;

6)解析得到的语义可能当即触发受话者的某种行为;

7)当传播介质具有记忆性因而同(more...)

标签: |
5525
Semantics.1300x5801)自然语言以言语(speech)为其表达形式; 2)说话时,说话者通过语法生成器(GG)将某个与其说话意图相关的语义结构(SS-A)转换为言语; 3)言语通过传播介质(以语音流或文本流的形式)到达受话者(听者或读者,可以是他自己); 4)受话者通过语法解析器(GP)(并借助其头脑中已有的语义网络)将接收的言语解析为一个语义结构(SS-B); 5)受话者可能会将解析得到的语义(部分或全部)写入其语义网络中; 6)解析得到的语义可能当即触发受话者的某种行为; 7)当传播介质具有记忆性因而同时也是存储介质时,言语可能被存储; 8)言语不包含语义; 9)因而与言语相关的语义(无论SS-A或SS-B)不会被任何外部介质存储,自然语言的这一特性,被我称为“语义挥发性(semantic volatility)”; 10)从SS-A到SS-B之间至少经过了两次映射,这些映射函数存在于每一个体头脑中,它们在不同个体之间、在同一个体的不同时刻之间,都可以是不同的; 11)因而SS-A与SS-B之间的映射关系是高度多变且不稳定的,自然语言的这一特性,被我称为(空间维度上的)歧义和(时间维度上的)语义漂变; 12)SS-A与SS-B之间的相关性,取决于说话者的GG与受话者的GP的相关性,以及两者头脑中的语义网络的相似性,这些相关性,常被笼统的称为共同文化背景,它们进而取决 于两者生活史和神经结构的相似性,并最终取决于导致两个个体存在的全部历史;  
『伊讲』的哲学基础

1)知识(knowledge)是且仅是(可能)影响个体行为的信息(information);

2)知识的意义(meaning)仅在于它(可能)如何影响个体行为;

3)知识分散存在于个体头脑中;

4)存在于其他介质中的信息不是知识;

5)自然语言是一种信息工具,借助它,个体可以在自身或他人头脑中产生知识;

6)对自然语言的上述运用,在个体头脑中产生了一个语义网络(semantic network),它们之间通过口述传统或各种文本介质发生交互;

7)该语义网络的某些特性,使得(5)所提到的知识生产工作变得极富成效;

8)语义是且仅是(符号之间的)(more...)

标签: | |
5521
1)知识(knowledge)是且仅是(可能)影响个体行为的信息(information); 2)知识的意义(meaning)仅在于它(可能)如何影响个体行为; 3)知识分散存在于个体头脑中; 4)存在于其他介质中的信息不是知识; 5)自然语言是一种信息工具,借助它,个体可以在自身或他人头脑中产生知识; 6)对自然语言的上述运用,在个体头脑中产生了一个语义网络(semantic network),它们之间通过口述传统或各种文本介质发生交互; 7)该语义网络的某些特性,使得(5)所提到的知识生产工作变得极富成效; 8)语义是且仅是(符号之间的)关系; 9)语义不包含意义; 9.1)当语义与个体头脑中的其他信息共同影响行为时,意义出现了; 10)言语通过(经由语法转换)接入上述语义网络而获得其语义结构(即一组关系); 11)言语不包含意义; 12)言语仅在被听(或读)者接受时,才(在如何可能影响其当前或未来行为的sense上)产生意义; 13)当众多个体在众多时刻众多场合进行(5)中的知识生产工作时,任何言语和语义结构之间的映射函数必定是高度多变(varied)而不稳定的(unstable); 14)这种(空间维度上的)多变和(时间维度上的)不稳定,常被称为“歧义”和“衍讹”(我称之为“语义漂变(semantic free float)”); 15)歧义和语义漂变是自然语言的特性而非缺陷,它让上述语义网络保持自由和开放性; 16)所谓(语义上的)自由,是指任何个体在任何时候任何场合都有机会创造新语义; 17)所谓(语义上的)开放性,是指语义网络有能力不断容纳新语义;
[微言]感觉和语言

【2014-09-12】

@whigzhou: 有些人赞美食物的形容词从来只有一个:香!每次听到这个带感叹号的字我都想吐,好像压根没体会过鲜、嫩、酥、脆、爽、糯、滑……

@夫子大师兄:不会表达就吃不出好味道?

@whigzhou: 依我看还真是这样,感觉与表达的关系不是单向的,而是相互影响相互训练,感觉分离是体验精细化的前提,而分离需要语言(或类似符号化系统)的帮助才能做到,否则就停留在蒙昧混沌状态,所以,表达细腻既说明感觉细腻,也有助于让感觉变得更细腻

@whigzhou: 说某些语言的人,成年后分(more...)

标签: |
5316
【2014-09-12】 @whigzhou: 有些人赞美食物的形容词从来只有一个:香!每次听到这个带感叹号的字我都想吐,好像压根没体会过鲜、嫩、酥、脆、爽、糯、滑…… @夫子大师兄:不会表达就吃不出好味道? @whigzhou: 依我看还真是这样,感觉与表达的关系不是单向的,而是相互影响相互训练,感觉分离是体验精细化的前提,而分离需要语言(或类似符号化系统)的帮助才能做到,否则就停留在蒙昧混沌状态,所以,表达细腻既说明感觉细腻,也有助于让感觉变得更细腻 @whigzhou: 说某些语言的人,成年后分辨不出某些语音,但幼儿期能分辨,就是感觉分离(或者叫离散化)的结果 @whigzhou: 感觉的离散化是其介入高级心理活动的基础,初始感觉经过离散化之后,才有机会唤起某些知觉,而被唤起的知觉活动的丰富性,受限于离散化的采样精度 @whigzhou: 而采样精度是按节省原则自动调节的,假如较精细的采样结果总是得不到其他模块的充分利用,精度就会自动调低,因为此时太精细就是浪费,于是感觉就被塑造得粗糙了 @whigzhou: 这就好比,财务分析师每月向老板交分析报表,起初每月厚厚一叠,但发现老板每次只花20秒翻一翻前两页,于是后来的报表就缩到只剩两页了,这是有效率的工作机制 @弗洛伊德背单词:"Any language is a conspiracy against experience in the sense that it is a collective attempt to manage experience by reducing it into discrete parcels." 任何语言都是一种对抗经验的阴谋,它把经验分解成为离散的互不关联的碎片来操纵主体经验 @whigzhou: 这是形成经验而非对抗经验 @whigzhou: 认为这是对抗经验,说明他理解的经验是“照相式”经验,而不是格式塔经验  
[微言]英语的群属后缀

【2014-07-31】

@whigzhou: 英语里表示某类人的后缀好像有很多种,-ish: English, -ese: Portuguese, -ian: Asian, -(a)n: African, -iard: Spaniard, -i: Iraqi, -er: Quebecer, -is: Israelis, -ites: Mennonites,还有吗?它们的共同点是都含有元音(i)(除了-er)。

@wh(more...)

标签:
5272
【2014-07-31】 @whigzhou: 英语里表示某类人的后缀好像有很多种,-ish: English, -ese: Portuguese, -ian: Asian, -(a)n: African, -iard: Spaniard, -i: Iraqi, -er: Quebecer, -is: Israelis, -ites: Mennonites,还有吗?它们的共同点是都含有元音(i)(除了-er)。 @whigzhou: -ish和-ese 好像用于语言共同体,-ian和-an则是某块土地的居住者,-is和-i好像是某国国民,-er常用于岛民,-ite则多用于教派,不过有些选择好像只是为了念起来顺口?  
[微言]哥伦布发现了美洲?

【2014-04-18】

@Ent_evo “哥伦布法则:我们纪念哥伦布,不是因为他第一个发现美洲,而是因为他最后一个发现美洲。”

@Ent_evo: 因为哥伦布之后,美洲就进入了人类知识共同体(好吧是西欧共同体,不要在意这个例子本身的西方中心论),因此后来人再也无法发现它了。知识共同体的意义,远大于单纯争第一的意义

@whigzhou: 我觉得即便在此意义上,也不能说“哥伦布发现了美洲”,而只能说“哥伦布领导的一次航行导致了美洲的发现”

@wh(more...)

标签:
5151
【2014-04-18】 @Ent_evo “哥伦布法则:我们纪念哥伦布,不是因为他第一个发现美洲,而是因为他最后一个发现美洲。” @Ent_evo: 因为哥伦布之后,美洲就进入了人类知识共同体(好吧是西欧共同体,不要在意这个例子本身的西方中心论),因此后来人再也无法发现它了。知识共同体的意义,远大于单纯争第一的意义 @whigzhou: 我觉得即便在此意义上,也不能说“哥伦布发现了美洲”,而只能说“哥伦布领导的一次航行导致了美洲的发现” @whigzhou: 因为那次航行在当时并未使得“那里存在那样一块新大陆”成为该知识共同体的公共知识,这一知识在很久以后才在该共同体内确立 @whigzhou: 比如1800年一位农民从自家地里挖出一块卜辞甲骨,卖给当地药材店,而丝毫没有意识到甲骨上图形的可能意义,即便这是所有文献中记录的首个同类事件,我们也不能说“该农民发现了卜辞甲骨” @whigzhou: 只有在如下象征意义上,我们才能说“哥伦布发现了美洲”——他所领导的那次航行,开启了一系列向西的探险活动(之前的探险都是向南的),这些活动最终导致了美洲的发现,而哥伦布最初的那次航行成了这一运动的象征  
[微言]动词减少和被动语态

【2013-12-16】

@whigzhou: 语言粗俗化的一个典型特征是动词减少,什么都是“搞、干、做、do”

@whigzhou: 49年后,汉语经历了一次有组织的大规模粗俗化过程,因为老大粗光荣嘛,所有人争先恐后学贫下中农腔调说话

@whigzhou: 而且,因为下级在上级面前不得不文雅一些,所以“有资格用最粗俗的腔调说话”成了一种权势和地位的新标志

@ripple王小贝:最恨滥用被字句。“被”字在中文里暗含贬义,不能等同于passive voice.< (more...)

标签:
4939
【2013-12-16】 @whigzhou: 语言粗俗化的一个典型特征是动词减少,什么都是“搞、干、做、do” @whigzhou: 49年后,汉语经历了一次有组织的大规模粗俗化过程,因为老大粗光荣嘛,所有人争先恐后学贫下中农腔调说话 @whigzhou: 而且,因为下级在上级面前不得不文雅一些,所以“有资格用最粗俗的腔调说话”成了一种权势和地位的新标志 @ripple王小贝:最恨滥用被字句。“被”字在中文里暗含贬义,不能等同于passive voice. @whigzhou: 使用被动语态常常是为了隐藏主语,用于将个人责任变成所谓社会责任,或将个人意志伪装成所谓集体意志/历史使命,社会主义者惯用前者,极权主义者擅长后者,最早发现这情况的好像是George Orwell @whigzhou: 另一用途是政治正确,当强奸案嫌犯是黑人时,主语最好隐藏,至少别出现在标题和前150个字符中 @innesfry:是,如果是正面人物,就适用“一滴血法则”(有一滴黑人的血就算黑人);如果是负面人物,就适用被动语态  
[微言]OO与柏拉图

【2013-02-22】

@外刊IT评论 最新发表《面向对象编程从骨子里就有问题——看看名人大家是如何诋毁面向对象的》:正所谓树大招风,越是流行的东西越容易变成人们的众矢之的。在编程界里,面向对象编程就是这样一个代表性事物,不论它在当今的软件开发中占有多大的 『文章地址: http://t.cn/zYXptkR 』

@tertio:哈哈,我也是

@whigzhou: 你们只是说说而已,我却改行了

@tertio “面向对象编程语言的问题在于,它总是附带着所有它需要的隐含环境。你想要一个香(more...)

标签: | |
4883
【2013-02-22】 @外刊IT评论 最新发表《面向对象编程从骨子里就有问题——看看名人大家是如何诋毁面向对象的》:正所谓树大招风,越是流行的东西越容易变成人们的众矢之的。在编程界里,面向对象编程就是这样一个代表性事物,不论它在当今的软件开发中占有多大的 『文章地址: http://t.cn/zYXptkR 』 @tertio:哈哈,我也是 @whigzhou: 你们只是说说而已,我却改行了 @tertio “面向对象编程语言的问题在于,它总是附带着所有它需要的隐含环境。你想要一个香蕉,但得到的却是一个大猩猩拿着香蕉,而其还有整个丛林。” — Joe Armstrong(Erlang语言发明人)----Joe的毒舌总是很精准,但他的Erlang却也没摸到真正的门在哪里 @whigzhou: 我的说法是,OO就是柏拉图主义 @whigzhou: 我是在读过波普的《开放社会的敌人》后才意识到OO问题之所在的,等读到奎因时,它就完全被我唾弃了 @whigzhou: 在柏拉图看来,先有绝对而纯粹的理念,然后投射为现实,而奎因让我认识到,概念/意义/结构都是在主体与上下文环境以及主体之间的持续互动中逐渐明确起来的,其内涵与边界都随此过程而不断变化调整,OO的问题在于,它建立的系统很不适应这种变化,每次认识变化都会冲击到整个结构 @小小nopainkiller:什么是更好的方法呢? @whigzhou: 要符合人类认知规律,即认识世界、形成和澄清观念、积累知识的规律,先具体后抽象,还有低耦合,具体怎么做我不知道,先等着看三总的成果吧 【后记】OO根子上的问题其实比这更多。
[微言]翻译腔

【2013-01-22】

@iWeekly周末画报 周嘉宁专栏《琢磨翻译腔》:这些年间在评价一个中文小说的时候常常可以看到这样的话:翻译腔太重了。只要这句话一说出来,评价者们基本就可以忽略这个小说的结构,或者作者明明在语言上下过的苦功夫,一杆子打死。而我作为语言控却始终没有琢磨出来,到底翻译腔是个什么玩意儿。@bololo周嘉宁

@-Lucifier-:被认为是「汉语性质」的语言,除了各种方言外,就是那些只比唐诗宋词长上那么一点的短句子。而企图用诸多短句子做精(more...)

标签:
4840
【2013-01-22】 @iWeekly周末画报 周嘉宁专栏《琢磨翻译腔》:这些年间在评价一个中文小说的时候常常可以看到这样的话:翻译腔太重了。只要这句话一说出来,评价者们基本就可以忽略这个小说的结构,或者作者明明在语言上下过的苦功夫,一杆子打死。而我作为语言控却始终没有琢磨出来,到底翻译腔是个什么玩意儿。@bololo周嘉宁 @-Lucifier-:被认为是「汉语性质」的语言,除了各种方言外,就是那些只比唐诗宋词长上那么一点的短句子。而企图用诸多短句子做精准的描述,通常是不行的。从句或者所谓的「语言嵌套」是很重要的部件,使用它们时必然增加了句子的长度及其结构的复杂性。这不是翻译腔,这是所有语言的共性。翻译腔只是翻译得拙劣罢。 @whigzhou: 翻译腔挺好,这是对汉语的发展,旧式汉语在某些方面的表达能力不行 @whigzhou: 汉语在唤起共鸣方面比较强,若所涉及观念在交流双方头脑里既已存在,汉语就能用极为简练的词句完成表达,可是当需要用一个稍稍复杂的结构来表达新观念时,就往往显得笨拙而不精确了,歧义陷阱多,且不容易处理 @whigzhou: 语言的精确化和契约/法律传统很有关系,对待承诺、责任和规则的严肃态度,可以推动语言的精确化,暧昧语言对应着暧昧社会  
[微言]“Evolution”与“进化”

【2012-12-02】

@内含子-intron 中文把Evolution译成“进化”真是一个很大的失误。这个词总给人一种越来越高级,越来越先进的感觉。Nature曾有一篇文章讨论进化论在中国的问题,还引用了孔夫子的一句话【名不正则言不顺】

@-Lucifier-:之前我也认为Evolution翻译成「演化」更佳;现在我已有另外的看法:在对进化论与进化心理学的诸多误解中,翻译问题是最简单而低级的一种

@whigzhou: 这根本不算翻译问题,该词在英文中本来就有变得更高级更复杂的意思,见Wiki词典evolution第1义项 http://t.cn/zjVLtou

@whigzhou(more...)

标签: |
4756
【2012-12-02】 @内含子-intron 中文把Evolution译成“进化”真是一个很大的失误。这个词总给人一种越来越高级,越来越先进的感觉。Nature曾有一篇文章讨论进化论在中国的问题,还引用了孔夫子的一句话【名不正则言不顺】 @-Lucifier-:之前我也认为Evolution翻译成「演化」更佳;现在我已有另外的看法:在对进化论与进化心理学的诸多误解中,翻译问题是最简单而低级的一种 @whigzhou: 这根本不算翻译问题,该词在英文中本来就有变得更高级更复杂的意思,见Wiki词典evolution第1义项 http://t.cn/zjVLtou @whigzhou: 而且生命形态的复杂度最高值在进化史上随时间而提高,是不争的事实,也是它被称为“进化”的原因所在 @whigzhou: 如果evolution仅仅是“随时间而改变”,那些遗址古迹的风化过程怎么没被叫做evolution? @abada张宏兵:人类基因数量不占优势,甚至少于某些植物,而复杂性有多种定义方式。古迹非遗传变异 @whigzhou: 1)基因占不占多数有啥关系?太阳系绝大部分物质仍以无机形态存在,并不能证明太阳系的生命系统未发生伟大的进化;2)“古迹非遗传变异”,进化一次并非生物学专用 @博伊德_拜Sapolsky教:其实害怕越来越复杂,高纽的心理,我以为还是源于#智设论#的搅局,有着愈来愈的倾向?那就是按照某种意图的设计喽,设计者是谁?回家问父母吧。这叫秀才遇到兵,科学家的尴尬在于需要说明没有反例,这是不可能的显然,你和小孩说什么混沌,无序中出现有序,整体熵增,局部熵减,拜托,书 @whigzhou: 是的,恐惧之余矫枉过正了 @abada张宏兵:举例。如果定义基因数量大或复杂度高就是进化高级,那人类是否高级就需要比较这些。这与按出现时间定义后代即进化判断结果不同。总之高级取决于定义方式 @whigzhou: 复杂度当然需要定义,也完全可以定义,比如单一个体的总信息量,任何度量都取决于定义方式,不会因此而丧失意义,So what? @荒唐-逻辑引擎:回复@whigzhou:且不说这个复杂度的具体定义是什么,复杂度增加从来不是必然的,仅当复杂度增加带来生存繁衍上的优势时才会阶段性发生。但无论复杂度增加还是降低,都是演化,进化确实误导。 @whigzhou: 确实“不是必然的”,但这是被称为进化史的这段历史的一个事实,它幸运的发生了,而离开这事实,该过程就不会被叫做进化 @whigzhou: 当然复杂度增加是发生在整个生物界的峰值上,而不是指任何单独分支,因而与适应性没有直接关系 @abada张宏兵:定义以后若用作事实判断,判断结果不包含价值意义;若用于价值判断,即说明那定义中蕴涵价值观,既然不受事实验证即可任意甚至反向定义 @whigzhou: 这就不必要的把问题引到哲学层面上来了,“高级”可以不包含价值意味,即便包含,在给定度量方法后,就与事实判断等同了