之前有关「伊讲」的几篇文章,都是理论性的,并不能让你直观感性的了解她,现在,随着初版完工日期的临近,我觉得有必要也有条件给出一个面向最终用户的直观介绍了。
不过,这仍然只是一个介绍,而不是完整的使用手册,叙述比较松散随意。
因为用到了大量图表,我把它做成了pdf:
http://headsalon.org/ikaon_a_introduction.pdf
墙内也放了一份:
之前有关「伊讲」的几篇文章,都是理论性的,并不能让你直观感性的了解她,现在,随着初版完工日期的临近,我觉得有必要也有条件给出一个面向最终用户的直观介绍了。
不过,这仍然只是一个介绍,而不是完整的使用手册,叙述比较松散随意。
因为用到了大量图表,我把它做成了pdf:
http://headsalon.org/ikaon_a_introduction.pdf
墙内也放了一份:
你大概已经猜到了『伊讲』大概是个什么东西,没错,把几种语义化方案中被我视为可欲的那些特性合并起来,便是『伊讲』的特性:伊是一种强语义化的、让说话者主动表达语义的、语义开放的、去中心化的、非匿名化的(因而是个人化的)、强社会性的语义化方案。
方案 | 言语持久化 | 贴标签 | 用行动说话 | 语义化言说 | 词汇索引 | 机器理解 | 语法标记 |
实例 | IM/BBS | blog/MB | 豆瓣 | 维基 | IBM Watson | 伊讲 | |
语义化 | 无 | 弱 | 强 | 中等 | 中等 | 强 | 强 |
语义表达 | 无 | 主动 | 主动 | 主动 | 被动 | 被动 | 主动 |
开放性 | 开放 | 开放 | 封闭 | 半开放 | 开放 | 开放 | 开放 |
匿名化 | 否 | 否 | 否 | 是 | 是 | 是 | 否 |
语义中心化 | 否 | 否 | 是 | 是 | 不必 | 不必 | 否 |
语义自主性 | 无 | 强 | 强 | 强 | 弱 | 弱 | 强 |
社会性 | 无 | 弱 | 强 | 无 | 无 | 无 | 强 |
在我列举的各方案中,豆瓣拥有最多我所期待的特性,但豆瓣也有两个我最痛恨的特性:她是封闭的(即语义专制的),也是语义中心化的,而同时,twitter(或其他微博客)是开放和去中心化的(当然,豆瓣同时也是微博客,但她的这两部分在语义功能上是相互孤立的,我说的是它区别于微博客的地方),但推特的语义化又太弱了,这是因为标签机制的语义功能太弱。
『伊讲』的方案,就是把twitter的标签升级为语法标记,从而让机器能够从(more...)
方案 | 言语持久化 | 贴标签 | 用行动说话 | 语义化言说 | 词汇索引 | 机器理解 | 语法标记 |
实例 | IM/BBS | blog/MB | 豆瓣 | 维基 | IBM Watson | 伊讲 | |
语义化 | 无 | 弱 | 强 | 中等 | 中等 | 强 | 强 |
语义表达 | 无 | 主动 | 主动 | 主动 | 被动 | 被动 | 主动 |
开放性 | 开放 | 开放 | 封闭 | 半开放 | 开放 | 开放 | 开放 |
匿名化 | 否 | 否 | 否 | 是 | 是 | 是 | 否 |
语义中心化 | 否 | 否 | 是 | 是 | 不必 | 不必 | 否 |
语义自主性 | 无 | 强 | 强 | 强 | 弱 | 弱 | 强 |
社会性 | 无 | 弱 | 强 | 无 | 无 | 无 | 强 |
本文的“语义化”,是指“帮助自然语言使用者将其言语的相关语义信息持久化到外部语义网络中”。
【为何需要语义化】
首先是因为许多人想要生产语义,人类的表达需求从来都很强烈,而且他们多半会希望自己所表达的内容至少有机会在某些情形下产生意义,而随着外部语义网的地位日益提高,此类机会将在越来越大的程度上等同于它们进入这个语义网的机会;
其次是为了自由。自然语言的分立和自发协调特性,让它的使用者在表达上享有充分的自由,即,其语法规范乃由个体间协调过程自发形成,而非由某个单一意志所设计,在多大程度上遵循或偏离规范的问题上,个体始终保有自主性和灵活性,而在此问题上的大量个体选择,始终在推动着语言规范的持续进化,正因此,除非受某种强力所压制,基于自然语言而产生的文化网络可以是非常自由而开放的。
相比之下,至少到目前为止,图灵世界的人工系统几无例外的具有强烈的语义专制倾向,这是因为,这些人工系统的设计者通常将语法上的严格性和一致性列为非常优先的考虑,对于建造特定功能特定用途的工具,这么做可能是必须或有益的,但假如这种专制性扩大到在系统级别上主导作为人类社会存在基础的整个文化系统,那是不可接受的。
诚然,图灵世界也存在大量分立的人工系统,因为有着大量分立的程序员个体,以及大量尝试建造人工系统的分立意志,因而图灵世界同样有着丰富的多样性;然而,这些人工系统迄今还缺乏自然语言所具有的那种自发协调能力,因而这些系统之间的关系是两极化的:要么处于单一规范的专制之下,要么相互孤立。
所以,至少在眼下,我们仍需要自然语言。
幸运的是,已经有了种种努力来帮助自然语言使用者实现语义持久化,下面我们来比较一下这些方案的特点。(这些努力的本意当然未必是帮助自然语言使用者,但只要实际上有着这样的效果,我就会将其列为语义化方案,所以这里的“方案”一词,是从用户角度出发说的。)
【言语持久化】
这个方案通俗地说就是让用户可以用自然语言在图灵世界说话,从而让言说内容得以持久化,但语义仍然挥发了。
从文字编辑器、电子邮件、BBS、IM,到blog、twitter,已经产生了大量以自然语言表达的电子文本。
由于电磁介质是远比传统介质优良的持久化介质,可访问性也好得多,所以尽管被持久化的仅仅是言语而非语义,但这至少为说话者创造了一种机会:当未来有了某种二次语义化的可行手段之后,从这些言语中多少有望再现出一些语义。
【贴标签】
blog和twitter都引入了标签机制,允许说话者为其言语附加标签;标签是一种语义信息,尽管只是一种非常弱的语义,它只能在若干言语之间建立非常松散的语义关系,而无法在一条言语内部各成分之间建立语义关系,而后者才是语义的主要来源,所以这只能算一种弱语义化方案。
不过它也有一些好处:1)简单易用;2)语义是用户按其意图主动表达的;3)较为自由,对何种符号组合可以用作标签基本上没有限制。
【用行动说话】
前面我已提到,图灵世界产生语义的第二种方式,是用户使用应用程序实施行动,此时应用程序可能就这些行动产生一些相关语义,不过,通常应用程序采集这些语义是用来服务于它自身的目的,而不是帮助用户表达,所以这些语义未必与用户的表达意图之间有什么确切关系(况且用户在这么做时也并非想表达什么)。
不过,有些类型的应用程序,比如社交类应用,会提供这样的功能:当用户作出某个动作时,便产生一个语义结构,同时生成一句言语,这样一来,用户实施行动的效果就和说话颇有些相似,行内还有个古怪的词汇称呼此类动作,叫“发状态”,比如当你在豆瓣某个电影页面点击“看过”时,就相当于你说了“我看过某某电影”这样一句话。
这种方式的好处是:用户在说话的时候,一句言语被传送出去的同时,语义也被持久化了,而且这些语义确切对应了说话者的言说意图。
问题是,这种模式在语义上是高度专制的,每个动词对应着应用程序的一项功能,每类宾语名词对应着它的一个语义框架(即一组元语义),每个宾语名词对应着该语义框架下的一个语义实例,所有这些,都是程序员在与图灵机对话时明确规定好的,程序员就像这个封闭语言世界里的上帝,规定了你可以用哪些动词和名词,而且数量通常极为有限,比如豆瓣的动词大概不超过十个,主语则只有一个:我。←难怪有人说社交应用迷都是自恋狂。
【语义化言说】
维基实际上是一种增强了的标签系统;标签是一种弱语义,它不表示言语内部各成分之间的关系,而只是在言语之间建立关系;不过维基从两方面强化了标签的语义功能:1)强制任何言语必须附属于某一标签之下(从而构成一个词条),因而词条名便成为该言语的主题标签,2)维基鼓励用户在言语中大量使用标签作为词汇。
于是,言语之间的语义连接至少在数量上大幅膨胀了,尽管这种语义化仍然是肤浅的。(晚近的维基百科已包含了更多不那么肤浅的语义化信息,但这些信息的表达方式已经远离了自然语言,而是由词条编写者按照某个为特定词条类别而设计的语义框架填充而成(通常以键-值对形式出现在词条页面的右侧))
维基是开放的,意思是个体可以按自己的意图添加或编辑词条,从而表达语义(实际上这也是非常受限的,比如当你想添加一个人名词条时,维基会告诉你这个人物必须有一定重要性,比如是位大学教授),但就语义表达需要而言,最致命的是:维基是匿名化和语义中心化的。
匿名化是指:语义信息在被持久化时,丢失了它源自哪个说话者这一信息;语义中心化是指:语义网络在空间上是无歧义的,即,任一给定时刻,无论访问者从何种途径访问这个语义网络,他(它)读取到的语义拓扑是完全一样的,换句话说:与任一概念(或符号)相连接的语义拓扑,在任一时刻只有一个版本。(尽管每个维基词条可以保存多个版本,但这只是维基的一种编辑管理手段,任一时刻在语义网中生效的,即可能被行动者读取从而产生意义的,只有一个版本。)
正是这一点,和我的((more...)
方案 | 言语持久化 | 贴标签 | 用行动说话 | 语义化言说 | 词汇索引 | 机器理解 |
实例 | IM/BBS | blog/MB | 豆瓣 | 维基 | IBM Watson | |
语义化 | 无 | 弱 | 强 | 中等 | 中等 | 强 |
语义表达 | 无 | 主动 | 主动 | 主动 | 被动 | 被动 |
开放性 | 开放 | 开放 | 封闭 | 半开放 | 开放 | 开放 |
匿名化 | 否 | 否 | 否 | 是 | 是 | 是 |
语义中心化 | 否 | 否 | 是 | 是 | 不必 | 不必 |
语义自主性 | 无 | 强 | 强 | 强 | 弱 | 弱 |
社会性 | 无 | 弱 | 强 | 无 | 无 | 无 |
【前图灵时代不存在外部语义网络】
因为自然语言的语义挥发性,言语不包含语义,起初(说出口之前)与言语相关的语义结构,被串行化成了语音/文本流(这一串行化过程被我称为语法生成),所以尽管前图灵时代留下了大量文本,但并不存在一个外部语义网(所谓外部,乃指外于个体头脑),语义信息仅存在于个体头脑之中,文本仅在被个体阅读时才在阅读者头脑中再现为语义。
当然,在前文字时代,连言语本身也是挥发性的。
【外部语义网络已随图灵机而诞生】
今天,每台计算机里都存储着大量语义信息,当一部图灵机读取此类语义信息,并驱动某台设备作出动作时,便产生了“意义”;显然,存储了不同代码或连接了不同设备的各台图灵机,在读取同一条语义信息后,可能引发(或不引发)不同动作,因而在此意义上,图灵世界同样存在歧义。
图灵世界的语义经由两种途径产生,一种是程序员按(more...)
2)说话时,说话者通过语法生成器(GG)将某个与其说话意图相关的语义结构(SS-A)转换为言语;
3)言语通过传播介质(以语音流或文本流的形式)到达受话者(听者或读者,可以是他自己);
4)受话者通过语法解析器(GP)(并借助其头脑中已有的语义网络)将接收的言语解析为一个语义结构(SS-B);
5)受话者可能会将解析得到的语义(部分或全部)写入其语义网络中;
6)解析得到的语义可能当即触发受话者的某种行为;
7)当传播介质具有记忆性因而同(more...)
1)知识(knowledge)是且仅是(可能)影响个体行为的信息(information);
2)知识的意义(meaning)仅在于它(可能)如何影响个体行为;
3)知识分散存在于个体头脑中;
4)存在于其他介质中的信息不是知识;
5)自然语言是一种信息工具,借助它,个体可以在自身或他人头脑中产生知识;
6)对自然语言的上述运用,在个体头脑中产生了一个语义网络(semantic network),它们之间通过口述传统或各种文本介质发生交互;
7)该语义网络的某些特性,使得(5)所提到的知识生产工作变得极富成效;
8)语义是且仅是(符号之间的)(more...)