Zipf定律,最省力原则及网络语言

Filed in 管理专栏 2 comments

有这么一个笑话,冬天快到了,一群印第安人问他们新上任的酋长,今年冬天会冷么;酋长说,会的。于是他们开始拼命搜集木材和食物,准备过冬。眼见如此情景,酋长担心万一碰上个暖冬,自己的威信可就被糟蹋了,于是他打电话给当地气象台问气象学家,今年冬天会冷么,气象学家说会的;酋长不放心,又问,您怎么这么肯定;气象学家答,你没看到么,那些印第安人都发了疯一样准备过冬呢。

类似的,语言学中也有一条著名的经验法则, 数学家们信奉它,因为他们认为这条法则是语言学家建立的;语言学家们信奉它,则是因为他们以为这是条被数学家们证明过的数学定律。当然,这条被哈佛语言学家Zipf提出并以他的名字命名的定律比起上述印第安气象学要靠谱的多:Zipf发现,如果把一种语言中的所有的词按照词频从大到小排序,并记录它们的排列位置,那么一个词的词频f,和它的位置r,近似满足如下关系f*r=k,其中k是一个常数。

掩藏在公式背后的意思是,对于同一个概念,说话者期望选择一个出现频率很高,但是词义较含糊的词来表达,而听者则希望接受到一个出现频率很低,相应更精确的词汇。极端情况下,说话者巴不得只用一个词就能表达天下所有的意思,而听者则最好是一个萝卜一个坑,一个概念只有一个词相对应。总之双方都指着对方多担待,自己省点事儿。Zipf将此称为最省力原则(Principle of Least Effort).

Zipf定律就是反映了说者和听者两者间讨价还价最后的折衷,即只有相当少的一些词能够表达很多语义,相应具有很高的出现频率;而绝大多数的词则能较准确的表达特定意思,也就只有较少的出现频率。

类似的描述是不是在别的什么地方出现过呢,没错,就是二八原则,或者说帕累托分布。说到底,Zipf分布和帕累托分布都是所谓的幂分布。

从最省力原则出发,来打量一下网络语言,譬如说,福特福克斯的网络昵称,我们会有什么发现呢?

去掉品牌本身(福克斯,Focus),我们可以看到譬如”小福”,”FKS”这样的昵称,也有相当大的曝光率。我们容易理解,从发贴作者而言,这两个词比原品牌名少些字符,更容易敲,但是它们好认么?作为非车迷的我,仅仅从字面上无论如何没法理解这两个词。但是关键就在于,如果放在一个汽车的语境中,它们其实具备相当准确的指向。作为佐证,在Google或者百度里搜索”FKS 车”,得到的结果绝大多数都是有关福特福克斯。

从这个小例子看,最省力原则在网络语言中依然有效,只是听者不再是一般意义上的受众(很多人理解网络昵称可能很费劲),而是特定社区里的成员。作为社区的烙印之一,成员受社区感 (Sense of Community) 驱使,会逐渐形成一套公共符号系统(Common symbol system),昵称便是这套符号系统的表现之一。

昵称其实属于公共符号系统中更广泛的一类形式——黑话(jargon),不论是你一句”天王盖地虎”,对方接”宝塔镇河妖”;还是”请各位福友帮忙”,下面响应”你的小福怎么了”,你就知道,哎呀,算是找到组织了。

Posted by Paul   @   24 八月 2007 2 comments

2 评论

Comments

使用新浪微博登陆

八 24, 2007
9:16 下午
#1 Violet :

保罗同学出马就是不同反响阿,我也提议将本文列为seeisee本月最有深度最有含金量文章!

八 24, 2007
9:32 下午
#2 Samuel Wu :

This should be the most interesting document I can find about the textmining…

btw, can you guys apply this rule to your textmining technology?

博客评论

下一篇
«
上一篇
»
© 2006 - 2017 seeisee - CIC: 解读网络口碑,探讨网络文化
Powered by Wordpress
PolkaDot designed by ZENVERSE
In conjunction with Chattrum , Black toaster , Black microwave , Kontantkort