社会网络分析方法和IWOM研究的结合初探

Filed in 技术分享 5 comments

paul09072101美剧“数字追凶”(Numb3rs) 是一个描写将数学方法用于侦破的系列电视剧,其中有几集都用到了同一种数学方法,即将组织(譬如黑社会,反战组织),人物,或者事件间的联系描绘成图形,探索其中的特征,最终发现重大线索。这类方法便是Social Network Analysis, 即“社会网络分析”,以下简称SNA.

这样的情节设置并非毫无根据,在真实世界里,SNA确实被应用于安全领域,譬如据今日美国2006年的报道,911以后,美国国家安全局从AT&T, Verizon, BellSouth等三家美国主要电信公司搜集电话记录,从中分析和查找潜在的恐怖分子网络。著名SNA应用和管理咨询专家Valdis Krebs根据大量公开数据,也绘制出了涉及911的恐怖分子关联网络,见右上图。

(右上图:此图发表在作者公司网站orgnet.com上,原作者授权CIC将其包含在本文内)

当然SNA的应用远不局限在研究犯罪集团,实质上它是一门研究组织中不同实体间联系,以及信息在其间传播模式的方法。

SNA也不是一门最新的学科,它的成型和发展在互联网和电脑时代来临之前就开始了。早在上世纪30年代,美国的一批社会学家,如J.L.Moreno, W.Lloyd Warner等便开始尝试用节点和连线来分别反映个人及人际关系,并且从中发现了人际关系最为密切的角色以及子群体的存在。之后随着图论等数学工具的引入,这一方法得到进一步巩固和发展,社会学家和数学家们联手建立了一套能够阐释社会学意义的基本计算指标体系,用于评估一个社区组织的结构形态,或者个体对组织的重要性或者和其他个体的连接性,这些指标包括度数(Degree), 密度(Density), 中心度(Centrality),邻近度(Closeness), 中心势(Centralization)等等。

随着互联网的兴起,社会网络分析和各类网络应用彼此也有着,或者说,潜在有着巨大的互相推动作用。一方面,在线的人际数据非常便于获取,大量的Blog, 或者新型的SNS上能够直接展现人际的交往关系,而早期的研究者则不得不依赖于访谈和问卷。如果今天我们需要研究Blog圈时,只要顺着超链往下找,很短时间内就能积累数百万的样本。相比之下,1968年时,加拿大社会学家Barry Wellman在多伦多近郊研究当地社群,第一轮就访谈了845个人,让他们提供和自己关系最为紧密的人员,再继续约见那些人员,以此类推,可想工作量之巨大;而另一方面,愈加廉价的计算和存储资源,更先进的算法和模型,也让SNA有机会在更多的领域大展身手。譬如Google的Pagerank算法,也可以看作是其应用之一,如果把一个个网页看作节点,根据超链相联系,那么Pagerank实质就是计算每个网页的特征向量中心度(Eigenvector Centrality)。

鉴于BBS以及相关的在线社区是CIC的主要研究对象,很自然的我们认为SNA和IWOM的结合是有相当应用潜力的。虽然BBS 同Blog或者SNS 不同,用户之间没有显式的联系,但是直觉上我们认为论坛上的用户也像现实当中的人群一样,因为长期的交流或者是偏好,能够形成一定的稳定交流形态。由于BBS上交流形式是发贴和回帖,很自然我们可以将彼此间回帖的关系来作为用户之间的联系,建立网络模型。

譬如图2就是从某个汽车论坛中构造的网络,并且根据度数指标将前20名的用户标记为红色。

iwom keyword cloud
(图2)

能够看到,这个网络的形态能够展现出该论坛一些有趣的信息,譬如具备相当数量的核心用户,他们彼此之间交流密切,但同时也有一些用户虽然和主流打交道不多,却有着相当数量的拥趸。

更有意思的是,我们针对相同的论坛,生成了不同月份的数据及相应的网络图形,发现对应的网络形态,以及相同指标排名下的关键用户,是具有相当的延续性的。这我们更有信心社会网络分析以及相应的展示方法,是有助于我们进一步在IWOM领域探索和研究在线社群的性质,以及信息传播的模式的。

除了在线社区,我们也尝试了通过文本挖掘分析的公司和品牌作为研究对象,分析它们在的关联关系,也取得了不错的效果。图3便是针对一组汽车品牌的分析结果,能够快速展现国内汽车市场的合纵连横全景。在图中,每一个节点是一个汽车品牌或者公司,如果两个不同的品牌在同一篇文章中被提及,那么两个节点之间就可以存在一条连接。

keyword cloud

(图3)

当然,为了去除噪音(譬如一篇文章可能文字上包含多个品牌,但是内容上它们并没有实际的联系)的干扰,我们可以将不同品牌的“共现”次数作为一个阈值进行过滤,确定节点之间是否存在连接。图4便是一个高阈值的展现。可以想见,这个阈值越高,最后的结果越准确和较能符合基于常识的预期,但是图3因为较低的阈值却有可能帮助发现一些有趣的意外。

keyword cloud update

(图4)

有兴趣的朋友可以到我们在线的IWOM Master产品演示去体验一下汽车和婴儿奶粉两个行业的网络分析展示。在我们的正式产品IWOM Master里,用户不仅能查看不同产品间是否存在联系,还可以进一步通过点击连线来显示印证这些联系的文章,来深入探索这些联系的实质,我们在研究的过程中,发现这些联系可以包括竞争,合作,OEM,仿制,共用部件等。

最后,SNA方法结合IWOM研究的应用只是刚刚开始,有待进一步发展的地方还很多,譬如SNA的大量指标和计算方法虽然已经可以用来阐释社会现象,但是在IWOM领域具备什么样的阐释力还需要探索;还有对于研究各种领域内不同对象之间的关系,也需要更加严格和形式化的定义;同时背后的文本挖掘和自然语言处理技术,需要相应进一步发展以期能够更加准确得定位文本中不同实体间的联系。我的同事Randal在公司的内部论文选题里,也将SNA结合IWOM以及网络社区的发展作为课题,期待将来有机会和大家继续分享我们的研究和发现。

Posted by Paul   @   22 七月 2009 5 comments
Tags : , , , , , , ,

5 评论

Comments

使用新浪微博登陆

七 22, 2009
12:25 下午
#1 Samuel :

很强大的一个模型!
对于发现事物之间的关系很有帮助

七 27, 2009
10:53 下午
#2 D.L :

很强大~~

二 27, 2010
3:50 下午
#3 llcheng :

能把看似杂乱无章,零零碎碎信息中挖掘出有价值的结论,很好!
您说的“在线的人际数据非常便于获取”,是人工统计的吗?还是有什么其它的更高效的方法?

因为我对计算机和网络就是用的水平,菜鸟级,所以不懂,恳请 给你明示,谢谢!

三 1, 2010
10:45 上午
#4 Paul :

Hi llcheng

“在线人际数据”的易获取性,是指用计算机来抓取,譬如像Twitter,Douban这样的在线应用都提供API可以方便的让程序分析每个用户之间的联系。

文中的BBS人际关系查找则是通过分析主贴和回帖的作者来获得的。

三 5, 2010
3:42 下午
#5 Violet :

to IIcheng,
在线的人际数据方面,在简单的在线人数是有很多网站统计工具可以做到的。你可以搜索一下。
在我们这篇博客里分享到的数据,是对数据进行在线的抓取,并进行关联分析得出的。如此庞大的数据量是无法进行人工统计的,因为当中还牵涉到多个维度的计算统计。

博客评论

下一篇
«
上一篇
»
© 2006 - 2017 seeisee - CIC: 解读网络口碑,探讨网络文化
Powered by Wordpress
PolkaDot designed by ZENVERSE
In conjunction with Chattrum , Black toaster , Black microwave , Kontantkort