微博有可能帮本拉登逃出生天么?

Filed in 技术分享 , 趋势观察 2 comments

巴基斯坦当地时间2011年5月1日临晨,两架搭载美军特种部队的直升机从阿富汗低空潜入巴基斯坦的Abbottabad,经过短暂交火,击毙了恐怖大亨本拉登。

这次行动虽然从去年9月就开始策划,但是一直处在高度保密的状态中,为了做到万无一失,甚至连巴基斯坦政府都被完全蒙在鼓里。

但是假设事发前本拉登碰巧上了Twitter(当然,实际情况是他的秘密藏身处没有互联网连接),又碰巧用他已经隐居了6年的Abbottabad做为关键词搜了一搜,就会看到一个名为ReallyVirtual的Twitter用户在5月1日12:58:“直升机正在Abbottabad上空飞,真稀罕”。

如果这条微博当真是发生在美军落地之前的话,凭借本拉登数十年如一日和各大国躲猫猫的警惕性和经验,几分钟的时间足够他躲过一劫。

这样的一个假想事件,实际上反映了类似Twitter这样的微博平台被忽视的一类价值,这便是情报分析。现在人们谈起微博的重要性,习惯上依然用媒体的标准来衡量,只有那些正在被或者有很可能被广为转发(譬如作者拥有百万粉丝)的微博才值得被重视。

而情报则不需要具备这类特征,即便是一位默默无闻的巴基斯坦IT工程师发的一条无人喝彩的微博,也可能拥有须臾间置人生死的力量;只要它是重大事件的蛛丝马迹就够了。

但是要想在浩如烟海的微博中找到有价值的那几条,势必要借助技术手段。

这里就假设为本拉登设计一套为了活命的微博情报系统,简单而言,系统需要有如下几个主要步骤:

1. 数据查询和采集

定期扫描所有包含指定关键字(譬如他当前居住地Abbottabad)的微博,或者跟踪指定用户(譬如所有已知住在Abbottabad的用户)的微博帐号。

扫描的间隔时间理论上当然越短越好,30秒差不多,如果10分钟的话,可能足够海豹突击队打完收功了。

2. 信息价值衡量和过滤

只有看得过来的情报才是好情报,假设每天含有Abbottabad的微博成千上万,那么就必须从中间过滤出少量有价值的,而这个过滤的标准就是微博带来的信息量。简单的实现,可以基于一个大的语料库(譬如历史上所有的twitter信息)来考察文中每个词的词频,以及单词间两两组合的共现词频。频率越小,提供的信息量就越大,显然 “Abbottabad-直升飞机”的共现词频会比“ Abbottabad-巴基斯坦”小得多,自然这样的微博也会更有价值。

3. 辅助甄别

同时,系统也会提炼出一些其他信息来帮助甄别信息的真假,譬如信息发布人的个人资料,他以往的微博,以及有没有其他独立源头的微博可以进行交叉验证。

除去拉登在世时可能有兴趣外,这一系统也完全可以运用在商业领域,譬如如果一个被监测的触摸屏生产厂的一线工人(怎么知道的?当然是通过分析他以往的微博记录)发消息说,“哎呀最近加班突然多起来了,累死我了”,那么就可以进而推断某某手机要出货了。

先前的一篇文章新时代的老中医 – 给互联网信息搭搭脉中提到过,Twitter 曾经宣称要做地球的脉搏(the Pulse of the Planet),极端情况下,把不准这条脉搏的后果,就是断气。因此未来的各类战争,不论军事还是商业,武装到牙齿已经不够了,还得武装到神经。

(注,本文仅仅从技术角度进行YY,不反映作者任何政治立场)

Posted by Paul   @   11 五月 2011 2 comments
Tags : , , , , ,

2 评论

Comments

使用新浪微博登陆

五 13, 2011
4:28 下午

分享下吧,这个话题我不敢做太多的评论。

五 18, 2011
1:42 下午
#2 Gloria小黑 :

说的好!顶LZ! 多一些这样有创想的文章吧~

博客评论

下一篇
«
上一篇
»
© 2006 - 2017 seeisee - CIC: 解读网络口碑,探讨网络文化
Powered by Wordpress
PolkaDot designed by ZENVERSE
In conjunction with Chattrum , Black toaster , Black microwave , Kontantkort