YOU 时代,匹配技术
在CIC提出IWOM一周年的日子里,在探讨了《You时代,口碑先行》这个话题后,同事与我继续探讨另一个话题,匹配技术。
首先让我们引用一个概念:
碎片,过去信息是聚合在一起的,大家只去几个网站去看信息。而现在,大家不仅仅去不同的网站看信息,还在不同的网站,甚至不同的信息载体(文字、图片、音频、视频)中制造着信息。这些信息就是碎片,当然,你也可以用一个更好听的名字——微内容(Meme)。
互联网每天制造着多少内容,这些内容之间的相关性又是怎样的,我们不得而知。因此我们去研究内容的关联性,并希望将之聚合起来,这就是今天我们一起探讨的话题——匹配技术。

匹配技术的简单介绍
首先让我们来简单说说搜索和展示。搜索有全网搜索、垂直搜索、内部搜索等等;展示有搜索框展示、内容展示等等,搜索,匹配,展示合在一起就是一个搜索引擎。对于此部分就简单的跳过,今天我们的主题是匹配这一部分。
有了信息管理,也就有了匹配。我们不去研究我们的祖先是如何管理信息的,我们也不会去研究文字是如何与实物匹配的,比如说起狗,大家立马就有一个形象引入脑海。今天,我们从搜索引擎开始讲起,最早的搜索的内容匹配主要是以关键词匹配为规则,也就是说用户输入关键词,搜索引擎提供相应的结果。除了关键词的匹配,其他如图片、视频、音频等等目前的多媒体搜索的基础也是关键词匹配,为什么这么说呢,能搜索图片、视频、音频是我们为这些信息加注了某种标识,比如名称、描述、TAG等等。所以,关键词匹配是所有搜索引擎的算法基本所在。这也解释了为什么中文搜索引擎如此看重词的应用,而专家们则说大部分搜索引擎其实就是字典的集合了。
那么,语义匹配(Text Match)又有什么不同呢,同事Paul的文本挖掘技术在CIC的应用已经有了描述。就我个人的非技术性理解,匹配就是找到精准匹配的信息之外,再多给你相近意义的信息。从文字的概念上来说,过去我们寻找信息,搜索引擎给我们的是相近度最高的结果,而语义匹配,则是给我们的相似度最高的结果。这里的相近度是指文字编码一样;这里的相似度则主要是指语义相近。相似度并不仅仅是指简单的同义词,而是在此基础上的庞大的语义的相似。
那么,让我们忘记词汇吧,用句子——有意义的句子去搜索。而引擎方就像一个人脑,能够读懂句子的含义,这种语义基础的匹配是未来信息匹配的关键。现在,无论是传统的搜索引擎公司,还是新兴的搜索公司,都将语义搜索作为研究的重点。今天,我们不会去讨论技术实现的细节,但是语义、图像、视频。
匹配技术目前的应用
让我们回到信息的世界,在这个碎片散乱的世界,你每天看了多少,有多少是你最想看的(精读),有多少是想了解的(泛读),有多少是你不想看的。
搜索是我们找不到想要的信息,或者不知道去哪里找信息的时候,我们会求助的工具。
主动订阅是人们运用自己的大脑自行匹配的结果,在一大堆订阅的文章中,快速的浏览找到自己想要看的信息。订阅量大的人对于信息的渴求是如此的大,以至于他们大多订阅了成百、成千、成万的种子。他们的大脑就是最高级的匹配过滤器,每天的去匹配信息。
推荐是大多数网站常用的粘性方式,主要分为关系推荐和内容推荐两种。关系型推荐的网站一般都是社交类网站,而内容型推荐的网站都是资讯类的。当然,有些网站是两者结合的。
碎片的重新组合,最典型的应用当属新闻聚合了。与推荐不同的是,聚合特指内容方面的打包推荐。它的前提是需要把有关联的碎片重新组合,然后一起展示。
信息的精准度与关联度将是匹配技术最重要的两个评测指标,无论是搜索、订阅、推荐还是聚合。能否真正的让用户认可,“这就是我需要的信息”,这是非常非常有挑战的工作。
匹配技术的未来
谈了匹配技术的重要性,以及目前典型的匹配技术的应用。那么这种技术会为我们的未来带来什么呢?
匹配将会加速信息库的检索与重组,也会加速信息的传播进程。看到想看的,同时还会看到同样的信息有多少。有的朋友说,互联网都是无价值的信息;而有的朋友并不这么认同。原因是什么,原因其实是自我需求方面的不同。说互联网都是无价值信息的朋友,大概自我信息过滤不是很好,而不这么认同的人大致会有一套取的信息的方法。
碎片以前是集中的,现在是分散的。以前只有少数一些地方成为信息源,而现在博客、博客甚至是Miniblog 都可能成为信息源,这种变化的确是会造成“信息无用”,也需要在YOU时代的我们,主动去适应这种变化。
当然,最最希望的是YOU时代的网站们,能够加速信息匹配的能力。为普通网民着想,为他们提供贴心的服务。
YOU时代,如果你是网民,那么你有信息自我匹配的能力么?
YOU时代,如果你是弄潮儿,那么你的网站能够信息匹配么?
你准备好了么?
此条日志的固定引用地址:
http://www.seeisee.com/index.php/2007/09/30/p362
评论:
现在除了博客,诸如新闻、社区、论坛也提供这种信息的输出
添加评论:


