对于网络口碑研究而言,识别消费者在文章中对某一个产品所表达或流露出的情感是非常重要的,这类问题就叫做情感分析(Sentiment Analysis)。
虽然CIC在这方面已经做了不少工作和积累,但是坦白的说情感分析这一领域充满了实用性的诱惑,但是同时也存在很多技术上的挑战,对于所有从事这一方向研究和开发的人而言,都有很长的路要走。
近年来比较有影响力的一本专著是Bo Pang 和Lilian Lee 的<Opinion mining and sentiment analysis>,该书综述了情感分析的应用、算法,以及常见困难,虽然面向英文,但是对于中文的处理也具有很好的参考价值。
09年11月CIC 的技术人员专程去香港参加了ACM CIKM2009(计算机协会信息与知识管理会议)的情感分析研讨部分,借这个机会也对国际上这个领域的发展做了一些了解。借这个机会也对国际上这个领域的发展做了一些了解。印象比较深刻的是来自Jodange 公司的Claire教授结合本公司具体的产品讲述了包括情感分析在内自然语言处理技术在产品各个层面的应用。
与会的另一个感触是,海外特别是英语国家在情感分析领域的发展条件要远远优于中文,除去英文不需要分词这个天然优势外,更主要还在于各类研究工具和资料的共享方面,以及产学界的互动沟通。
相比于国内而言,这些方面国外的优势包括:
从研究的趋势来看,虽然理论水平相比一两年前并没有很大的突破,基本还是不同方式的特征抽取和分类器的组合,但是应用层面能看出有这样的发展迹象:
最后,还是要强调情感分析是一个非常有挑战的技术,在某些问题上甚至相当长一段时间内都未必能产生突破,尤其是需要借助于一些常识才能理解的表达方式;譬如“Mac Air 可以装进一个信封”,整句没有一个形容词,但是我们能够想象这该是多轻薄的一台笔记本,并由此可能产生拥有它的欲望,因为我们理解什么是信封,知道信封装不了很厚重的东西,我们也希望自己的笔记本越轻便越好。
但是要让电脑也能领会到自己应该越苗条越好的话,我们还需要耐心得等上不少时间。

Brandtology在用计算机分析后,用人工再进行进一步的筛选。看来难度确实蛮大的
看了Paul的情感分析介绍,深感情感分析的难度和深度,作为研究者而言,这恐怕是个永久的难题,想知道CIC是通过哪些方法来解决情感分析方面问题的?
(1)用了哪些机器学习的方法?分类,聚类,概率统计,贝叶斯,HMM and so on?
(2)关键词过滤?
(3)中文有情感分析语料吗?还是你们自己标注的?
(4)手工操作比例占了多少?
(5)….
(鄙人是搞自然语言处理和机器学习的,了解一点情感分析,现在在麦考林集团做个性化推荐系统。关注CIC处理海量非结构化信息处理有一段时间了,很想切磋切磋。可否发一封Email致邮箱。
)
11:40 上午
首先是要识别大部分较明显的sentiment,这部分应该是要cover的重点