高级检索
文献类型选择

说明:高级检索多个条件检索时是按照顺序运算的:如 A或B与C 即:(A或B)与C

所属机构:
所有年份 指定年份  从

网络评论中的情感分析和观点挖掘算法的研究

Research of sentiment analyst and opinion mining Algorithm for reviews of web
    展开

收录

学位论文库

摘要

伴随着web2.0技术应用的日渐成熟,越来越多的人开始在互联网上自由的发表自己的观点看法。这使得互联网成为可以挖掘关于各种主题的用户观点的极其有价值的资源库。在这样的背景下产生了情感分析与观点挖掘技术。然而以往的文本处理技术并不能直接适用于情感分析和观点挖掘的问题。所以需要研究针对网络评论文本特点的相关技术。经过统计分析发现,与传统文本分类所研究的主题特征的高频性恰好相反,网络评论文本中情感特征表现为低频性和稀疏性。针对这个特点,本文重点研究了网络评论中情感分析和观点挖掘算法。论文工作具有较重要的理论意义和实用价值。  本文主要做了如下几个方面的研究工作:  1)在对两种语料库进行统计分析和对传统的文本主题分类的缺点进行分析的基础上,提出了基于词性的情感分类特征选择算法。在统计中发现形容词、副词、动词、名词具有情感倾向,可以作为情感分类的特征项。如果在特征提取时只提取具有情感倾向词类的词语作为特征项,这样会使得特征空间大大降低,将一些对情感分类不具有分类特征的词就可以排除在外。之后,使用改进的信息增益特征选择方法和 统计量特征选择方法进行情感特征选择。通过实验证明,基于词性的情感分类特征选择比传统的基于词频的特征选择算法在分类性能上有明显提高。  2)在基于N-gram模型的分类中,由于N-gram模型会产生大量冗余信息,会对分类产生噪音,影响分类效果。所以针对这个缺点,提出了基于N-pos的情感分类特征选择算法。在统计分析了N-pos项中词性组合模式发现,具有情感倾向的词性组合模式是有限的,这样就可以利用这个统计规律对所提取的N-pos项进行词性组合筛选,在降低了特征空间维数的同时也提高了分类精度。通过对比实验也验证了基于N-pos的情感分类特征选择算法比基于N-gram模型的情感分类特征提取算法在分类性能上有较大提升。  3)对观点集成中的观点句聚类问题进行了研究,提出了基于PLSA聚类的观点句聚类算法。针对网络评论中观点句的特点,先使用SVD降维,消除同义词现象。之后使用PLSA聚类算法将观点句聚合为多类,从而实现观点句的聚类。通过实验表明,该算法具有明显的聚类效果。    4)开发了用于支持本文实验的情感分析与观点挖掘原型系统, 实现了文本预处理、情感分类、观点聚类三个基本模块,提供了友好的用户界面。

关键词

情感分析    分类    观点挖掘    聚类   

作者机构

电子与信息工程学院
更多内容

相关文章