• Complex
  • Title
  • Author
  • Keyword
  • Abstract
  • Scholars
Search

Author:

胡志栋 (胡志栋.)

Indexed by:

学位论文库

Abstract:

垃圾博客评论的泛滥已经严重影响了博客的使用和发展,同时也增加了博客管理的难度。有效的博客垃圾评论识别方法,对于博客使用、管理以及博客评论的倾向分析等都具有重要的意义,同时这种方法亦可以在论坛、贴吧和新闻等网页的垃圾评论识别时使用,以减轻网站管理压力,净化网络环境。文本通过对垃圾博客评论的分析,将垃圾评论分为显式垃圾和隐式垃圾,并针对这两种形式的垃圾评论采用了不同的识别方法分两阶段完成这两类垃圾评论的识别。首先在对大量博客评论的统计分析基础上,对现有研究中常用的评论分类特征项进行改进和扩展,并提出新的评论分类特征。然后对使用SMOTE算法平衡处理后的博客评论特征数据采用C4.5决策树分类算法进行分类学习,得到显式垃圾评论的分类模型,利用该模型识别出显式垃圾评论。在识别完博客评论中的显式垃圾评论后,为了更好地度量评论和博文的相关性,本文对向量空间模型进行了扩展,并结合LDA概率主题模型,提出了非对称文本主题相关度计算方法,用该方法计算出博客评论相对于博文的主题相关度,结合扩展向量空间模型的博客评论和博文余弦相似度,采用基于规则的分类算法来对平衡处理的评论相关性数据进行分类学习,得到隐式垃圾评论的分类模型,最终采用该模型识别出隐式垃圾评论。实验结果表明,本文提出和改进的特征能够较明显地提高分类效果并适应博客评论的数量增长,而基于特征的显式垃圾博客评论识别方法在进行显式垃圾评论识别时取得了较好的效果。本文提出的非对称文本主题相关度度量方法可以较好地体现博客评论和博文的相关性程度,同时基于相关性的隐式垃圾博客评论识别可以以较高的准确率完成隐式垃圾评论的识别任务。

Keyword:

博客垃圾评论LDA主题相关度余弦相似度

Author Community:

  • [ 1 ] 西安交通大学电子与信息工程学院

Reprint Author's Address:

Email:

Show more details

Related Keywords:

Related Article:

Basic Info :

Degree: 工学硕士

Mentor: 曾明

Student No.:

Year: 2012

Language: Chinese

Cited Count:

WoS CC Cited Count: 0

SCOPUS Cited Count:

ESI Highly Cited Papers on the List: 0 Unfold All

WanFang Cited Count:

Chinese Cited Count:

30 Days PV: 1

FAQ| About| Online/Total:144/179597306
Address:XI'AN JIAOTONG UNIVERSITY LIBRARY(No.28, Xianning West Road, Xi'an, Shaanxi Post Code:710049) Contact Us:029-82667865
Copyright:XI'AN JIAOTONG UNIVERSITY LIBRARY Technical Support:Beijing Aegean Software Co., Ltd.