怎么结合情感词典与机器学习十大算法进行情感分析

第43卷Vol.43第6期No.6山东大学学报(;JOURNALOFSHANDONGUNIVERS;DOI:10.6040/j.issn.1672-;2013年12月Dec.(7-07文章编号;面向文本情感分析的中文情感词典构建方法;122;周咏梅,杨佳能,阳爱民;(1.广东外语外贸大学思科信息学院,广东广州51;摘要
第43卷Vol.43第6期No.6山东大学学报(工学版)
JOURNALOFSHANDONGUNIVERSITY(ENGINEERINGSCIENCE)
DOI:10.6040/j.issn..
2013年12月Dec.2013
)06-0027-07文章编号:1672-
面向文本情感分析的中文情感词典构建方法
周咏梅,杨佳能,阳爱民
(1.广东外语外贸大学思科信息学院,广东广州.广东外语外贸大学国际工商管理学院,广东广州510006)
摘要:提出了构建基于HowNet和SentiWordNet的中文情感词典方法。将词语自动分解为多个义元后计算其情感倾向强度,并且使用词典校对方法对词语情感倾向强度进行优化。将所构建词典应用到文本情感分析任务中,使用支持向量机构建文本情感分类器进行实验。实验结果表明,该词典优于一般极性情感词典,为情感分析研究提供了有效的词典资源。
关键词:情感词典;情感强度;支持向量机;情感分析;中文文本中图分类号:TP391.1
文献标志码:A
AmethodonbuildingChinesesentimentlexiconfortextsentimentanalysis
ZHOUYong-mei1,YANGJia-neng2,YANGAi-min1
(1.CiscoSchoolofInformatics,GuangdongUniversityofForeignStudies,Guangzhou510006,China;2.SchoolofManagement,GuangdongUniversityofForeignStudies,Guangzhou510006,China)
Abstract:AmethodonbuildingChinesesentimentlexiconbasedonHowNetandSentiWordNetwasproposed,inwhichsentimentintensityofthewordwasautomaticallycalculatedbydecomposingitintomultiplesemanticunitsandalexiconproofreadingtechniquewasusedtooptimizethevalueofsentimentintensityoftheword.Thebuildinglexiconwasappliedtothetaskofsentimentanalysis,inwhichthesupportvectormachinewasusedtobuildthesentimentclassifier.Theexperimentresultsshowedthatthebuiltsentimentlexiconwasmoreeffectivethanthegeneralpolarsentimentlexi-con,andprovidedaneffectivedictionaryresourcefortheresearchofsentimentanalysis.
Keywords:sentimentlexicon;sentimentintensity;supportvectormachine;sentimentanalysis;Chinesetext
随着Web2.0应用的普及,越来越多的用户倾
理,由此产生了文本情感分析(textsentimentanaly-sis)技术。文本情感分析又称意见挖掘,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理
词语情感倾向性的判别是文本情感分析研究的基础工作。基于情感词典的文本情感分析是一种非常有效的方法,并得到了广泛的应用。因此,情感词典的构建方法研究是非常重要的课题。目前针对文本情感分析较为典型的研究方法是结合情感词典对
向于在网上发表自己对各种产品或热点事件的观点。这些评论信息表达了用户的主观情感色彩,包含了正面情感和负面情感等。因此,互联网上产生了海量的包含用户主观情感色彩的评论信息,这些信息若采用人工的方式无法实现高效的收集和处
04-30收稿日期:2∶25网络出版时间:2013-
网络出版地址:http://www.cnki.net/kcms/detail/37.1391.T.25.001.html
基金项目:国家社科基金资助项目(12BYY045);教育部人文社会科学研究青年资助项目(10YJCZH247);广东省科技计划资助项目
mail:yongmeizhou@163.com作者简介:周咏梅(1971-),女,湖南永州人,教授,硕士,主要研究方向为文本情感分析.E-
文本进行特征抽取,然后结合机器学习实现对文本的情感倾向性进行分类。但是由于网络评论往往具口语色彩浓重和非规范性等语有观点表达的隐晦、
言特点,研究者们在机器学习的基础上引入语义规则分析对文本情感分类系统进行改进。这些改进使得系统分类性能得到了提高。但是没有从根本上解决中文文本在复杂语境中含义多样化的问题。徐琳宏等人构建的中文情感词汇本体库除了包括词语的极性外还包括词语情感倾向的强度值及少量的多义词。这些多义词包含两种以上的极性标注以及相应的情感倾向强度值。然而,情感词汇本体库的构建过程并没有对每个词的情感倾向进行多倾向性分析。这使得这类情感词典所包含的情感极性和相应的强
不具有普遍适用性。针对这个问度值具有片面性,
题,提出一种综合考虑词语在不同语义情况下的情
感倾向权值的计算方法,从而构建同时具有正、负面情感倾向强度值的中文情感词典,并将该词典应用于文本情感特征提取。在文本情感倾向分类实验中取得了较好的分类效果,验证了该词典的有效性。
中文情感词典构建主要的研究思路有基于语料
统计以及语义词典等方法。基于语料的情感词典构建方法通过统计词语间的共现信息以及利用词语相似度来计算词语的语义倾向。通常,基于语料的情感词典构建方法通过词语间的共现信息计算不同词
并利用词语相似度计算词语语义语之间的相似度,
倾向。基于语义知识库的情感词典构建方法通常采
用语义词典来计算词语相似度,常用的中文语义词
典主要包括HowNet和同义词辞林等。国内关于汉语词汇、短语的情感倾向研究已经取得了一些阶
段性成果。朱嫣岚等人提出了基于语义相似度和语义相关场的两种词汇语义倾向性计算方法,通过计算目标词汇与HowNet中己标注褒贬性词汇间的相
似度得到目标词汇的倾向性。李军等人采用合
。柳位并去重的方法构建了中文褒贬义词典
平等人采用种子词结合HowNet语义相似度计算的
方法构建了中文基础情感词词典
。徐琳宏等人
通过整理和标注构建了中文情感词汇本体库,从不
同角度描述一个中文词汇或者短语,包括词语词性种类、情感类别、情感强度及极性等信息。台湾大学整理构建了中文情感词典(nationaltaiwanuni-versitysentimentdictionary,NTUSD),包括正向评价词2812个,负向评价词8276个。张成功等人整理了包含基础情感词典及领域词典、网络词词典及
修饰词词典的综合词典。考虑情感词在不同语建立了基于HowNet和Senti-义环境的情感倾向,
WordNet的中文情感词典(SentimentlexiconbasedonHowNetandSentiWordNet,SLHS)。SLHS中包含各情感词的倾向和强度,为中英文文本情感分析提供了新的词典资源。
1相关研究工作
情感词是构成情感词典的重要组成部分。研究
者们提出了诸多方法来提取和标注主观性文本的情
感词,如HATZIVASSILOGLOUV采用机器学习的方法来计算形容词之间的关系强度实现对形容词的
情感倾向进行预测;WIEBEJM等人在少量已标注的种子词的基础上,根据其分布相似性对形容词
进行聚类,从而实现对未标注词进行分类;RILOFFE采用基于Bootstrapping的模式匹配算法
实现名词抽取;BARONIM等人在主观性形容词
的情感权值排序中考虑网络信息多样性的因素;以及MOILANENK等人对语素进行情感标注
中文SLHS构建方法
构建方法概述
。实用的情感词典还应当包括词语的极性(正面和负面)以及相应的情感强度值。为了计算词语
TURNEYP等人提出了潜在语级别的情感强度值,
LSA)技术[7]、逐点义分析(latentsemanticanalysis,
PMI)技术[8-9]互信息(pointwisemutualinformation,
以及在WordNet中引入同义词集结构关系的方等。这些技术和方法都提高和改善了情感词
典构建的效率和准确性。意大利信息科技研究所的法
SentiWordnet[13-14]使用了已有的语言资源WordNet中词语的注释作为词语的特征,对注释文本进行分类,采用定量分析的方法来确定每个同义词集中对应词的正面情感、负面情感以及客观性权值。
中文词语含义丰富,同一个词语在不同的语境
,中往往包含多个不同的意义。例如词语“好事”作。但是作为动为名词时通常指的是“有益的事情”
。这个喜欢生事端”词时通常“形容一个人闲不住,
词语在不同的语境中具有明显的情感倾向差异,所
以在情感词典的构建中有必要充分考虑这一因素。HowNet是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。在HowNet中,中文词语的多义性得到了充分的体现。WordNet是一个在线的英语词汇数据库。名词、动
词、形容词和副词各自被组织成一个同义词的网络,
每个同义词集合都代表一个基本的语义概念,并且这些集合之间也由各种关系连接。SentiWordNet是以WordNet中的同义词集合为基础,对这些同义词贬义和客观性3种不同类别的情感集合进行褒义、
标注并给出相应的情感强度值。
本研究将HowNet中中文词语在不同语义情况下所对应的英文翻译定义为义元。SLHS的主要构建步骤包括:首先利用HowNet获取中文词语的对应的各项英文义元;其次使用SentiWordNet数据库检索每个英文义元所处的各个同义词集合;接着计算这些同义词集合的平均情感强度值得到每个义元的情感倾向性强度值;最后计算各项义元的平均情感强度值,即得到中文词语的情感倾向强度值。2.2SLHS构建过程
词语集合的收集是情感词典构建的基本工作。
NTUSD、收集了HowNet情感词、褒贬义词词典和采用合并去重的方法取得杨鼎等构建的情感词典,
词语集,并将其作为SLHS的基础情感词语集。该词语集合共包含24130个词,其中正面情感词10269个,负面情感词13861个。SLHS具体构建过程如图1所示
2.2.1利用HowNet获取中文词语的对应的各项
在HowNet中,词语往往包含多个义元,用以表示在不同语境中的词语所反映的不同意义。定义一
W={M1,M2…,则,个中文词语义元集合为W,
MN},Mn(n=其中N表示词语所包含的义元数量,
2,…,N)表示词语的第n个义元。通过编程调用1,
HowNet的搜索API可得到词语的义元集合,例如词语“秀丽”的义元集合为{beautiful,comely,handsome,pretty}。如果HowNet中不存在所输入的词语,则采用有道词典提供的API获取该词语的相应的英文解释作为该词语的义元。但是在词典构建过程中仍然存在少数词语无法通过以上方式获取义元集合,此时本文采用人工干预的方式生成词语的相应义元集合。
设W-Pos为词语的正面情感强度值,W-Neg为词语的负面情感强度值,则
W-Pos=∑M-Posn,
∑MNegn,Nn=1-
(1)(2)
其中M-Posn为第S(M)个义元的正面情感强度值,M-Negn为第S(M)个义元的负面情感强度值。2.2.2
使用SentiWordNet数据库检索得出包含输入义元的各个同义词集合
同义词集合是SentiWordNet的基本组成单元,一个同义词集合由意义相近的多个词语构成,用以
SentiWordNet中每个同表示一种语意概念。同时,
义词集都有与之相对应的情感倾向强度值标注,如
Pos表示正面情感强度值,Neg表示负面表1所示,
情感强度值。一个英文词语可能同时存在于多个同
义词集合中,表示其含有多种不同语意概念。定义包含义元M的同义词集的集合为S(M),则S(M)={s1,s2,…,sk},其中K表示同义词集的数2,…,K)为第k个包含输入义元M的量,sk(k=1,
同义词集。编程使用SentiWordNet数据库对输入
图1SLHS构建过程
Fig.1BuildingproceduresofSLHS
义元进行检索即可得到相应的同义词集合正、负情感强度值。
表1SentiWordNet中的同义词集示例Table1ExamplesofsynsetsinSentiWordNet同义词集和注解
{pride#1,plume#2,congratulate#3}:beproudof;&Heprideshimselfonmakingitintolawschool&{pride#1,pridefulness#1}:afeelingofself-respectandpersonalworth
{pride#2}:satisfactionwithyour(oranother's)achievements;&hetakesprideinhisson'ssuccess&{pride#3}:thetraitofbeingspurredonbyadislikeoffallingbelowyourstandards{pride#4}:agroupoflions{pride#5,superbia#1}:unreasonableandinordinateself-esteem(personifiedasoneofthedeadlysins)
0.50.5Neg0.00.0
山东大学学报(工学版)第43卷
计算这些同义词集合的平均情感强度值得
到每个义元的情感倾向强度值经过上一步骤,已经可以取得同义词集的正、负(4)可计算出义元的情情感倾向强度值,由式(3)、感强度值。
∑sPosk,Kk=1-
(3)(4)
实验及结果分析
为了验证SLHS应用于文本情感分类的效果,结合情感词典对文本内容进行特征提取,采用支持向量机(supportvectormachines,SVM)方法对微博文本进行情感分类,具体流程如图2所示。在实验中分别使用SLHS和NTUSD对文本特征进行抽取,进行对比分析,最后将输入文本的情感倾向分类为正面情感和负面情感
M-Neg=∑s-Negk,
其中s-Posk为第k个同义词集的正面情感强度值,s-Negk为第k个同义词集的负面情感强度值。2.2.4
计算各项义元的平均情感强度值得到中文词语的情感倾向强度值
将式(3)和(4)分别代入式(1)和(2)得
W-Pos=∑∑,
W-Neg=∑∑
(5)(6)
图2实验方法流程图
Theflowchartoftheexperimentalmethod
其中Kn表示输入词语的第n个义元所包含的同义词集数量,将从SentiWordNet中获取的相应的同义词集的正、负情感倾向值代入式(5)和(6)即可计算出给定中文词语的正、负情感倾向强度值。在完成全部词语的计算后,将词语的情感倾向强度值进行即得到SLHS中各词语的情感强度值。规一化处理,
2.3SLHS结构分析
在一般的极性词典中,词语的情感倾向没有区
将词语当成具有单一情感成分的个体。分情感强度,
SLHS同时从表2中的数据可知,和极性词典不同,
给出了词语的正面情感倾向值和负面情感倾向值。SLHS中词语情感倾向权值的计算过程体现了词语情感分解的过程,将词语分解为表示为多个义元,以求更加准确地描述词语的复合情感成分。
Table2情感词绝佳精彩尊贵悲伤腐臭
{excellent}
{splendid,splendidly,wonderful,
wonderfully}
{honourable,respectable,respected}{heartsore,lamenting,sad,sorrowful,woeful}
{decaying,stinking,smelly}
表2SLHS中情感词示例
ExamplesofemotionalwordsinSLHS
1..80.90.
3.1.2数据准备
实验数据来源于NLP&CC2012的中文微博情感分析评测的样例数据集。该数据使用XML文件包含20个话题,共2173条数据,其中正面情存储,
负面情感文本数据1766条。感文本数据407条,
本文随机抽取三分之二的数据用于模型训练,剩下数据用于测试。测试数据共724条,其中正面文本数据130条,负面文本数据594条。3.1.3
文本特征提取
在提取文本特征之前,先对文本进行预处理。文本预处理工作包括微博文本分词、文本情感特征选择和特征权值计算等。
文本分词是文本处理的基础工作,采用ICTCLAS对输入文本进行细粒度分词及词性标注。在完成分词和词性标注之后对分词所得词语进行词性统计,包括名词、形容词、叹词、拟声词等出现的次数。在完成词性统计后,将分词结果和否定词表、转折词表进行匹配,从而确定文本出现否定词和转折词的数量。所用否定词和转折词如表3所示。
Table3词语类别否定词转折词
表3常用否定词和转折词词表
Wordlistofthecommonlyusednegativewordsandturningwords
不、弗、毋、勿、未、否、非、无、莫
却、但是、可是、然而、而、偏偏、只是、不过、至于、致、不料、岂知
情感词典是文本情感分析系统中非常重要的资
源。情感词典被广泛应用于文本分词、情感词提取和文本情感特征提取等任务中。本研究所构建的中文情感词典科学地解决了词语情感强度值的问题,较为准确地度量了中文词语的正、负情感词。
第6期周咏梅,等:面向文本情感分析的中文情感词典构建方法
结合SLHS中词语同时存在正面和负面情感强度值的情况,在选取文本情感特征时主要考虑了词词性计数、符号计语的正面和负面情感强度特征、数、否定词计数和转折词计数等,见表4。
表4文本情感特征
Table4Sentimentfeaturesoftext
SLHS情感词:24130
情感词正面强度
个,其中正面情感词
负面强度值、值、
10269个,负面情感词
情感词数量
13861个感是否存在问号、
存在用1表示否则为0
词语进行比较,实验结果如表5所示。从实验数据SLHS可以看出相对于人工干预标注的极性词典,的情感强度值准确性还有一定的差距。
表5SLHS比较分析实验结果数据
Table5SLHScomparativeanalysisresultdata输入词典NTUSD褒贬义词典
褒义词数量
贬义词数量
3.2.2SLHS情感倾向性强度值校正
接下来,本研究将对SLHS的情感倾向性强度值进行校正调整,以提高SLHS词语情感强度的准确度。词典校正实验步骤包括:首先按照上文所述方法将SLHS中的词语进行极性标注;
然后遍历NTUSD和褒贬义词典,将其情感词则将SLHS语极性与SLHS进行比较;若极性不同,中该词语的正、负情感强度值互换。
SLHS的情感倾向强度值在完成词典校正后,
的准确度将得到很大程度的提高。通过词典校正,SLHS能够学习输入词典的词语情感知识,在调整权值准确性的同时保留了词语情感倾向的内部差异性。3.2.3
SVM类型及核函数选择
在完成数据集的情感特征提取后,选择不同类型的SVM以及核函数进行实验。使用五折交叉验证法,将数据集平均分为5份,轮流使用其中4份作1份作为测试集进行实验。实验结果如为训练集,
SVC表6所示,从分类准确率数据可知,在选择C-类型的SVM并且使用RBF核函数时获得了较好的分类效果。
表6不同类型SVM分类准确率
ClassificationaccuracyofdifferenttypesofSVM
%one-classRBF51.17
sigmoid48.27
sigmoid70.55
名词数量、动词数量、形容词数量、
使用中科院计算所汉语
连词数量、助词数
词性标记集作为分类标
叹词数量、语量、
气词数量、拟声词数量
根据否定词表进行统计根据转折词表进行统计
否定词统计否定词数量转折词统计转折词数量
在选定文本情感特征后,将各个特征转化为数量表示即可获得文本的特征向量。需要指出的是,由于NTUSD属于极性情感词典,没有具体的情感强度值。所以本文在使用NTUSD进行情感词强度提取时,将该词典的正面情感词的正面强度值设置负面强度值设置为0,负面情感词反之。为1,3.1.4
采用SVM构建文本情感分类器。SVM是1种监督式学习的方法,属于一般化线性分类器。它能因此够同时最小化经验误差与最大化几何边缘区,SVM也被称为最大边缘区分类器。本文使用的SVM工具是台湾大学林智仁等人开发设计的SVM模式识别与回归的软件包3.23.2.1
实验结果分析
SLHS与其他情感词典比较实验
由于SLHS使用无监督方法自动构建,其中的部分情感词强度值与真实情感可能存在误差。因此有必要对SLHS进行修正,然后验证其有效性。使用NTUSD和清华大学褒贬义词典
SLHS和NTUSD对比实验
分别使用SLHS和NTUSD对数据集进行特征
对SLHS进行
向量提取时,生成两组不同的实验数据。抽取数据集中的三分之二作为训练数据,剩下三分之一作为SVC并且使测试数据。实验时设置SVM类型为C-用RBF核函数。
由表7所示数据可知,使用SLHS进行文本情感特征提取时取得了较优的实验结果,验证了该情感词典的有效性。
校正。由于引入比较的两个情感词典都属于极性词所以在实验时要对SLHS中的词语添加极性标典,
记。将SLHS中词语的正负情感强度值进行比较,当正面情感强度值大于负面情感强度值时将改词语标记为褒义词,反之则为贬义词。然后分别遍历NTUSD和褒贬义词典,将其词语逐个与SLHS中的
三亿文库包含各类专业文献、外语学习资料、生活休闲娱乐、各类资格考试、高等教育、专业论文、中学教育、幼儿教育、小学教育、行业资料、应用写作文书、39面向文本情感分析的中文情感词典构建方法_周咏梅等内容。 
 我们找到一种方法,将有积极和消极意义词的候选 列表扩展为在词汇网络中建立的基于情感分析的同义词和反义词的全面的情感 词典。 我们用情感的交替次数来决定候选词...  较晚,大多数情感分析研究都是人为抽取主观性文本。 ...(2)构造情感词的方法 还有一些工作尝试建立情感词典...但 是该方法建立的情感词典往往是面向特定领域的, ...  Riloff 和 Shepherd 建立一个基于语料数据 的语义...云制造―面向服务的网络化制造 (上接第 49 页) ...文本情感分析中的基于情感词典的情感分析方法和基于 ...  【中文摘要】文本情感分类是指通过挖掘和分析文本中...,并设计和实现了向量空间模型表示文本的预处理方法。(2) 设计并实现了基于情感词典的情感句识别算法和...  识别人类的情感,也就是需要建立完善的情感识别模型,...发布的词典,包括中文情感词典和英文情感词典 2.台湾...中文文本情感倾向性分析 7页 免费 文本情感分析综述...情感分类是情感分析技术的核心问题,其目标是判断评论中的情感取向,按区分情感的粒度可分为两种分类问题:
1)正/负(positive/negative)二分类或者正面/负面/中立(positive/negative/neutral)三分类。
2)多元分类,如对新闻评论进行“乐观”、“悲伤”、“愤怒”、“惊讶”四元情感分类,对商品评论进行1星~5星五元情感分类等。
主流的情感分类方法按技术路线分为5类:
1)基于词典的方法
2)基于机器学习的方法
3)词典与机器学习混合的方法
4)基于弱标注信息的方法
5)基于深度学习的方法
基于词典(Lexicon-based)的情感分类方法
基于词典方法的核心模式是“词典+规则”,即以情感词典作为判断情感极性的主要依据,同时兼顾评论数据中的句法结构,设计相应的判断规则(如but从句与主句情感极性相反)
基于词典的情感分类方法本质上依赖于情感词典和判断规则的质量,而两者都需要人工设计。因此这类方法的优劣很大程度上取决于人工设计和先验知识,推广能力较差。
基于机器学习的情感分类方法
基于机器学习技术的情感分类研究工作:
1)特征工程是此类研究工作的核心。情感分类任务中常用到的特征有n-gram特征(unigrams,bigrams,trigrams)、Part-of-Speech(POS)特征、句法特征、TF-IDF特征等,但是该方法依赖人工设计,受人为因素影响,推广能力差,在某一领域表现优秀的特征不一定在其他领域也表现优秀
2)基于机器学习的情感分类方法多使用经典分类模型如支持向量机、朴素贝叶斯、最大熵模型等,其中多数分类模型的性能依赖于标注数据集的质量,而获取高质量的标注数据需要耗费大量的人工成本。
词典与机器学习混合的情感分类方法
这种混合的思路有两种:
1)将“词典+规则”视为简单的分类器,然后融合多种不同分类器进行情感分类
2)将词典信息作为一种特征与现有特征(句法特征、POS特征等)进行结合,然后选择最优的特征组合进行情感分类。
基于弱标注信息的情感分类方法
从用户产生的数据中挖掘有助于训练情感分类器的信息,如评论的评分、微博中的表情符号等。由于互联网用户的“标注”行为没有统一标准,具有较大的随意性,所以将这种标注信息称为弱标注信息。
基于深度学习的情感分类方法
针对情感分类问题的机器学习方法有两个步骤:
1)从海量评论语料中学习出语义词向量
2)通过不同的语义合成方法用词向量得到所对应句子或文档的特征表达。
阅读(...) 评论()基于情感字典与机器学习相结合的文本情感分类_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
基于情感字典与机器学习相结合的文本情感分类
阅读已结束,下载文档到电脑
想免费下载本文?
定制HR最喜欢的简历
下载文档到电脑,方便使用
还剩44页未读,继续阅读
定制HR最喜欢的简历
你可能喜欢龙源期刊网http://www.qikan.co;结合情感词典与规则的微博情感极性分类方法;作者:郑诚杨希张吉赓;来源:《电脑知识与技术》2014年第13期;摘要:随着微博在网民中日益火热,社会热点问题容易;中图分类号:TP18文献标识码:A文章编号:10;微博是一个基于用户关系信息分享、传播以及获取的平;微博用户多、消息数量大的特性,使得越来越多的专家;目
龙源期刊网 .cn 结合情感词典与规则的微博情感极性分类方法 作者:郑诚 杨希 张吉赓 来源:《电脑知识与技术》2014年第13期
摘要:随着微博在网民中日益火热,社会热点问题容易快速地演变成微博热门话题。由于微博用户多、数据量大、情感复杂的特性,通过情感分析来准确地获取微博潜藏的社会价值、商业价值变得十分迫切。该文通过构建情感词典,查找语义规则,并将情感词典与规则结合,建立微博情感分析模型,实验结果表明本文方法在负向情感判别方面效果优于SVM,并且在微博语料较短时,整体分类效果也优于SVM。
关键词:微博;情感分析;情感词典;规则
中图分类号:TP18 文献标识码:A 文章编号:(1-03
微博是一个基于用户关系信息分享、传播以及获取的平台。用户可以通过电脑、手机等各种客户端组建个人社区,以140字以内的文字更新信息,并实现即时分享。随着微博在网民中的日益火热,微博效应正在逐渐形成,它已经成为中国网民上网的主要活动之一。
微博用户多、消息数量大的特性,使得越来越多的专家学者开始热衷于研究它。微博世界里社会热点遍布,其间充斥着各种情感,因而针对微博的情感分析也上升为了一个备受关注的研究热点。通过对微博内容进行情感分析,我们可以准确地挖掘并发现微博中潜藏的商业价值[1-2]以及社会价值[3-4]。
目前,进行情感分析主要有两种方法――情感词典的方法和机器学习的方法[5-8]。运用情感词典的方法,是根据语料中包含的正向、负向、中性情感词的数目或其权值等元素来判别情感分类;运用机器学习的方法,是先对语料进行特征选取,对训练集、测试集进行标注,然后利用支持向量机SVM等分类器来判别情感分类。
但是,这两种方法各有弊端。情感词典的方法,仅通过情感词的数目或其权值来判别情感,这就忽略了微博文本的语义规则[9],考虑不全面使得分类效果较差。机器学习的方法,因其本身需要先验知识来训练出分类器,再进行情感判别,这就导致了更换微博预料后,分类效果下降较明显,方法的普适性不强。
鉴于以上存在的缺点,该文将运用情感词典与规则结合的方法,通过构建较为完备的情感词典,分析获得能涵盖大部分微博文本的语义规则,建立微博文本情感分析模型,对微博语料判别情感分类。 三亿文库包含各类专业文献、幼儿教育、小学教育、外语学习资料、文学作品欣赏、各类资格考试、高等教育、应用写作文书、行业资料、结合情感词典与规则的微博情感极性分类方法76等内容。 
 主题相关的情感分析:基于规则的方法;基于特征(属性)的方法。 主客观分类特征、极性分类特征:链接、表情、情感词典、情感短语、上下文 微博消息句子构成特征:首句、尾...  我们是不是可以在建立情感字典的时候建立一个可以自动扩展和识别的方法, 自动更新 微博上的一些热门词汇所表达的情感极性, 但是到底新出现的词汇的正负极性到底是...  ( 1) 在观点句及其极性的识别上,由于规则方法本身的限制,使得我们建立的情感词典和 规则库很难覆盖全部语言现象和微博全部的语料, 这个其实是如何建立和跟新语料...  在微博情感倾向性分析中,一种典型分析方法是先对微博进行主客观分类,再对 判定...首先使 用改进的逻辑回归模型构建主客观分类模型,并结合情感词典构建褒贬分类模型...  一种分层多算法集成的微博情感分类方法 【摘要】 目前主观信息情感分类常用的方法...基于集成学习的中文微博... 31人阅读 3页 ¥3.00
结合情感词典与规则的微...  情感词典的构成 3.2 性能评估 我们通过两种不同的方式评估了我们的情感词库的...《主观性文本的情感极性分析研究》作者:杜德斌(2009) [22]《文本情感分析综述》...  关键词:微博,情绪分析,情绪词典 一、研究背景 微博...同时,对微博进行文本分类研究可以帮助解决用户观点分析...对带有情感色彩的文本进行自动分析并预测其情感极性。...  出隐含在其中 的情感信息,并发现用户情感的演变规律...其中将情感极性判别的方法分为基于情感词汇语义 特性...词典的语义词作为特征项,显著提高了分类器的分类效果...

我要回帖

更多关于 机器学习十大算法 的文章

 

随机推荐