全部 标题 作者
关键词 摘要

OALib Journal期刊
ISSN: 2333-9721
费用:99美元

查看量下载量

相关文章

更多...

基于词类和搭配的微博舆情文本聚类方法研究

Keywords: 微博舆情分析, 词义类簇, 搭配, 相似度, 文本聚类
micro-blog public opinion analysis
, word sense cluster, collocation, similarity, text clustering

Full-Text   Cite this paper   Add to My Lib

Abstract:

微博是近年出现的新型互联网信息交流平台,它具有主题分散、体量短小、文体自由等特性,它能对社会产生巨大的影响,所以信息监管部门和商业企业对基于微博信息的舆情分析都有迫切需求. 提出了基于搭配的文本聚类新方法,该方法先进行微博文本预处理,然后利用词类模型进行自动抽取有效搭配,最后基于有效搭配的模型进行文本聚类. 实验证明利用词类文本聚类方法比传统文本聚类方法性能提高6.3%,而本文方法比利用词类文本聚类方法性能提升了16.8%,结果显示了本方法的有效性.
Micro-blog is the new internet information exchange platform emerged recently,which has the features of theme dispersion,short volume,stylistic freedom,and it can have a huge impact on society. So the information supervision department and commercial enterprise have urgent demand for public opinion analysis based on micro-blog information. This paper presents a novel collocation-based method for text clustering. This method conducts micro-blog text preprocessing firstly,and then uses word sense clustering model to extract effective collocation automatically,and effective collocation-based text clustering finally. Experiments proved that the efficiency of the text clustering method using word sense cluster is higher than traditional text clustering method by 6.3%,and the method of this paper has higher rate than the text clustering method using word sense cluster by 16.8%. The result shows the validity of our method

References

[1]  张洋,何楚杰,段俊文.微博舆情热点分析系统设计研究[j].信息网络安全,2012(9):60-63.
[2]  pessiotj,kimy,aminim,etal.improvingdocumentclusteringinalearnedconcetspace[j].informationprocessingandmanagement,2010,46:180-192.
[3]  dhillons.co-clusteringdocumentandwordsusingbipartitespectralgraphpartitioning[c]//utcstechnicalreport.austin,2001:269-274.
[4]  朱鑫,词语搭配自动抽取方法对比研究[d].大连:大连海事大学计算机科学与技术学院,2010.
[5]  孙茂松,黄昌宁,方捷.汉语搭配定量分析初探[j].中国语文,1997(1):29-38.
[6]  邓耀臣,王同顺.词语搭配抽取的统计方法及计算机实现[j].外语电化教学,2005,105:25-26.
[7]  steinbachm,karypisg,kumarv.acomparisonofdocumentclusteringtechniques[c]//kddworkshopontextmining.boston,2000:368-503.
[8]  楼佳.中文文本聚类的评价与改进研究[d].杭州:杭州电子科技大学计算机学院,2009.
[9]  陈雅菊,现代汉语词语搭配的自动抽取方法[d].上海:华东师范大学软件学院,2005.
[10]  thangavelk,pethalakshmia.dimensionalityreductionbasedonroughsettheory:areview[j].appliedsoftcomputing,2009,9(1):1-12.
[11]  林俊伟,叶东毅.基于领域辨识矩阵的属性约简增量式算法[j].计算机应用,2009,29(11):119-121
[12]  李勇,张克亮,李伟刚.基于微博的网络舆情分析系统设计[j].计算技术与自动化,2013,32(2):2-5.
[13]  唐国瑜,夏云庆,张民.基于词义类簇的文本聚类[j].中文信息学报,2013,27(3):114-118.
[14]  董婧灵.基于lda模型的文本聚类研究[d].武汉:华中师范大学计算机科学系,2012.
[15]  石晶,李万龙.基于lda模型的主题词抽取方法[j].计算机工程,2010,39(19):81-83.
[16]  陈慧,石冰.基于贝叶斯模型的微博虚假话题数据分析研究[d].山东:山东大学计算机科学与技术学院,2013.
[17]  郎需超.基于r值的汉语搭配抽取[d].北京:北京邮电大学计算机科学与技术学院,2012.
[18]  cowieap,mackinr,mccaigir.oxforddictionaryofcurrentidiomaticenglish[m].london:oxforduniversitypress,1975.
[19]  brodys,mlapata.bayesianwordsenseinduction[c]//procofeacl.bergen,norway:europeanchapteroftheassociationforcomputationallinguistics,2009:101-113.
[20]  王金铨,梁茂成,俞洪亮.基于n-gram和向量空间模型的语句相似度研究[j].现代外语,2007,30(4):406-412.
[21]  曾星宇,李淑琴,陈斌.基于微博文本的舆情分析和研究[j].信息技术与信息化,2014(1):86-87.
[22]  林达真,面向博客的舆情分析若干关键技术研究[d].厦门:厦门大学计算机科学系,2012.
[23]  曲维光,陈小荷,吉根林.基于框架的词语搭配自动抽取方法[j].计算机工程,2004,30(23):22-24.
[24]  tangg,xiay,zhangm,etal.2011clgvsm:adaptinggeneralizedvectorspacemodeltocross-lingualdocumentclustering[c]//procofijcnlp,hainanisland:springer,2010:578-588.
[25]  刘远超,王晓龙,徐志明.文档聚类综述[j].中文信息学报,2005,20(3):57-61.
[26]  周昭涛.文本聚类分析效果评价及文本表示研究[d].北京:中国科学院计算技术研究所,2005.
[27]  李勇,张克亮,李伟刚.基于微博的网络舆情分析系统设计[j].计算机技术与自动化,2013,32(2):123-127.
[28]  时睿,面向短文本的网络舆情分析[d].西安:西安电子科技大学电子工程学院,2012.
[29]  huf,wanggy,huangh,etal.incrementalattributereductionbasedonelementarysets[c]//proceedingsofthe10thinternationalconferenceonroughsets,fuzzysets,datamining,andgranularcomputing.regina,2005:183-193
[30]  梁吉业,魏巍,钱宇华.一种基于条件熵的增量核求解方法[j].系统工程理论与实践,2008,28(4):81-89
[31]  guoyinw,yiyuy,hongy.asurveyonroughsettheoryandapplications[j].chinesejournalofcomputers,2009,32(7):1229-1246.
[32]  yuh,liuz,wangg.anautomaticmethodtodeterminethenumberofclustersusingdecision-theoreticroughset[j].internationaljournalofapproximatereasoning,2014,55(1):101-115.
[33]  jiax,liaow,tangz,etal.minimumcostattributereductionindecision-theoreticroughsetmodels[j].informationsciences,2013,219:151-167.
[34]  chenh,lit,ruand,etal.arough-set-basedincrementalapproachforupdatingapproximationsunderdynamicmaintenanceenvironments[j].ieeetransactionsonknowledgeanddataengineering,2013,25(2):274-284.

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133