基于 SVM 的中文微博 的中文微博 情感分析的研究

上传:zqianhai 浏览: 37 推荐: 0 文件:PDF 大小:1.91MB 上传时间:2020-02-24 03:10:52 版权申诉
关于学位论文使用授权的说明本人完全了解清华大学有关保留、使用学位论文的规定,即:清华大学拥有在著作权法规定范围内学位论文的使用权,其中包括:(1)已获学位的硏究生必须按学校规定提交学位论文,学校可以采用影印、缩印或其他复制手段保存研究生上交的学位论文;(2)为教学和科研目的,学校可以将公开的学位论文作为资料在图书馆、资料室等场所供校内师生阅读,或在校园网上供校内师生浏览部分内容本人保证遵守上述规定。(保密的论文在解密后遵守此规定)作者签名:导师签名:日期:日期:摘要摘要微博自诞生以来,其应用价值迅速获得认可,并被用户所广泛接受。越来越多的用户注册了微博账户,通过微博来分享消息,表达观点和情感。微博影响的大幅增长,吸引了一大批学者对微博进行各种研究,而情感分析就是其中较为重要的课题。情感分析主要是进行情感极性的判定,即判断一条微博消息表达情感的正、负、中性。到日前为止这些研究主要是针对英文微博的,针对中文微博的研究工作尚处于起步阶段。中文微博的用户不仅数量多,而且增长速度快,中文微博消息每大更是在大量更新,因此针对中文微博的情感分析变得尤为迫切和重要。本文通过从新浪提供的抓取数据,对微博的链接、表情、情感词及上下文等主题无关的特征的有效性及多种分类方法进行了研究,最终选定种特征共用及基于的方法对微博消息进行了情感分类。实验结果表明,该方法使用主题无关特征时获得的最高准确率为此外,本文还就主题相关的特征对情感分类进行了初步尝试,获得的最高准确率为关键词:新浪微博情感分析Sinceitsbirth,Microblog'sapplicationvaluehasquicklygainedrecognitionandrawdatathroughSina'saPiandstudytheeffectivenessofthe目求目录第章引言研究背景发展现状研究内容及挑战新浪微博简介研究内容面临挑战本文的章节结构第章情感分析综述针对英文的情感分析主题无关的情感分析主题相关的情感分析英文微博的情感分析针对中文的情感分析本章小结第章中英文微博消息的区别链接统计标签统计表情符号统计句子情况统计情感极性统计本章小结第章算法设计及实现算法设计流程图算法实现目求基于表情符号的规则方法基于情感词典的规则方法基于的方法简介(二)方法介绍主题无关的特征抽取主题相关的特征抽取本章小结第章实验结果及相关分析实验数据、评测方法及指标三种方法比较主题无关的相关实验主题相关的相关实验本章小结第章结论与展望结论存在的问题下一步的工作附录插图索引表格索引参考文献致谢声明个人简历、在学期间发表的学术论文与研究成果第章引言第章引言研究背景近年来,随着互联网的日益普及和互联网技术的蓬勃发展,互联网已经发生了翻天覆地的变化。十年前,那个近乎静态的互联网上的主角是网页和信息,而今天互联网上的主角却是一个个活生生的用户。在网络中生活、社交、展示自己、发出自己的声音,成为互联网用户日益增长的需求,并成为新一代网民对网终生存方式的共识。基于此,从天涯论坛刭猫扑,从校内网刭开心网,从饭否网到新浪微博,一个个信息发布和社交网络平台接湩而不,先后登场。但真正把信息发布与社交网终紧密结合发挥到极致的非微博莫属。微博,顾名思义,是微型博客的简称。早在年,杰克多尔西就有了一个关于实时发布信息、快速写作并与朋友互动的想法,即将短信与博客相结合,这便是微博最初的雏形。微博,是一个基于用户关系的信息共享、传播及获取平台,用户可以通过电脑网页、手机客户端等方式登录微博服务,发表字以内的文字更新信息。同时,用户还可以在微博上关注好友名人等动态,了解时事,回复、转发、评论他人的消息,拓展自己的社交圈等。微博目前可分为两大市场,一类是个人用户微博,另一类是企业客户的微博。总的来说,微博具有即时通信和社会化媒体两大基本特点。在即时通信方面,微博与传统博客相比,具有“短、灵、快”的特点。对于传统的博客书写,用户需要考虑标题、文章组织、语言修辞等内容,往往需要酝酿很长时间才能写出一篇完整的博客。而且博客反映出来的生活、人物性格的真实性也会由于这种酝酿失真。而在微博吋代,用户只需三言两语就可以记录下生活的点点滴滴,包括自己在做什么、在想什么、对事物的看法与感悟等。显然,微博这样简单便捷的表述方式更能展现真实自我,而这种即吋表述也更加迎合我们快节奏的生活,这也是微博迅速堀起风靡全球的原因之第章引言在社会化媒体方面,因为微博的方便易用,每个用户都可以成为信息发布者,成为新媒体,经营自己的品牌,发出自己的声音。而因为微博上人与人之问的“关注”关系,微博上的信息传播更快更广,呈现“病毒式”传播的特点。微博满足了每个人展示自己、网络社交的基本需求,使媒体平民化、大众化,降低了内容门槛,而也因为人的参与,微博成为了一个最具个性化的媒体平台。出于微博日益流行,越来越多的微博服务商向互联网用户提供微博服务,越来越多的互联网用户注册微博,通过微博发出自己的声音。微博正在以其独特的魅力,以不可想象的速度影响着人们的生活。以新浪微博为例,它是中国最具影响力的微博,处于国内领先地位,它主要从以下三方面影响人们的生活:()信息的大量传播:截止到年年底,已绎有超过用户注册了新浪微博,每天用户通过新浪微博发布的消息超过条)更快的信息发现及传播:很多热门事件经常是第吋闬从徴博爆料岀来并得到了广泛关注,例如前不久的“大战”(与腾讯)、“大小恋”(大与汪小菲的恋情)等。()与世界的紧密连接:在微博上用户可以关注名人、名企,了解名人的生活、想法,关注企业的动态;除此之外,用户还可以拓展自己的社交圈,结识更多的朋友和社团。山于微博的巨大影响力,吸引了越来越多的用户,他们在微博上大量自山地发表自己的观点及情感,比如对某些名人的喜欢或憎恶、对某些电影的评论、对某些品牌的评价及建议、对某些时事的看法等。这些信息看似琐碎,其实具有潜在的商业价值,如帮助我们预测电影票房、改进影片及产品、了解用户体验等。除此以外,情感分析的技术还有助」文本摘要、问答系统等研究工作,遗憾的是,目前还没有针对中文微博的情感分析方面的研究工作,而现在市面上的搜索引擎,包括新浪公司自己提供的搜索引擎都是基于关键词的,没冇考虑任何观点及情感分析方面的因素。而依据上文所说,了解用户的情感及观点意义重大。因此,针对中文微博的情感分析成为较为迫切的需求,这能有助于我们更妤的了解用户的情感及观点,从中发掘商业价值,增强用户体验。基于此,我们提出本课题,主题相关的新浪微博的情感分析,准备以课题背景为契机,分析中文微博的情感,以实现一个具有实用价值的情感分析系统。
上传资源
用户评论