起点作文网

大数据分析论文(整理2篇)

时间: 2024-09-01 栏目:办公范文

大数据分析论文范文篇1

关键词:恶意发帖检测;文本情感分析;SVM;分类;聚类

中图分类号:TP393文献标识码:A文章编号:1009-3044(2014)07-1403-04

随着互联网(Internet)的蓬勃发展,网络作为一种新的媒介形式,已被人们广泛使用。互联网的发展过程“是一个时时处处有人参与的、不断演化的、自适应的、不断涌现出新的整体特性的过程,是一个开放的、人在其中与社会系统紧密耦合的复杂巨系统[1]”,其业务流量自相似、拓扑结构无尺度等特性的发现为人们正确认识和管理互联网起到了重要作用。

网络论坛是网络舆论形成的一股重要力量,广大网民通过网络来表达观点,一旦遇到社会热点问题,瞬间就能形成巨大网络的舆论。网民通过“发帖”发表意见、参与舆论形成,与论坛网站共同构成了人机结合的虚拟系统[2]。以网络水军为主体的恶意发帖能主导舆论走势,产生错误的舆论导向以及消极的影响,所以对恶意发帖的检测就显得尤为重要。

本文通过对大量论坛发帖信息进行收集分析,形成帖子库,并对帖子内容进行文本情感分析,产生恶意发帖聚类,接着使用支持向量机(SVM)对恶意帖子进行分类,实时产生预警信息,并对发帖源头进行干预。

1理论背景

基于情感分析的恶意发帖检测系统的分析与研究中,涉及到的理论主要有三个方面,分别是数据挖掘技术,文本情感分析和支持向量机。

1.1数据挖掘技术

数据挖掘(DataMining,DM)又称数据库中的知识发现(KnowledgeDiscoverinDatabase,KDD),是目前人工智能和机器学习领域的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的过程[3]。

数据挖掘的分类、聚类、关联规则、预测算法能很好的应用到恶意发帖的分析检测与追踪之中。主要处理如下:

1)可以对帖子库中的恶意帖子根据恶意的等级不同进行分类处理;

2)可以对恶意帖子进行聚类分析,找出它们的团伙关系;

3)利用关联规则,找出发帖人与不同帖子之间的关联关系;

4)利用预测技术预测出哪些发帖人有恶意发帖的趋势;

5)利用帖子间的文本的近似的比对,找出某个人多次改变手法发帖。

1.2文本情感分类

文本情感分类是指通过挖掘和分析文本中的立场、观点、看法、好恶等主观信息,对文本的情感倾向做出类别判断[4]。文本情感分析使用文本极性分析将帖子分为正面或负面,论坛发帖文本情感分析具体工作流程如图1所示。

1)观点摘要。从一个或若干包含主观性信息的文本文档中概述出其中主观性信息的主要内容。基于观点的摘要分为两种,一种是单文档摘要,另一种是多文档摘要。

2)文本极性分类。针对给定的文本,使用情感分类方法,识别其中主观性信息的倾向是正面还是负面的。NaiveBayes、最大熵分类(MaximumEntropyClassification)和支持向量机是常用的情感分类方法。

3)主观和客观识别或分类。识别文本是对事实的描述(客观的文本)还是包含有意见、评价等主观性信息(主观性文本)。

1.3支持向量机

支持向量机(SVM)是由Vapnik在1963年解决模式识别问题时提出了支持向量方法,这种方法从训练集中选择一组特征子集,使得对特征子集的划分等价于对整个数据集的划分[5]。

SVM从线性可分情况下的最优分类面发展而来,广泛应用于数据分类、手写识别等领域。SVM考虑寻找一个满足分类要求的超平面,并且使训练集中的点距离分类面尽可能的远,也就是寻找一个分类面使它两侧的空白区域(Margin)最大。

3系统功能分析

整个系统的设计与实现,包括网络发帖采集系统,网络发帖倾向性分析,恶意发帖分析检测引擎和恶意发帖分析监测与监控追踪系统,下面就四个系统的功能进行分析。

3.1网络发帖采集系统

网络发帖采集系统主要功能是完成网络发帖数据的实时采集整理,其中负责采集数据的是网络爬虫,其运行具体步骤如下:

1)用户通过配置管理界面配置爬虫的数据源、页面解析逻辑、数据存取逻辑和高级设置,配置数据将保存在爬虫配置数据库中;

2)用户在数据抓取监控界面开始运行数据抓取任务时,系统通过读取页面表中配置数据利用爬虫装配器组装爬虫执行体,读取高级配置爬虫控制器为爬虫执行体分配执行线程、URL队列等运行时参数,爬虫将在爬虫控制器的管理下运行,可进行任务调度、定时执行、自动更新、实时监控等操作;

3)爬虫抓取的数据将根据配置自动保存到相应数据库中,用户可以通过数据库管理界面进行查看、导出等操作。

3.2网络发帖倾向性分析

网络发帖倾向性分析主要文本情感分析的方法进行帖子分析,因为一个发帖主体可能在多个评论地点(论坛)上进行评论,本系统在文档情感分析的基础上,结合语义倾向,基于LDA模型,使用SVM方法对恶意发帖进行分类。其具体算法流程描述如下。

1)文档集合预处理。将每个文档中的文本分割为句子,以句子为单位进行词性标注,得到句子中每个词的词性。

2)LDA构建。将句子集合中的每个句子当作LDA模型中的文档,为整个句子文档集合建立一个LDA模型。

3)主题重要度计算。根据LDA模型得到句子的主题分布和主题词汇分布,计算每个潜在主题的重要度。

4)句子重要度计算。根据主题重要度,结合主题词分布和语义倾向,计算主题中每个句子的权重。

5)语句排序。根据句子权重对句子进行排序,如果权重相同,非停用词在句子占比重大的排在前面。

6)帖子分类。按照句子排序顺序结果使用SVM方法对帖子的恶意情况进行分类。

3.3恶意发帖分析检测引擎

恶意发帖分析检测引擎为本系统的核心,其主要包括以下功能:热点识别能力、自动分类、聚类分析、倾向性分析与统计、主题跟踪、信息自动摘要功能、截取证据、趋势分析、突发事件分析、报警系统、统计报告。

恶意发帖分析检测的核心技术在于恶意发帖分析检测引擎,涉及最主要的技术包括文本分类、聚类、观点倾向性识别、主题检测与跟踪等技术。恶意发帖分析检测引擎是恶意发帖分析与检测系统的核心,主要功能如下:

1)热点(敏感)话题识别与追踪。利用关键词布控和语义分析,识别敏感话题。

2)情感倾向分析。对于每个话题,对每个发贴人发表帖子的观点、倾向性(正负面、褒贬义)进行分析与统计。

3)主题跟踪。分析新发表文章、贴子的话题是否与已有主题相同。

4)帖子自动摘要。对各类主题,各类倾向能够形成自动摘要。

5)发帖趋势分析。分析某个主题在不同的时间段内,网民的关注程度。

6)突发事件分析。对突发事件进行跨时间、跨空间综合分析,获知事件发生的全貌并预测事件发展的趋势。

7)实时预警。对突发事件、涉及敏感话题及时发现并发出预警信息。

8)统计报告。根据舆情分析引擎处理后的结果库生成报告,用户可以浏览、检索。根据指定条件对热点话题、倾向性进行查询,提供决策支持。

3.4恶意发帖分析监测与追踪系统

恶意发帖分析监测与追踪系统主要是对指定网站的帖子进行数据采集存储到数据库中,再对库中的帖子情况进行分析,实现实时监测和追踪。主要功能如下:

1)对库中的帖子提取关键词,进行文本倾向性分析。

2)根据极性不一样,利用分类算法为帖子指定不同的恶意等级,并根据等级不一样不同的预警信息。

3)利用聚类算法对帖子实现自动归类,挖掘出发帖人之间的团伙关系。

4)文本近似度分析,发现改变手法多次发帖的发帖人。

5)利用IP地址及发帖人之间的关系定位发帖人,实现对恶意发帖的检测与追踪。

帖子检测是本系统的核心,即帖子按恶意度分级,将一定级别的恶意帖子收集到一个库中,然后进行统计,分为两种情况:

1)完全相同的人发帖(同一个人用一个账号多次发帖和同一个人用多个账号一次发帖,如果多个账号发的是同一个帖子,那么应该是同一个人)。

2)类似的人发帖(一个人改变手法,多次发帖),或者可以看成是一个团伙。

恶意帖子检测流程如图4所示。

建立恶意帖子库后,利用相应的字段信息,例如:发帖者,发帖网站,发帖者账号,帖子内容,跟帖者,跟帖内容。利用数据挖掘的关联规则挖掘技术以及其他技术,实现如下功能。

1)找出同一个账号多次发出同一恶意帖子,进而定位这个账号,进行跟踪,同IT部门和技术部门合作,找出发帖者的IP地址,确认发帖者的位置和身份。

2)直接根据发帖内容进行比对,如果是内容相同的帖子,来自于不同和和不同账号,根据这些账号是否由同一个IP地址发出,确认是否为同一个人用多个账号发帖;如果IP不同就有可能是一个同伙或组织用多个账号发出同一个帖子。

3)根据内容的相似度,找出类似的发帖,找出其账号之间的关联,确定是否为一个人改变手法,多次发帖。

4)找出恶意帖子库中的跟帖关系,建立关系网络图,利用网络理论中子图发现和查询技术,找出密集型子图,发现恶意发帖团伙。

5)根据密集子图的密集程度和活跃程度,确定发帖信息的危害程度以及突发事件的可能性,以便及时预警。

4结束语

本系统建立面向主题的、关键词的、行业的、主流网络平台的恶意发帖信息的语料库;搭建了恶意发帖检测分析平台,及时识别恶意发帖信息,使用网络发帖分析检测引擎,对恶意发帖信息进行分析处理;制定整理的恶意发帖分级制度,建立恶意发帖监控预警标准。建立恶意发帖控制处理平台,建立恶意发帖信息的追踪和预警体系。系统运行稳定正常,具有良好的实际价值。

参考文献:

[1]山秀明.互联网复杂性研究进展[J].北京邮电大学学报,2006,29(1):1-8.

[2]谢新洲,肖雯.我国网络信息传播的舆论化趋势及其所带来的问题分析[J].情报理论与实践,2006,29(6):645-649.

[3]JiaweiHan.数据挖掘概念与技术[M].北京.机械工业出版社,2012.

大数据分析论文范文篇2

关键词:灰色关联分析;高被引文章;高被引作者;被引频次;影响因子

中图分类号:G232文献标志码:A文章编号:1673-291X(2016)29-0173-04

论文的被引次数是反映论文学术影响力的重要指标之一。有学者研究认为,高被引论文对影响因子的贡献率普遍较高[1,2]。论文的引用情况也经常被用来评价科研人员的绩效[3-6]。利用论文的被引情况来反映论文的影响力时,一般又认为与作者的名气有关[7],作者的名气越大,发表期刊的级别越高,被引次数应该就越高。有限的期刊资源更倾向于刊用名气大的作者的论文,长此以往,则形成期刊界的马太效应:对一些名家一稿难求,而大量名不见经传的作者的论文就会难以得到及时公开发表。这种主观的判断是否正确?什么条件的作者发表的论文被引频次高?作者如何提高自己论文的被引次数?本文以《灾害学》作为研究期刊,以该期刊的作者作为研究对象,通过2004―2013年10年间刊出的1286篇论文的所有作者与所被引频次M行相关性分析,同时参考2014年和2015年的数据,以期通过大量的数据,探讨作者论文被引的规律性。通过本论文的研究,也可以为期刊提高期刊的影响因子提供借鉴。

一、研究方法

一般的抽象系统中都包含着许多因素,多种因素共同作用的结果决定了该系统的发展态势。人们常常希望知道在众多的因素中,哪些是主要因素、哪些对系统发展影响大等等,而使用灰色相关性分析可以弥补其他系统分析方法的缺陷,适用于本论文的研究。

灰色系统理论是华中理工大学邓聚龙教授于1982年提出的,该理论利用灰色关联分析来分析因素之间的相关程度[8]。灰色关联分析是根据比较参考序列曲线和比较序列曲线之间的几何相似度来判断二者之间相似程度的,利用灰色关联系数来比较参考序列曲线和比较序列曲线在各点的差异[9,10]。

二、数据来源和统计方法

本研究以《灾害学》期刊作为研究对象。从研究学科来看,《灾害学》是进行综合性研究的学术期刊,它以各种自然灾害,包括自然灾害和人文灾害作为研究内容,通过对各种灾害事件的分析讨论,总结经验,吸取教训。从研究内容来看,广泛交流灾害科学的学术思想、研究方法、研究成果;从研究方向来看,注重关于灾害问题的研究动态和防灾减灾对策、人类抗御灾害的科技水平和能力等等的探讨。因此,通过对该期刊的研究,能够全面筛选出各灾害学相关研究的被引次数。

本研究引用的数据来源于“中国知网”()2004―2015年的数据。其中以2004―2013年的数据作为数据来源,同时参考2014年和2015年的数据。普赖斯认为,科研论文一般在其发表后1―2年即达到被引用最高峰,因此选用2004―2013年10年的数据,2014年和2015年的数据仅作为参考数据。

本研究利用灰色关联分析,以被引次数最多的50篇论文的相关数据作为研究基础,从论文的被引次数与该论文的下载量、论文作者的职称、的时间、论文研究范围四个方面进行分析。

三、被引用率灰色关联度分析

(一)确定比较数列和参考数列

本文选取论文的被引次数作为参考数列,以该论文的下载量、的时间、论文作者的职称、论文研究的区域作为比较数列,如表1所示。

表1影响因子及变量设定表

其中,职称按照从高往低赋值:设正高=1,副高(博士)=2,中级(硕士)=3,初级=4;研究范围从大到小赋值:设世界性=1,全国性=2,地区性=3,市县等=4,则被引次数最高的50篇论文的相关数据如表2所示。

(二)无量纲化

由于系统中各因素列中的数据可能因计算单位的不同,不便于比较,或在比较时难以得到正确的结论,因此,在进行灰色关联度分析时,一般都要进行标准化(无量纲化)的数据处理。本文利用公式(1),以P50的数据为基准,对原始数据数列和比较数据数列进行初始化运算,以消除量纲或数量级的影响,得到标准化后的数列(表3)。

(三)产生对应差数列表

将无量纲化后的比较数列与参考数列进行差值计算,并求绝对值,将之列如对应差数列表,内容包括与参考数列值差(绝对值)、每列最大差和每列最小差。然后计算最大差值和最小差值。

四、灰色关联的结果分析

通过灰色关联分析法可知:

1.论文的下载量、的时间、论文作者的职称、论文研究的范围四个方面的相关度都几乎接近于1,说明这四个方面与论文的被引次数相关度非常大。

2.从论文的下载量、的时间、论文作者的职称、论文研究的范围四个方面来说,相关度大小排序为:研究范围>时间>作者职称>下载数量。说明论文被引用率影响较大的还是论文本身研究范围。也说明论文刊出时间越长,关注的学者越多,被引的可能性也越高。作者职称和下载数量低于前两个因素。

3.利用灰色关联度分析法研究结果对把握期刊的服务对象和办刊理念有极大帮助。灰色关联度分析法克服了传统数理统计方法中对样本需要量大、计算量大等缺点,有利于分析期刊研究过程不完全信息中随机因素的显著性和关联性,开拓了期刊研究的新方法。

参考文献:

[1]刘雪立.10种国际权威科技期刊影响因子构成特征及其启示[J].编辑学报,2014,26(3):296-300.

[2]毛国敏,蒋知瑞,任蕾,等.期刊论文被引频次的幂律分布研究[J].中国科技期刊研究,2013,25(2):293-307.

[3]叶鹰.高品质论文被引数据及其对学术评价的启示[J].中国图书馆学报,2010,36(1):100-103.

[4]方红玲.我国科技期刊论文被引量和下载量峰值年代――多学科比较研究[J].中国科技期刊研究,2011,22(5):708-710.

[5]黄鹂.从论文被引频次分析看高校学报在学校科研发展中的作用――以长江大学及其主办的学报为例[J].长江大学学报:社会

科学版,2012,35(9):184-186.

[6]任胜利,柴育成,姚玉鹏,等.地球科学国际主流期刊的引文分析[J].科学通报,2002,47(1):74-79.

[7]李斐然.如何创作被引次数最多的论文[J].创新科技,2012,(1):58.

[8]曹惠玲,黄乐腾,康力平.基本AHP及灰色关联分析法的发动机健康评估研究[J].数学的实践与认识,2015,45(2):122-129.

    【办公范文】栏目
  • 上一篇:初高中心理健康教育(收集3篇)
  • 下一篇:出差申请书(收集5篇)
  • 相关文章

    推荐文章

    相关栏目