万搏体育官网登录

大数据分析下的中国社会舆情:总体态势与结构性特征

大数据分析下的中国社会舆情:总体态势与结构性特征
[摘要] 以20092012年百度查找词数据库为研讨目标,选用大数据的价值发掘与剖析技能,讨论将碎片化的舆情信息怎么整合处理并进行舆情模型构建的办法,在此基础上剖析当下我国社会舆情的结构性特征,对社会暖度、社会美好感及社会压力等我国社会舆情指数进行详细测定和剖析,关于社会办理和社会和谐有重要启示。[关键词] 大数据剖析;热搜词;社会舆情;模型百度(www.baidu.com)作为中文互联网榜首查找进口,在我国掩盖超越95%的网民,日均有超越40亿次的查找恳求。百度查找词的海量数据代表了我国网民最实在、最客观的精力需求和信息寻求的行为特征,勾勒了一幅描绘我国社会生活诸范畴的实在画卷。在某种含义上能够说,百度查找词已然成为反映我国社会变迁的重要风向标和社会舆情参照系。可是,一个个查找词最多仅仅对我国社会全体开展面的碎片式的反映,并没有给社会公众供给一个关于社会全体情况的坐标系,使得人们对社会全体的实践走势和未来开展很难掌握。依据此,百度公司托付我国人民大学言论研讨所进行百度查找词数据的深度价值发掘。咱们使用数据发掘办法,在国内初次提出了我国社会暖度指数、我国社会舆情运转压力指数、我国经济重视指数、我国民生重视指数、我国社会职责重视指数、我国立异力重视指数、我国社会等待重视指数、我国环境生态安全重视指数、我国金融安全重视指数、我国信息安全重视指数、我国人口安全重视指数、我国资源安全重视指数、我国卫生安全重视指数、我国公共安全重视指数等一系列反映我国社会根本面情况的社会点评性目标,并对不同网民的需求特色进行了较为精确的描绘和剖析。本文依据20092012年百度每年查找量最高和重视热度上升最快的前1 000个查找热词总查找量的相关数据,进行剖析核算并得出结论。一、大数据剖析办法:透过巨量查找数据见微知著,构成社会舆情的全体判别国际现已进入了大数据年代。所谓大数据,直观了解便是信息和数据量的规划非常巨大,无法用惯例的信息技能手段和软硬件东西进行感知、获取、办理和处理的数据调集。大数据年代的生成布景是:数据获取技能的革命性前进、传感器等主动收集的数据、Web2.0等用户生成数据(UGC)以及移动设备生成的数据(方位、移动和行为信息等)。大数据具有规划性、多样性、高速性和有价值等特色。大数据剖析便是以诸种立异的办法对海量数据进行剖析、整理和加工,取得具有巨大价值的产品和服务或深入洞见的数据及处理办法。大数据剖析的首要技能手段是选用数据发掘(Data mining)。数据发掘又称数据库中的常识发现,即指从数据库的很多数据中提醒出隐含的、史无前例的并具有潜在价值的信息的价值聚合、提炼的进程。咱们关于百度查找词数据所进行的、反映社会根本面情况的舆情指数的核算,正是依据百度作为查找引擎的技能特性规划和数据价值发掘的办法而构建起来的。(一)TOP1 000:为海量查找数据截取最具舆情代表性的有限数据集查找量的凹凸反映了民众对该关键词所代表的事情的重视程度。百度作为国内榜首大查找引擎运营商,从后台数据库中能够提取出每一个查找词的对应查找量。但每天高达40亿次的查找数据不光数量极为巨大,并且所指目标也极为冗杂。大数据处理的一个重要逻辑便是将价值含量较低的海量数据进行价值凝炼和萃取,在不失代表性的前提下进行数据简化处理。这关于舆情剖析而言不仅是必要的,并且是可行的。社会舆情剖析所重视的是社会根本面的描绘和剖析,关于不触及根本面的非权重的涣散数据的处理不光极大地增加了数据处理的本钱和难度,还会在相当程度上使数据处理遭到非相关信息的扰动而使成果变得不甚明晰。依照核算学的原理,就社会根本面的舆情呈现而言,TOP1 000热搜词和上升最快的TOP1 000热搜词足以代表民意的调集性重视及改变消长,其间TOP1 000热搜词反映社会重视的根本面,而上升最快的TOP1 000热搜词则反映了新呈现的新闻事情的社会重视度。这两类1 000个查找热词能够较为粗略地刻画出我国社会舆情地图。因而,选取TOP1 000热搜词和上升最快的TOP1 000热搜词作为舆情剖析的数据处理目标,不光数据量得到极大精简,并且也使民意图画愈加凝炼和明晰。(二)社会语义剖析:为舆情指数与相关查找数据树立互相相关的转化通道社会暖度、社会压力以及美好感等都是内在极为丰厚的抽象概念,但又是反映社会根本面的重要目标。关于这类舆情目标的数据提取,传统的办法是从这些概念的界说动身,进行概念操作化的目标确认。但从反映实态民意的视点看,人们关于温暖、压力、美好的实践了解和感触或许要比依据理论界说的概念操作化更能反映舆情的实态。换句话说,人们正是在这样的含义结构里感触社会冷暖、社会压力和社会美好的。而关于网络上的海量文本的中心词语(如温暖、压力、美好等)进行社会语义剖析,能够协助咱们精确界说当下我国人头脑中关于这些中心词语的心思感触域(语义规模及权重巨细)。在本项研讨中,咱们选用了社会语义剖析的办法,经过人大方正舆情监测剖析体系收集对应于某中心词的海量网络相关文本,再依据社会语义剖析软件去剖析当下我国人心目中实践了解和感触下的相关概念的中心内在终究是什么,并依据社会语义剖析的成果(依据分化出来的各个语义词与中心概念之间相伴呈现的频次概率、与中心词的字符距离数以及正负情感点评等)将TOP1 000热搜词中的一切相关词进行加权处理,核算出每一中心概念所负载的舆情指数。图1是咱们关于结构舆情指数的目标中的中心词(如社会暖度、社会美好、社会等待和社会职责)依照现阶段民众的实践社会表达所分化出的该概念的社会语义剖析图。 上一页 1 2 3 4 5 下一页 阅览全文

发表评论

电子邮件地址不会被公开。 必填项已用*标注

Back To Top