第二届挑战赛B3-面向网络舆情的关联度分析

发布时间:2014-08-27 作者:BdRaces 浏览量:2623

网络舆情事件处理不当,会引发用户的过激行为。因此通过事件找出有关用户就可以起到一定的监督作用。本文先对用户提供的数据(用户信息和事件)进行预处理,对于用户信息,处理身份证号,还原成:性别,发证地,出生年月日,然后重复事件去除,用replace pioneer软件对html文件查找含QQ,手机,作者等关键字,然后手动添加进excel里。对txt文件中的事件标题进行中文分词处理。接着抽取含有用户信息各属性的事件,转化为“用户-事件-用户”的形式,运用clementine软件,分析表的置信度和网络图直观性,得出余晓明和丁羽心和马小龙是关联的等类似结果。但是发现模型的不足,对于属性没有权重,同时也发现html文件中没有MSN信息,而且QQ信息没有能和事件信息匹配上,因此将用户信息分为:姓名,地址,性别(用户的地址是将原来的地址加身份证地址,姓名是加上关键字)3个属性,将整个事件转换成3个指标,地址,姓名,性别。其中姓名是由2部分组成:html中提取的作者,爆料人等,和题分词后的人名;性别由html中提取的性别,所以有大量缺失值;地址由两部分组成:根据网源得到的地方网址和事件标题分词后的地址,将处理后的用户和事件匹配相同的字数,利用C++软件,求出结果,一个三维向量,通过欧氏距离,将结果排序。取出每个人距离最短的事件,发现钟建国和胡万林等人事存在关系的。通过这一算法,找到了用户和事件的关系,从而通过事件连接2个用户,找出用户之间的关系。再次对模型修改,距离标准化,计算用户与用户之间的关系,得出更清晰的效果。对于网络舆情来说,就可以从事件中找到相关人物以及和人物相关的其他人,那么这样就起到监督作用。

阅读全文