摘要:
在当今的大数据时代里,当前每六个月互联网中产生的数据总量就会翻一番。借助 网络爬虫技术提取数据资料至关重要。并且网页论坛的结构各种各样,能够对于多样论 坛有一个通用提取算法,则是可以快速获取的数据的有利条件之一。
本文完成了对主题帖标题,作者,发帖时间和主题帖正文的提取,以及回帖楼层, 作者,回帖时间和回帖正文的提取。经过一个月的程序调试,最终得到了得到了较为完 整的爬虫内容,特别是在处理噪声内容方面,达到了较好的结果。
本文第一章简单介绍本题背景并说明文章应解决的问题;第二章说明本次网页爬虫 流程;第三章主要针对本爬虫算法中的网络技术进行简要分析;在第四章中详细地介绍 了本次爬虫的具体算法。在4.1节中主要解决的是主题帖内容的获取,包括主题帖标题、 作者、发帖时间以及主题帖正文,其中设计特征词库,设计噪声词库,在提取时间时应 用了时间正则和特征提取算法,在提取作者时应用了标签特征法、URL相似度验证法和 噪声过滤法,之后判断网页结构,提取正文等。在4.2节中主要解决的是回帖内容的获 取,包括回帖作者、回帖时间以及回帖正文,其中设计了定位楼层的算法,根据定位楼 层的算法,不仅可以得知每个回帖具体的楼层信息,也可以智能获取每个回帖标签的共 同特征。应用这些特征,可以对主题帖爬取内容进行修正,同时为爬取相同的论坛的文 本提取奠定了基础。第五章的内容主要是针对真实网站进行数据提取的展示,将对三个 网站进行文本提取。之后第六章的内容是对本次算法的补充以及实验数据分析。
本文所涉及爬虫算法较为完整地得到了论坛数据且去掉了足够多的噪声数据,其中 时间同步回溯算法均是拿到题目之后一次次尝试所得到的,并且对于一些小细节的处理 足够精致,最后的源程序也说明了本次算法得到了较为成功的提取算法。
关键词:Beautifulsoup 正则表达式 网页结构 作者URL特征法 噪声过滤