第三届挑战赛A1-基于电商平台家电设备的消费者需求及产品数据挖掘分析

发布时间:2015-11-23 作者:BdRaces 浏览量:2116
摘 要: 随着网上购物在中国越来越流行,人们对于网上购物的需求变得越来越高,这给京东、淘宝等电商平台得到了很大的发展机遇,但是与此同时,这种需求也推动了更多的店商平台的崛起,引发了激烈的竞争。而在这种电商平台激烈竞争的大背景下,除了提高商品质量、压低商品价格外,了解更多消费者的心声对于店商平台来说也变得越来越有必要,其中非常重要的方式就是对消费者的文本评论数据进行内在信息的数据挖掘分析。而得到的这些信息,也会有利于对应商品的生产厂家自身竞争力的提升。本文将基于数据挖掘技术对京东三种品牌型号的热水器的评论数据进行内在信息的挖掘与分析。
        在本次数据挖掘过程中,我们首先对获取得到的评论数据利用python以及ICTCLAS工具进行数据预处理、分词以及停用词过滤操作,实现了对评论数据的优化,并提升了其可建模度。
        接着,采用多种方法来进行数据挖掘模型的构建,为后面的评论分析构建分析的基础。为此我们先利用深度学习的方法,通过多种工具构建栈式自编码神经网络;其次,运用武汉大学的ROSTCM6系统为三种品牌型号热水器的好差评文本构建语义网络;再有,利用LDA主题模型的思想,结合统计学的角度实现评论主题模型的构建。
        最后,运用构造出来的多种数据挖掘模型的结果,对这些评论数据进行多方面多角度的评论文本分析,以提取评论中隐藏的信息。栈式自编码神经网络被用以进行情感倾向性分析;语义网络重建了有价值高频词之间的关系,在共词矩阵以及评论定向筛选回查的帮助下,一定程度上得到了京东三种品牌型号热水器包括特有优点、抱怨点等信息;LDA主题模型则滤取出了从统计学角度上的给予不同型号热水器好差评的消费者的关注点,以了解热水器消费者一般关注的对象。

关键词:评论数据;文本分析;信息提取;语义网络;LDA;栈式自编码

 

 阅读全文