第三届挑战赛A5-基于电商平台家电设备的消费者需求及产品数据挖掘分析

发布时间:2015-11-23 作者:BdRaces 浏览量:1718

摘要:

本文通过对电商评论数据的处理和分析,构建了垃圾评论识别模型、基于RAE词向量自编码的SVM文本情感极性分析模型和产品优劣势分析模型进行文本挖掘,最后基于对淘宝指数和百度指数的提取与分析,构建了用户购买行为的挖掘模型。

针对垃圾评论的识别问题,将垃圾评论归为无关信息、水军评论和系统默认好评三种,并从根据不同的分类特征制定规则予以剔除。

针对评论情感分析,尝试使用半监督的深层学习RAE模型,采用word2vec工具对8万多条评论进行训练得到词向量,再对评论进行情感极性分类,然后从情感的积极方提炼出产品的优势,从情感的消极方提取产品的劣势,但由于其对于不同软件的接口封装较难转移,参数繁多且较难设定和偏置函数无法获得等原因,进而改用基于RAE的递归自编码模型的有监督的SVM模型,进行情感极性识别,通过手工标示400条评论的情感极性,进而训练SVM模型,使其对剩下的评论进行情感极性分类,结果显示情感分类的正确率达85%。

针对产品优劣势分析,由于消极情感只占总评价数的0.28%,样本过小,因此从消极的情感方提取产品劣势并不可行,转而使用用户关注度分析的方法对产品属性下的用户满意度进行统计分析,通过词频统计提炼出产品的优劣势所在。

针对用户购买行为的挖掘,先确定一组搜索关键字,然后爬取对应关键字下的日搜索量,搜索人群年龄性别及消费能力等分布,进行确定产品的主要消费人群及其消费关注点

关键词:词向量  递归自编码  SVM模型  情感极性分析

 

阅读全文