第四届“泰迪杯”数据挖掘挑战赛赛前指导系列之文本挖掘
时间:2016年4月19日下午2:30~5:00
地点:华南师范大学石牌校区第一课室大楼东101
报告题目:中文文本分析常见方法介绍
报告人:马志豪,华南师范大学物理与电信工程学院数据挖掘方向硕士研究生,研究方向为中文网络文本的情感倾向分析,已接收SCI论文2篇,EI论文1篇。
内容简介:
1、中文文本的预处理(分词、停用词过)
2、词向量化工具word2vec的介绍
3、词向量聚类找近义词
4、基于文档向量的文档聚类
5、基于词向量的名词实体识别