2018年“泰迪杯”数据分析职业技能大赛样题发布

发布时间:2018-10-13 作者:本站原创 浏览量:1404

为了让广大参赛者了解本次竞赛赛题的考察范围,现针对A、B两道题分别提供相应样题。


A题:电商平台空气净化器销售数据采集与分析

一、背景

随着空气质量问题被关注的程度越来越高,各种空气净化器也随之出现。在信息爆炸的时代,厂商越来越关注用户体验,但是厂商对用户体验度的数据获取和分析却是一个难点。在此背景下,自动化数据采集与分析成为掌握企业经营方向的重要手段。同时,了解用户需求与痛点,为用户提供更优质的产品与服务对空气净化器行业的发展有着非常重要的意义。

二、目标

1. 从XXX网站获取各空气净化器销售数据,并对数据进行预处理,使之成为易于分析的结构化数据。

2. 根据这一行业特点,对商品销售数据进行分析,完成对评论、竞品、商品类型等各项指标的计算,并对分析结果进行可视化展示。

三、任务

任务总览:利用你认为合适的方式从XXX网站上采集空气净化器销售相关数据,以分析价格、销量、评论等各项参数给电商商家带来的不同影响,以此对空气净化器商家给出建议(包括定价、参数等)。

任务1  数据采集与预处理

任务1.1  针对任务2,确定要采集的数据字段。

任务1.2  采集数据,并以结构化形式保存。

任务1.3  对采集到的数据进行预处理。

任务2  数据可视化处理   

任务2.1  统计各商品销量数据,并给出适当的图表进行可视化展示。

任务2.2  根据用户评论数据确定其情感倾向,并给出适当的图表进行可视化展示。

任务3 撰写报告及答辩材料编写   

完成上述任务后,将所有任务结果以标准格式的word文档形式进行总结,理清要点,标清章节。并将相应数据及过程代码(如有)作为附件提交。


B题:大数据分析与经济应用之图书行业分析

一、背景

图书不仅是人们日常生活的精神食粮,也是教育不可缺少的资源,具有不可替代的特征。市场普遍认为纸质图书受到表现形式丰富多元的新媒体冲击,是“夕阳产业”。但是,通过分析行业数据发现,近三年少儿图书和文学图书两个细分品类的销售码洋(专有名词,指图书产品的定价乘以数量所得出的总金额)呈现两位数的增长,电商渠道销售码洋保持积极增长态势,看似平淡的图书行业,蕴含着结构性机会。

通常情况下,行业分析主要分为下面四个方面:市场规模、产业结构、市场分布和用户研究。市场规模是指通过过去连续五年中国图书市场行业消费规模及同比增速的分析,判断图书产品行业的市场潜力与成长性。产业结构是指从多角度对图书产业的产品进行分类,给出不同类别、不同档次、不同区域、不同领域的图书产品的消费规模及占比。市场分析是指从用户的地域分布和消费能力等因素来分析行业的市场分布情况,并且对于消费规模较大的重点区域市场进行深入调研。用户研究是指通过对图书产业的用户群体划分,给出不同用户群体对产品的消费规模及占比,同时深入调查各类用户群体对图书的购买力、价格敏感度、采购渠道、采购频率等。

二、目标

采集“XXXXXXXXXX”这一网站数据,通过常用数据分析软件,对数据进行清洗、预处理、建模、绘图等分析,对XXXX年X月“文学”图书的销量作出预测。对消费者区域进行分析,找出销量最高的区域,并为销量一般的区域提供销售建议。

三、任务

任务1  数据的预处理及分析

任务1.1  对附件中的数据进行清洗,使处理后的数据变得干净整洁,降低无效数据对模型造成的误差。

任务1.2  对“消费者-1”数据进行简单计算,计算ID为“55783”的消费者XXXX年X月到XXXX年X月图书购买总数、购买总价值。

任务1.3  根据爬取的数据,构建合适的模型,预测XXXX年X月“文学类”图书的销售量。

任务2  数据的可视化

任务2.1  分析XXXX年X月销量前五的图书,并给出适当的图表进行可视化。

任务2.2  绘制XXXX年每月总交易额变化趋势图。

任务3  地区画像

找出销量前5的地区,总结规律,给出每个地区在下列标签上的取值。将数据以csv格式保存,命名为“任务3-1.csv”。

任务4  撰写报告及答辩材料编写

完成上述任务后,将所有任务结果以标准格式的word文档形式进行总结,理清要点,标清章节。并将相应数据及过程代码(如有)作为附件提交。