深圳市第十二届职工技术创新运动会暨2022年深圳技能大赛—大数据技术应用职业技能竞赛技术文件

发布时间:2022-08-31 作者:本站原创 浏览量:674

一、技术描述

(一)竞赛项目

大数据技术应用。

(二)理论知识与能力要求

相关要求
权重比例

大数据平台基础

1.分布式系统基础架构Hadoop及其核心组件知识

2.分布式计算框架Spark及其核心组件知识

30%
数据分析与挖掘基础

1.Python基本语法,数据结构运用和程序流程控制等知识

2.函数的语法、调用、参数以及自定义函数的编程实现知识

3.正则表达式的字符获取、匹配与替换知识

4.不同形式的文件/数据读取与存储知识

5.Numpy数值计算基础知识

6.Pandas统计分析基础知识

7.Pandas数据预处理知识

网络爬虫

1.爬虫发展历史、概念与反爬机制等知识

2.网络信息传输过程、HTTP与Cookie的概念与作用

3.爬虫环境、爬虫基本流程与网页前端知识

4.静态网页与动态网页的爬虫常用技术应用知识

5.模拟登录基本流程

数据可视化

1.Matplotlib可视化图形绘制运用知识

2.Pyecharts可视化图形绘制运用知识

机器学习原理

1.机器学习概念、基本流程与应用场景等知识

2.机器学习的常用工具与相关库

3.基础的聚类算法思想与模型搭建过程的知识

4.基础的分类算法思想与模型搭建过程的知识

5.聚类与分类模型的评估方法的知识

大数据平台搭建具备在Linux下安装Java并搭建完全分布式Hadoop集群的能力70%
大数据信息采集具备运用Python网络爬虫技术采集指定网页信息,存储采集数据的能力
大数据清洗与挖掘具备使用IDEA编写Scala代码,从HDFS加载数据,并结合Spark技术实现基础的数据清洗操作,存储清洗后的数据的能力
大数据分析与可视化具备运用Python数据挖掘与可视化知识对数据进行统计与基本图形绘制的能力
大数据建模与评估具备运用Python机器学习知识实现数据建模与评估的能力
合计
100%

二、赛题与评判标准

(一)初赛

1.初赛理论知识复习资料于报名开始后在http://www.szzx.org.cn/→技能竞赛→技能竞赛总览栏目对应项目下公布300个知识点。

2.赛前一天由裁判长根据公布的知识点编制初赛赛题,并封存保管。

3.竞赛当天由裁判长现场解封初赛赛题并导入竞赛系统。

(二)决赛

1.决赛样题于报名结束后在http://www.szzx.org.cn/→技能竞赛→技能竞赛总览栏目对应项目下公布。

2.赛前一天由裁判长根据公布的样题进行不超过30%的修改,编制决赛正式赛题,并封存保管。

3.竞赛当天由裁判长现场解封正式赛题并组织裁判培训及设备调试。

(三)比赛时间及内容

参照广东省第二届职业技能大赛大数据技术应用赛项标准,结合新时代行业企业发展情况,适当增加新知识、新技术、新设备、新技能的相关内容,由执委会组织专家制定。

本次竞赛为单人赛,分初赛和决赛两个阶段进行,由裁判长组织落实各项技术工作。初赛为理论知识竞赛,决赛为实际操作竞赛。

1.初赛。采用理论知识上机考核,取排名前60名选手进入决赛。时间共60分钟,满分为100分,60分为合格。题型为单选题50题,每题1分;多选题10题,每题3分;判断题20题,每题1分;各题型错选、多选或少选均不得分。

2.决赛。选手按赛场提供的实操任务书在竞赛专用云主机上以现场实际操作的方式完成五个任务的实际操作,时间共240分钟。满分为100分,60分为合格。具体内容如下:

任务一:根据提供的安装包,按照题目要求在Linux下安装Java并搭建完全分布式Hadoop集群。该任务主要考核选手分布式系统基础架构Hadoop相关知识和搭建完全分布式Hadoop集群能力。

任务二:按照题目要求,基于Python语言,运用requests、lxml、BeautifulSoup、Selenium等相关库采集指定网页信息并存储采集数据。该任务主要考核选手使用网页信息爬取技术和数据处理、存储的能力。

任务三:按照题目要求,使用IDEA编写Scala代码,从HDFS加载数据,并结合Spark技术实现基础的数据清洗操作,存储清洗后的数据。该任务主要考核选手使用Spark技术实现数据加载、清洗和存储的能力。

任务四:按照题目要求,基于Python语言,运用Pandas、NumPy、Matplotlib、Pyecharts等相关库,对数据进行统计与基本图形绘制。该任务主要考核选手对数据统计分析和可视化常用工具及技术熟练使用的能力。

任务五:按题目要求,基于Python语言,运用Pandas、NumPy、sklearn等相关库实现数据建模与评估。该任务主要考核选手合理运用算法与模型的能力,能调用模型完成训练与预测且能实现模型评估操作。

(四)评判标准

1.初赛评分标准。

采用上机考核,由竞赛系统自动判分,各题型错选、多选或少选均不得分;单选题共50题,每题1分;多选题共10题,每题3分;判断题共20题,每题1分。

2.决赛评分标准。


竞赛内容
评分标准占比
大数据平台搭建

1.JDK正确部署

2.Hadoop集群正确部署

25%
大数据信息采集

1.运用Python相关库采集指定网页信息

2.采集数据满足题目要求的数量

3.采集数据存放于DataFrame,并更改列名

4.将采集数据存储为csv文件或Excel文件

20%
大数据清洗与挖掘

1、在HDFS上实现上传、读取文件等操作

2、结合Spark框架,在IDEA编写Scala代码实现数据清洗操作

3、编写Scala代码完成数据集DataFrame以csv格式导出至指定路径

20%
大数据分析与可视化

1、运用Python的Pandas、NumPy等库实现数据统计

2、运用Python的Matpltlib、Pyecharts等库绘制指定可视化图形

20%
大数据建模与评估

1、运用Python的Pandas、NumPy等库完成数据处理,如类型转换、特征编码、数据标准化

2、运用Python的sklearn库实现数据集划分

3、运用Python的sklearn库实现模型构建与模型评估

155


3.评判方法。

(1)参赛选手的成绩评定由竞赛裁判组负责,裁判长对最终成绩签字确认。

(2)初赛理论知识竞赛由竞赛系统自动判分。

(3)决赛实际操作竞赛由现场裁判组依据参赛选手的实际操作情况按竞赛评分标准集体评判和计分。

4.综合排名。

选手最终名次依据初赛和决赛两部分成绩按比例累加的综合成绩进行排名,成绩均四舍五入保留两位小数点。其中初赛成绩占30%、决赛成绩占70%,参赛选手赛后综合成绩=初赛成绩×30%+决赛成绩×70%。当综合成绩相同时,以决赛成绩高者名次在前,若仍相同时,决赛用时短者名次在前。

三、竞赛细则

(一)初赛时间地点。

时间:2022年9月24日。

地点:广东省深圳市龙岗区五联社区将军帽路1号深圳技师学院。

(二)决赛时间地点

时间:2022年9月25日。

地点:广东省深圳市龙岗区五联社区将军帽路1号深圳技师学院。

(三)理论知识竞赛守则

1.参赛证由执委会于竞赛开始前统一核发。

2.参赛选手需提前20分钟凭有效身份证和参赛证进入赛场,对号入座并将身份证和参赛证放在座位左上角明显位置,以备查验。迟到20分钟不得入场,开赛20分钟后方可交卷离场。

3.参赛选手不能携带与竞赛相关的文件资料、通讯工具进入赛场。在赛场上应自觉遵守赛场秩序,保持安静,竞赛进行过程中不允许任何形式的交谈,更不得大声喧哗吵闹,否则将给予警告直至取消竞赛资格。

4.冒名顶替、弄虚作假、作弊者,取消竞赛资格及成绩。

5.竞赛规定时间结束时,参赛选手应立即停止答题,有秩序的离开赛场。

(四)实际操作竞赛赛场守则

1.实际操作竞赛选手的出场顺序和实操台位置由抽签决定。

2.参赛选手需提前20分钟凭有效身份证和参赛证进入赛场,对竞赛工具设备进行检查。

3.开赛迟到30分钟以上者,按自动弃权处理。 

4.参赛选手按赛题完成各竞赛项目,并主动配合裁判员评分。

5.参赛选手应严格遵守赛场纪律,所有的通讯工具、摄像工具不得带入竞赛现场,对竞赛设施设备应爱护,防止丢失和损坏。

6.冒名顶替、弄虚作假、作弊者,取消竞赛资格及成绩。

7.参赛选手须严格遵守安全操作规程及劳动保护要求,接受裁判员、现场技术服务人员的监督和警示,确保设备及人身安全。

8.在实际操作竞赛过程中,裁判应对每名参赛选手的各道工序认真记录,并填写评分表。

9.竞赛过程中如果出现安全事故,裁判员应立即中止竞赛。如查实事故责任属参赛选手,即取消参赛选手竞赛资格。

(五)赛场规则

1.各类赛务人员必须统一佩戴由大赛执委会签发的相应证件,着装整齐。

2.各赛场除现场裁判、赛场配备的工作人员以外,其他人员未经允许不得进入赛场。

3.新闻媒体等进入赛场必须经过大赛执委会允许,并且听从现场工作人员的安排和管理,不能影响竞赛进行。

4.各参赛队的领队、指导老师以及随行人员一律不得进入赛场。

5.竞赛期间,参赛选手未经大赛执委会批准,不得接受其他单位和个人对竞赛相关内容的采访。

6.参赛选手不得私自公布竞赛相关资料和情况。

7.竞赛过程中,参赛选手必须主动配合裁判工作,服从裁判安排,如果对竞赛的裁决有异议,可按规定以书面形式向执委会申诉受理组提出申诉。

8.竞赛现场必须配备实时监控系统,对现场赛事进行完整的实时监控和录像,并有专人对竞赛环节进行全程录像。

(六)赛事安全要求

1.赛场设有安全防卫人员,负责竞赛期间安全事务。主要包括检查竞赛场地及其周围环境的安全防卫;制定紧急应对方案;督导竞赛场地用电等相关安全问题;监督参赛人员食品安全与卫生;分析和处理安全突发事件等工作。赛场配备医务人员及常规药品。

2.严格按照安全应急预案加强对竞赛全过程的动态管理,确保竞赛活动安全有序。

(七)申诉与仲裁

1.参赛选手认为赛场提供的设备、工具不符合规定或工作人员存在违规行为的,均可向执委会申诉受理组提出申诉。

2.现场申诉最迟应在竞赛结束后1小时内提出,超过时效将不予受理。申诉时,应以书面形式向申诉受理组提出,技术问题由裁判长与裁判员共同商议解决;非技术问题由组委会办公室进行调查、核实、裁决。

3.组委会办公室对违规行为做出的裁决为最终裁决。参赛选手不得因对仲裁处理意见不服而停止比赛或滋事,否则按弃权处理。

4.如竞赛出现不可预见的异常情况,由组委会办公室与执委会商议后,做出处理决定。

四、竞赛场地、设施设备

(一)赛场规格

1.初赛。

参照计算机类工种职业技能鉴定要求布置赛场,配备与参赛人数相适应的计算机及竞赛答题软件,保证单人单机并留有一定数量的备用机。

2.决赛。

竞赛工位:各工位之间设置隔板,确保每个工位为相对独立空间,每个工位标示编号,并配备电脑桌1张、座椅1把、计算机1台并安装了所需软件。

竞赛场地光线充足,照明良好;供电供气设施正常且安全有保障;场地整洁;场地布置60个工位,备用2个工位。有独立的裁判室、候赛室、赛务室、隔离室等区域。

(二)场地布局图

13.png

(三)设施清单

1.初赛。

本赛项禁止携带有存储功能的设备,禁止在竞赛用PC机上安装任何软件,也不允许将赛场提供的参赛设施带出赛场。

序号名称型号规格参数数量
1高性能PC机

主机参数:i7-11700 8G 256GB+1TB 集显

操作系统:Windows11家庭版 

显示器:23.8寸

150
2键盘、鼠标标准150
3浏览器

Chrome 

版本:100或以上


2.决赛。

本赛项禁止携带有存储功能的设备,禁止在竞赛用PC机上安装任何软件,也不允许将赛场提供的参赛设施带出赛场。

序号名称型号规格参数数量
1高性能PC机

主机参数:i7-11700 8G 256GB+1TB 集显

操作系统:Windows11家庭版 

显示器:23.8寸

62
2键盘、鼠标标准62
3浏览器

Chrome 

版本:100或以上


本赛项赛题涉及如下环境,已在竞赛环境中提前部署。

序号赛题编号环境
1赛题1CentOS7.9,火狐浏览器
2赛题2、4、5

Anaconda3(Python3.8.5, Jupyter Notebook)、火狐浏览器/Chrome浏览器

pandas==1.1.3、numpy==1.18.5、lxml==4.6.2、requests==2.25.1、selenium==3.4.0、beautifulsoup4==4.9.3、matplotlib==3.3.2、pyecharts==1.9.0、scikit-learn==0.23.2

3赛题3CentOS7.9,Hadoop3.1.4、IDEA2022.2、Spark3.2.1、Scala2.12.16

五、主要参考资料

1.《大数据工程技术人员国家职业技术技能标准(2021年版)》,职业编码:2-02-10-11

2.张军,张良均.Hadoop大数据开发基础(第2版)(微课版)[M].北京:人民邮电出版社.2021.

3.肖芳,张良均.Spark大数据技术应用(第2版)(微课版)[M].北京:人民邮电出版社.2021.

4.张治斌,张良均.Python编程基础(第2版)(微课版)[M].北京:人民邮电出版社.2021.

4.江吉彬,张良均.Python网络爬虫技术[M].北京:人民邮电出版社.2019.

5.曾文权,张良均.Python数据分析与应用(第2版)(微课版)[M].北京:人民邮电出版社.2021.

6.何伟,张良均.机器学习原理与实战[M].北京:人民邮电出版社.2021

六、本技术文件条款的最终解释权归深圳市第十二届职工技术创新运动会暨2022年深圳技能大赛组织委员会办公室所有。


技术文件下载链接:http://hrss.sz.gov.cn/xxgk/qtxx/tzgg/content/post_10057339.html