疫情之下,信息公开、数据应用被寄予厚望,其中很多问题值得深入研究。在“泰迪杯”数据挖掘挑战赛如火如荼之际,南都大数据研究院结合实践难题,开辟“南都特别赛道”,增加疫情通报文本中涉疫地点的自动提取赛题,寻求最优算法,挖掘信息抗疫空间,用数据赋能城市治理。参赛者进行参赛报名后可在本赛题或原“泰迪杯”原三道赛题中任选做一道。
“南都特别赛道”赛题的评奖独立于原“泰迪杯”三道赛题,设一等奖:约2%,不超过5队,颁发“泰迪杯”数据挖掘挑战赛一等奖荣誉证书,优先进入南都大数据研究院定向实习。二等奖:约5%,颁发“泰迪杯”数据挖掘挑战赛二等奖荣誉证书。三等奖:约10%,颁发“泰迪杯”数据挖掘挑战赛三等奖荣誉证书。我们崇尚创新,崇尚技术,崇尚大数据创造新的价值。希望你勇敢尝试,给未来一个机会。
南都大数据研究院特别赛题——疫情通报文本中涉疫地点的自动提取
一、问题背景
随着我国“智慧城市”建设进程的不断推进,如何用“大数据”为公共服务提质加码是大数据研究者一直在不断为之努力的课题。自2020年初新型冠状病毒疫情发生以来,从中央到地方各级政府已形成常态化的信息发布模式,进一步推动了以“知情权”为基础的政府信息公开及数据开放的进程。应用大数据技术分析疫情通报信息,构建疫情发展模型,可以对传染源、传播速度、传播路径、传播风险等进行评估和预测。精细的疫情通报信息颗粒度,有助于获取疫情流散特征;完整、透明的疫情分析,可以探究疫情通报信息的质效;梳理确诊病患居住小区或逗留场所,追踪建立个体关系图谱,可以定位疫情传播路径,防控疫情扩散。本赛题提供收集自网络的官方通报和媒体报道网址,要求参赛者建立文本分析模型,自动提取包括确诊病例所在城市、行政区、小区或逗留场所等的涉疫地点分布信息。
... ...
请仔细阅读以下说明:
1、关于赛题数据
①建模数据:2020年4月25日9:00:00公布。
②测试数据:2020年5月9日9:00:00 公布。
2、提交作品
①命名方式:论文命名为“南都特别赛题”,附件命名为“作品附件”,测试结果命名为“作品测试结果”。
②论文及附件内请勿出现队号、学校、学院、队员以及指导老师相关任何信息,否则视该作品为无效作品。
③请参赛队于2020年5月8日16:00:00之前在竞赛官网“提交作品”处提交论文(PDF 版,大小不超过 50M)及附件(包含论文正文(Word 版)、过程数据、程序的压缩包,大小不超过200M)。
3、公布测试数据,提交测试结果
2020年5月9日9:00:00准时公布测试数据,请在“赛题与数据”页面对应的题目右下方下载测试数据,并于2020年5月10日9:00:00前在“提交测试结果”页面提交测试结果。
点击下载南都大数据研究院特别赛题全部数据(提取码:0y0j)
南方都市报是南方报业传媒集团系列报之一,创刊于1997年。南方都市报背靠党报集团,崛起阡陌,生于市场,从“办中国最好的报纸”到“做一流智库型媒体”,南都一直屹立潮头。经过20多年的发展,南方都市报由一张立足广深,密集覆盖珠三角城市群,影响力远播海内外,饮誉国内国际的主流大报,成长为以“报网端”(即南方都市报、奥一网、南都APP)为主要舆论阵地,多种媒体形态相互呼应的南方都市报系,影响力不断提升,已成为中国报业最具影响力和最有价值的品牌。2018年2月成立南都大数据研究院,以数据生产为核心,以数据挖掘分析技术为驱动,以行业标准制定为抓手,充分释放媒体的资源连接能力,致力于媒体服务能力的提升,主动将自身纳入国家治理体系和治理能力现代化建设,积极参与共建共治共享的社会治理格局,推动南都成为中国最具影响力的智库型媒体,总体实现新闻南都、移动南都、产业南都、智库南都、数据南都的全方位布局。