第三届技能赛B-新冠疫情数据分析

发布时间:2020-12-31 作者:本站原创 浏览量:11087

我们发现城市疫情数据表中并不是每一天都有对应的数据,有些天数的数据是缺失的。

通过观察数据表,我们判断得到结论:缺失的数据行是因为该区域当天无新增的确诊、死亡或是治愈病例而若对新增病例缺失的天数进行补0 填充,会造成数据的高维稀疏,并且无太大的意义。

因此,我们的处理方法是不对缺失的天数进行补0 填充。对应的,相应缺失日期的累计确诊数据也并未计算。

当使用缺失日期的累计确诊数据时,我们采取以下方案:

image.png

而若要使用某个缺失日期的累计确诊数据时,我们会往前寻找表中记录的最 近数据作为缺失日期当天的数据。

例如:这是我们处理后得到的累计病例数据,如下图所示:

image.png

其中缺少保定市1 月 27 日的病例数据, 因为在原始数据表 城市疫情中没有 1 月 26 、 27 号这两天的数据,即 这两天的病例并无变化 ,新增 确诊 、治愈、

死亡均为 0 。

因此使用往前最近的1 月 25 号的累计病例数据作为 1 月 27 号的累计病例数据。

若要使用某个区域的缺失日期的累计病例数据,而该区域的首次通报病例日期晚于该缺失日期,则当缺失日期的累计病例数据均为 0 。


点击阅读原文