matlab用高斯曲线拟合模型分析疫情数据

本文用matlab分析COVID-19数据集。

由Kaizong Ye,Sherry Deng撰写

我们检查解压缩的文件。包含:


  • data.csv -2020年各省/州的全球病例每日水平数据
  • confirmed.csv-确诊病例的时间序列数据
  • deaths.csv-死亡人数的时间序列数据
  • recovered.csv-康复人数的时间序列数据

地图上可视化

我们在地图上可视化已确诊病例的数量。我们首先加载纬度和经度变量。

数据集包含“省/州”变量,但我们要在“国家/地区”等级汇总数据。在此之前,我们需要稍微整理一下数据。

现在,我们可以使用  groupsummary  将已确认的案例相加并平均经纬度来按国家/地区汇总数据。

输出中包含不必要的列,例如纬度和经度的总和。我们删除这些变量。


热门课程

R语言数据分析挖掘必知必会

面对扑面而来的数据浪潮,包含Google、Facebook等国际企业,都已采用R语言进行数据分析

探索课程

让我们使用  geobubble  可视化数据集中的第一个和最后一个日期数据。

值得注意的是,我们早在2020年1月22日就已经在美国确认了病例。

美国确诊病例

进入美国的省/州级别。

可以看到它始于华盛顿,并在加利福尼亚和纽约爆发了大规模疫情。

按确诊病例排名国家/地区

让我们使用covid_19_data.csv比较按国家/地区确认的病例数。日期时间格式中存在不一致之处,因此我们一开始会将其视为文本。

清理日期时间格式。

我们还需要标准化“国家/地区”中的值。


R语言:EM算法和高斯混合模型的实现

阅读文章


数据集包含省/州变量。让我们在“国家/地区”级别汇总数据。

countryData包含每日累积数据。我们只需要最新的数字。

确认病例按国家/地区的增长

我们还可以检查这些国家中病例的增长速度。

尽管韩国显示出增长放缓的迹象,但它在其他地方正在加速发展。

按国家/地区划分的新病例增长

我们可以通过减去两个日期之间已确认病例的累计数量来计算新病例的数量。

您可以看到,中国和韩国没有很多新病例。可见,已经遏制住了疫情。

中国

由于中国的感染速度正在放缓,我们来看看仍有多少活跃病例。您可以通过从确诊病例中减去恢复病例和死亡来计算活跃病例。

拟合曲线

有效案例的数量正在下降,曲线看起来大致为高斯曲线。我们可以拟合高斯模型并预测活动案例何时为零吗?

我使用  曲线拟合工具箱  进行高斯拟合

让我们通过增加20天来将输出预测。

现在我们对结果进行绘制。

韩国

让我们来查看韩国的活跃病例,恢复案例和死亡人数。

使用高斯模型无法获得任何合适的结果。


可下载资源

关于作者

Kaizong Ye拓端研究室(TRL)的研究员。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

​非常感谢您阅读本文,如需帮助请联系我们!

 
QQ在线咨询
售前咨询热线
15121130882
售后咨询热线
0571-63341498