函数型数据分析部分省市新冠疫情数据

By tecdat9月 19, 2022大数据部落, 数理统计, 计算机科学与技术函数型, 新冠, 疫情

统计学中传统的数据类型有截面数据和时间序列数据。

这两者都只能在某一纵向或横向上探究数据，且部分前提条件又很难满足。

由Mingji Tang撰写

而函数型数据连续型函数与离散型函数长期以来的分离状态，实现了离散和连续的过度。

× 大数据时代，很多数据在多个时间或者空间点被观测记录。这些复杂数据可以看成关于时间或者空间的函数，在统计学上称之为函数型数据。相较于传统的数据分析(如多元统计分析)，函数型数据分析将动态函数曲线作为“原始数据”，具备无限维的空间特征，从而放松对数据采集频率的要求，具有更强的普适性。同时通过函数型数据特有的方法，如函数型主成分分析(FPCA)，可以识别高维数据更深层级的动态演化规律，剖析复杂数据下的本质特征，获得更合理、更直观的数据解释。这次报告我会接合实际应用，具体介绍函数型数据分析的里的两种主要方法：函数型主成分分析和函数型线性模型。

它很少依赖于模型构建及假设条件。通过使用函数型数据，我们可以发掘新冠疫情数据中更多的信息。

一、数据的收集与整理

选择人口流动较大的北京、上海、广东，以及与武汉相邻的重庆、湖南、江西、安徽、河南，一共八个省级行政区的确诊人数变化数据作为样本。

考虑到各省市人口数量差异较大，使用确诊人数和总人数的比例作为数据研究对象更加合理。

Mingji Tang

最受欢迎的见解

1.R语言结合新冠疫情COVID-19股票价格预测：ARIMA，KNN和神经网络时间序列

2.Python用RNN循环神经网络：LSTM长期记忆、GRU门循环单元、回归和ARIMA对COVID-19新冠疫情新增人数

3.MATLAB用高斯曲线拟合模型分析疫情

4.疫情下的新闻数据观察

5.MATLAB用高斯曲线拟合模型分析疫情

6.在R语言中使用航空公司复杂网络对疫情进行建模

7.R软件SIR模型网络结构扩散过程模拟

8.R语言和Stan,JAGS：用rstan,rjag建立多元贝叶斯线性回归预测选举

9.R语言和JAGS：用rjag建立多元贝叶斯线性回归预测选举

二、建立函数型数据对象

采用B样条基线性函数拟合离散的数据。使用最小二乘法得到系数。

然后通过粗糙惩罚来提高函数的光滑性。设置惩罚项为。

视频

主成分分析PCA降维方法和R语言分析葡萄酒可视化实例

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

则新的需要最小化的式子为：

可以得到光滑化之后的函数型数据。

三、函数型数据描述

得到数据之后可以计算数据的均值，方差，协方差，以及研究二次导数和导数的关系可以得到相位图。

四、函数型数据主成分分析

模仿传统数据的主成分分析，可以找到离散型数据的主成分分析方法。权函数满足

某一数据关于这个权函数的得分记为

我们寻找第一个权函数为

后面的权函数为

且

项目结果

Python用RNN循环神经网络：LSTM长期记忆、GRU门循环单元、回归和ARIMA对COVID-19新冠疫情新增人数时间序列预测

阅读文章 ➜

随时关注您喜欢的主题

以上分别为函数型数据的均值，方差，协方差以及相位图。（其中粗线部分是由均值绘制的相位图。）疫情的发展可以看作一个由平稳态逐渐发展为不平稳态，最后再回到平稳态的过程。相位图中，我们通常把加速度称为势能，而把速度称为动能。在第一象限阶段，病毒的传播自身的传播力度为主要势能，人们的防疫措施尚未建立完全，因此势能为正，不断转化为动能；在第12天左右的位置，势能由正变成负，函数的凹凸性发生了变化，也就是说人们的防疫管控力度已经成为了主要势能，疫情的传播达到了拐点，增长速度得到了控制；在第22天左右的位置，动能由正变成负，函数的单调性发生了变化，疫情的传播达到了极值点，感染人数从增长变为了减少；轨迹进入三四象限之后，疫情就逐渐缓解，当感染人数逐渐接近0的时候，减少的速度也会逐渐放缓，也就是加速度会回到一个较小的正值，最终当动能回到0时，也就意味着疫情的基本结束。

以上为前两个主成分，并可以绘制二维的主成分得分图。可以看到前两个主成分包含的数据信息已经超过了92%。

可以看到，从横坐标来看，右侧的北京，重庆，江西三省市的第一主成分得分较高，也就意味着和第一主成分函数正向吻合，在中期的值较大，即疫情巅峰时期的感染人口比例较大；反之，河南，广东，湖南，上海四省市第一主成分得分较低，疫情巅峰时期感染人口比例较小。再观察纵坐标，主要反映了后期即3月之后的疫情感染人口比例，可以发现北京，广东两地仍处于较高的水平，这也与两地人口密度大，人口流量大有关。而广西，安徽等地感染人口比例已经基本趋于0。

关于作者

Mingji Tang

在此对Mingji Tang对本文所作的贡献表示诚挚感谢，他专长时间序列、机器学习、回归分析。

相关文章

售前咨询热线

15121130882

售后咨询热线

0571-63341498