在本文中，我解释了基本回归，并介绍了主成分分析 (PCA) 使用回归来预测城市中观察到的犯罪率。

由Kaizong Ye，Liao Bao撰写

我还应用 PCA 创建了一个回归模型，用于使用前几个主成分对相同的犯罪数据进行建模。最后，我对两种模型的结果进行了比较，看看哪个表现更好。

回归有助于显示因素和因变量之间的关系，它基本上回答了两种类型的问题；1. 吸烟对癌症的影响 2. 未来会发生什么？（例如）三年后的油价。

在响应变量Y与p个解释变量的回归模型中，当解释变量间具有较强的多重共线性时，利用经典的回归方法求回归系数的最小二乘估计，一般效果较差。主成份回归的主要思想是首先通过主成分分析来精简变量，将多个相关的原始变量指标转化为几个独立的综合指标，然后将其作为主成分的观测值，并建立回归模型，以简化回归方程的结构。

主成分回归可以解决变量间共线性的问题，但也给回归模型的解释带来一定的复杂性，因为主成分是原始变量的线性组合，不是直接观测的变量，其含义有时不明确。在求得主成分回归方程后，经常又适用逆变换将其变为原始变量的回归方程。当原始变量间有较强的多重共线性，其主成分又有特殊的含义时，采用主成分回归的效果往往较好。

数据

犯罪学家对惩罚制度对犯罪率的影响感兴趣。已使用汇总数据对此进行了研究。数据集包含以下列：

变量描述
M： 14-24岁的男性在总人口中的百分比
So：南方州的指标变量
Ed： 25岁或以上人口的平均受教育年限
Po1：年警察保护的人均支出
Po2：去年警察保护的人均支出
LF： 14-24岁年龄组的城市男性平民的劳动力参与率
M.F：每100名女性的男性人数
Pop：国家人口，以十万计
NW：非白人在人口中的百分比
U1： 14-24岁城市男性的失业率
U2：城市男性35-39岁的失业率
财富财富：可转让资产或家庭收入的中值
收入不平等：收入低于中位数一半的家庭的百分比
入狱概率：入狱人数与犯罪人数的比率
时间：罪犯在首次获释前在国家监狱中服刑的平均时间（月）。
犯罪：犯罪率：每10万人口中的犯罪数量

我们将数据集导入R环境

read("crim.txt")

检查变量是否正确

head(crim) #所有的变量都是预测因素，只有犯罪是因变量。

作者

Kaizong Ye
✉ 联系我们

可下载资源

完整程序、数据和文档（word）

最受欢迎的见解

1.R语言多元Logistic逻辑回归应用案例

2.面板平滑转移回归(PSTR)分析案例实现

3.matlab中的偏最小二乘回归（PLSR）和主成分回归（PCR）

4.R语言泊松Poisson回归模型分析案例

5.R语言混合效应逻辑回归Logistic模型分析肺癌

6.r语言中对LASSO回归，Ridge岭回归和Elastic Net模型实现

7.R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病

8.python用线性回归预测股票价格

9.R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测

视频

机器学习的交叉验证Cross Validation原理及R语言主成分PCA回归分析城市犯罪率

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

我们正在尝试使用整个数据集来构建回归模型来进行预测。创建简单的回归模型

summary(model)

使用数据框架来手动创建我们的数据点测试，然后在测试数据上运行一些预测。

primodl <- predict(mdl, test)

primodl

R语言用主成分PCA、逻辑回归、决策树、随机森林分析心脏病数据并高维可视化

阅读文章 ➜

输出值不到下一个最低城市的犯罪率的一半，所以我将创建第二个模型，观察它的输出并画出比较。

创建第二个模型

sumry(son_mel)

随时关注您喜欢的主题

我们现在可以对第二个模型进行预测了

pic\_secn\_mel<- prict(sed_odel, tst)

pic\_secn\_mel

与第一个模型相比，其结果明显更高。所以，它更合理。

交叉验证

我们可以做一个5折的交叉验证。

cv(se，m=5)

我们可以得到数据和其平均值之间的平方差的总和

 sum((Cm- mean(ui))^2)

我们可以得到模型1、模型2和交叉验证的平方残差之和

SSrl <- sum(res^2)

SSre <- sum(resi^2)

res <- "ms")*nrow

我们也可以计算出3个模型的R平方值

 1 -res/tot

1-res/SS

 1-res/SS

获得的R平方值表明我们的拟合质量很好。对于惩罚性回归，有必要对数据进行标准化，以确保所有的特征都受到同等的惩罚。但在线性回归的情况下，这其实并不重要。它将只是转移截距和系数，但相关关系保持不变。

PCA是一种用于描述变化的方法，显示数据集中的强相关性，从而使其易于探索和可视化数据。

PCA

PCA通过以下方式对数据进行转换：（1）去除数据中的相关关系（2）按重要性对坐标进行排序。

我们可以检查crime数据的预测变量之间的相关性。

pairs(srm,c("o",Ed"o"))

对数据集中的所有预测变量应用PCA。请注意，为了获得更准确的PCA结果，需要对这些变量进行标准化。

sumr(pca)
rotan #PCA旋转是特征向量的矩阵
pca

然后，我们可以通过绘制每个主成分的方差来决定在 “前几个 “主成分中使用多少个主成分。

plotpcaye ="ie")

要确定使用多少PC？我们可以尝试使用5个主成分作为开始。

pcax\[,1:5\]

使用前五个PC，我们可以继续建立一个线性回归模型。

 summary(mdPCA)

为了根据原始变量重建模型，首先我们从PCA线性回归模型中获得系数，之后通过使用主成分的特征向量将PCA成分系数转化为原始变量的系数。

PCA线性回归的系数

coefficients\[1\]
coefficients\[2:6\]

 beta0 #截距

转换

rot %*% beta

 t(alpha) # 标准化的数据系数

获得未标准化数据的系数。

 ahusl <- ahs / sppy(u\[,1:15\],sd)

 ba0cl <- ea0 - sum/sapply(sd))

未标准化数据的系数

 t(alas_sled)

 be0uced

#我们可以得到我们的未标准化数据的估计值

as.marx %*% unscle + beta0aled

最后，为了比较使用PCA的模型和使用回归的模型的质量，我们必须计算R-squared和调整后的R-squared，并将这些数值与前一个模型的数值进行比较。调整后的R平方考虑了模型中预测因子的数量。

 Rsquared <- 1 - SSE/SST # R-squared

使用所有变量的无PCA的先前线性回归模型

 summary(dlLR)

R-squared 和调整后的 R-squared 值都较高，这表明至少对于使用前五个主成分的模型，具有 PCA 的线性回归模型优于没有 PCA 的线性回归模型。为了检查使用不同数量的前 n 个主成分的线性回归模型是否产生了更好的拟合模型，我们可以使用循环并进一步进行交叉验证。

可下载资源

关于作者

Kaizong Ye是拓端研究室（TRL）的研究员。在此对他对本文所作的贡献表示诚挚感谢，他在上海财经大学完成了统计学专业的硕士学位，专注人工智能领域。擅长Python.Matlab仿真、视觉处理、神经网络、数据分析。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

非常感谢您阅读本文，如需帮助请联系我们！

R语言回归和主成分PCA 回归交叉验证分析预测城市犯罪率数据

在本文中，我解释了基本回归，并介绍了主成分分析 (PCA) 使用回归来预测城市中观察到的犯罪率。

数据

检查变量是否正确

R语言用主成分PCA、逻辑回归、决策树、随机森林分析心脏病数据并高维可视化

随时关注您喜欢的主题

交叉验证

我们可以得到数据和其平均值之间的平方差的总和

PCA是一种用于描述变化的方法，显示数据集中的强相关性，从而使其易于探索和可视化数据。

PCA

PCA线性回归的系数

未标准化数据的系数

相关文章

R语言回归和主成分PCA 回归交叉验证分析预测城市犯罪率数据

在本文中，我解释了基本回归，并介绍了主成分分析 (PCA) 使用回归来预测城市中观察到的犯罪率。

数据

检查变量是否正确

R语言用主成分PCA、 逻辑回归、决策树、随机森林分析心脏病数据并高维可视化

随时关注您喜欢的主题

交叉验证

我们可以得到数据和其平均值之间的平方差的总和

PCA是一种用于描述变化的方法，显示数据集中的强相关性，从而使其易于探索和可视化数据。

PCA

PCA线性回归的系数

未标准化数据的系数

相关文章

关注有关新文章的微信公众号

R语言用主成分PCA、逻辑回归、决策树、随机森林分析心脏病数据并高维可视化