数据挖掘技术在跨区域犯罪预警中的研究与应用尚处于起步阶段，许多跨区域犯罪预警业务信息系统还停留在初级处理水平，缺乏综合性的开发应用，智能化的分析研判，科学性的决策预警。

缺乏对数据由微观到宏观的加工能力，由宏观数据到微观数据的问题发现手段。

由Kaizong Ye，Weilong Zhang撰写

如何利用数据挖掘技术挖掘和提取潜藏在大量业务数据中具备关联性的规律趋势，提高跨区域犯罪预警执法效率与快速反应能力、及时预防和打击犯罪行为，为警务决策提供支持服务，是本文研究的重点。数据挖掘技术在警务工作中的应用已经越来越广泛，特别是在挖掘和提取潜藏在大量业务数据中具备关联性的规律趋势方面，具有显著的优势。这些技术能够辅助警方提高跨区域犯罪预警执法效率与快速反应能力，从而更有效地预防和打击犯罪行为。

可下载资源

完整程序、数据和文档（word）

作者

Kaizong Ye
✉ 联系我们

在结合公安犯罪行为分析实际的基础上，进行了基于决策树算法的犯罪行为分析原型系统设计，提出了功能需求与系统流程图，介绍了原型系统模块构成和实现。

× 主成分分析( PCA ) 使我们能够总结和可视化数据集中的信息，特别是当数据集中包含由多个相互关联的定量变量描述的个体/观察结果时。每个变量都可以被视为不同的维度。如果数据集中有超过3个变量，则可视化多维超空间可能会非常困难。主成分分析用于从多元数据表中提取重要信息，并将这些信息表示为一组称为主成分的新变量。这些新变量对应于原始变量的线性组合。主成分的数量小于或等于原始变量的数量。总变异在给定的数据集中的信息与其包含的信息相对应。 PCA的目标是识别数据变化最大的方向（或主成分）。换句话说，PCA将多变量数据的维数减少到两个或三个主成分，可以以图形方式可视化，同时将信息损失降至最低。

分析表明：运用数据挖掘技术对公安信息数据库中的海量数据进行挖掘处理，发现趋势规律，从而快速准确的辅助警务决策，在跨区域犯罪预警中具有重要的现实意义。

数据准备

本文使用社区与犯罪相关数据，其结合了人口普查的社会经济数据。通过相关的数据，我们将进行数据分析，得到想要的结果。

社区犯罪本身与许多因素有关，Communities也提供了很多相关数据。因为数据有所缺失，在使用前我们进行了相关处理。

首先，我们取ViolentCrimesPerPop（total number ofviolent crimes per 100K popuation）作为因变量，与这些影响元素做回归分析，发现拟合的效果很差，而且结果也难以解读。

视频

从决策树到随机森林：R语言信用卡违约分析信贷数据实例

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

视频

决策树模型原理和R语言预测心脏病实例

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

视频

主成分分析PCA降维方法和R语言分析葡萄酒可视化实例

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

跨区域犯罪预警模型的建立

在结合公安犯罪行为分析实际的基础上，进行了基于决策树算法的犯罪行为分析原型系统设计与实验，提出了功能需求与系统流程图，介绍了原型系统模块构成和实现。实验及分析表明：运用数据挖掘技术对公安信息数据库中的海量数据进行挖掘处理，发现趋势规律，从而快速准确的辅助警务决策，在跨区域犯罪中具有重要的现实意义。

建立模型和评估优化

接下来我们通过画图来观察部分系数检验效果很好的变量

采用主成分分析降维

看图screeplot,考虑前6个主成分

可以看到检验效果还不错,再进一步观察：

观察图predict.jpg可以看到总体趋势确实接近,但是无法再进一步作更精确的预测,因而转向其他方法

建立模型和优化

接下来，我们用决策树对communities分类

并找出那些对ViolentCrimesPerPop最有影响的因素

最受欢迎的见解

1.R语言多元Logistic逻辑回归应用案例

2.面板平滑转移回归(PSTR)分析案例实现

3.matlab中的偏最小二乘回归（PLSR）和主成分回归（PCR）

4.R语言泊松Poisson回归模型分析案例

5.R语言回归中的Hosmer-Lemeshow拟合优度检验

6.r语言中对LASSO回归，Ridge岭回归和Elastic Net模型实现

7.在R语言中实现Logistic逻辑回归

8.python用线性回归预测股票价格

9.R语言如何在生存分析与Cox回归中计算IDI，NRI指标


summary(D$ViolentCrimesPerPop)

R语言惩罚逻辑回归、线性判别分析LDA、广义加性模型GAM、多元自适应回归样条MARS、KNN、二次判别分析QDA、决策树、随机森林、支持向量机SVM分类优质劣质葡萄酒十折交叉验证和ROC可视化

阅读文章 ➜

按1st Qu,3rd Qu划分,将社区评级为Good,Medium,Bad

plot(rp) text(rp)

随时关注您喜欢的主题

可以看到,决策树的主要的分类节点为

PctKids2Par: percentage of kids in familyhousing with two parents

HousVacant: number of vacant households

pctWInvInc: percentage of households withinvestment / rent income in 1989

OwnOccHiQuart: owner occupied housing -upper quartile value

NumIlleg: number of kids born to nevermarried

racePctWhite: percentage of population thatis caucasian

PersPerOccupHous: mean persons perhousehold

MalePctDivorce: percentage of males who aredivorced

使用决策树对communities进行分类并找出对ViolentCrimesPerPop（每人口的暴力犯罪数）最有影响的因素是一个很好的分析策略。决策树通过递归地将数据集分割成更小的、更纯的子集来工作，每个分割点都基于一个特定的特征值。

在给出的特征中对犯罪数有影响的因素有：

PctKids2Par：家庭住房中双亲家庭的孩子百分比
HousVacant：空置户数的数量
pctWInvInc：1989年拥有投资/租金收入的户数的百分比
OwnOccHiQuart：业主自住房的上四分位数价值
NumIlleg：从未结婚的孩子的数量
racePctWhite：白种人人口的百分比
PersPerOccupHous：每户平均人数
MalePctDivorce：离婚的男性百分比

模型发布和模型应用

·OwnOccHiQuart

函数关系不明确。但是大多数的点集中在左下角,正相关

·NumIlleg

·racePctWhite

函数关系不明确。但是大多数的点集中在右下角,负相关

预警模型的验证

我们对模型进行检测

 pre=predict(rp,A) for(i in 1:3){ for (j in 1:1994) if (pre[j,i]>=pre[j,1] &&pre[j,i]>

决策树分类效果不错,准确率大概0.742。可以预见,如果用组合算法的话,准确率会很高。

下面，我们将一半的数据用于训练。



boost(Rank~.,data=A[1:1000,])

准确率约为0.860。

存在问题和相关建议

尽管开展了基于犯罪行为分析的决策树原型系统的设计，但还有许多不足之处，如数据表中的离散化数据缺少一定的灵活性，不能够完全反映复杂类型数据的信息，需要进一步改进；其次数据是基于内存而不是磁盘或磁盘组，也未能实现动态的加载数据，另外程序还有待于进一步优化以提高程序运行速度。

可下载资源

关于作者

Kaizong Ye是拓端研究室（TRL）的研究员。在此对他对本文所作的贡献表示诚挚感谢，他在上海财经大学完成了统计学专业的硕士学位，专注人工智能领域。擅长Python.Matlab仿真、视觉处理、神经网络、数据分析。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

非常感谢您阅读本文，如需帮助请联系我们！

R语言主成分PCA、决策树、boost预警模型数据挖掘在跨区域犯罪研究分析

数据挖掘技术在跨区域犯罪预警中的研究与应用尚处于起步阶段，许多跨区域犯罪预警业务信息系统还停留在初级处理水平，缺乏综合性的开发应用，智能化的分析研判，科学性的决策预警。

数据准备

跨区域犯罪预警模型的建立

建立模型和评估优化

采用主成分分析降维

建立模型和优化

R语言惩罚逻辑回归、线性判别分析LDA、广义加性模型GAM、多元自适应回归样条MARS、KNN、二次判别分析QDA、决策树、随机森林、支持向量机SVM分类优质劣质葡萄酒十折交叉验证和ROC可视化

随时关注您喜欢的主题

模型发布和模型应用

预警模型的验证

存在问题和相关建议

相关文章

R语言主成分PCA、决策树、boost预警模型数据挖掘在跨区域犯罪研究分析

数据挖掘技术在跨区域犯罪预警中的研究与应用尚处于起步阶段，许多跨区域犯罪预警业务信息系统还停留在初级处理水平，缺乏综合性的开发应用，智能化的分析研判，科学性的决策预警。

数据准备

跨区域犯罪预警模型的建立

建立模型和评估优化

采用主成分分析降维

建立模型和优化

R语言惩罚逻辑回归、线性判别分析LDA、广义加性模型GAM、多元自适应回归样条MARS、KNN、二次判别分析QDA、决策树、随机森林、支持向量机SVM分类优质劣质葡萄酒十折交叉验证和ROC可视化

随时关注您喜欢的主题

模型发布和模型应用

预警模型的验证

存在问题和相关建议

相关文章

关注我们，永远不要错过任何见解。