“
针对当前生产和生活中面临的安全事故问题,利用当前发展迅速的DM(Data Mining)技术,通过对事故信息的多维度分析,实现监测系统的事故预测,提高了监测系统的性能,形成安全预警机制。
▼
事故预测需要获取有意义和可靠的信息,大量原始信息流必须在危机期间进行分析和处理。
基于以上背景,tecdat研究人员重点关注事故情报数据的收集并分析相关信息,通过对时间、地点、语义等不同维度的分析得到有价值的信息,并且尝试通过机器学习方法对事故发生进行预测。
▍时间维度事故分析
通过时间维度(日期和时间)的事故分析,我们可以洞察到不同类型的事故发生的高峰时间和高发月份,从而进行有效预防。
通过对结果的可视化,可以发现不同时间和月份的事故发生率有一定的差异,因此在后续的预测模型中可以构建相应的时间伪变量从而提高精度。
▍不同事故类型
通过对所有事故数据类型的占比分析,我们可以发现出行的事故发生率是最高的,也远远高于其他类型,其次是触电事故等。(注:部分事故重属多个类型)
▍事故报告语义分析
通过对事故报告的语义分析,我们可以发现报告中频繁出现的关键词,从中洞察到某类事故发生后通常会关联到哪些关键词,分析其背后的原因,从而进行有效的预防。
▍安全事故预测模型
在获得事故的不同维度基本特征之后,我们通过SVM算法使用这些特征来预测不同类型的事故发生的可能性,采取有针对性的措施,避免未知事故发生带来的损失,达到补救的效果。
▍技术
SVM(Support Vector Machine)用于构建、验证和测试数据集的模型。
在Spark / MLLib / Scikit-Learn / HDFS中重构实现处理较大的数据集。
▍结果
模型预测精度精度达到82.5%。