数据风控的探索实践:机器学习识别欺诈

By tecdat7月 26, 2017大数据部落, 数理统计, 机器学习, 经济, 计算机科学与技术, 金融机器学习, 欺诈, 风控

在信息爆炸时代，“信用”已成为越来越重要的无形财产。

由Kaizong Ye，Coin Ge和Weilong Zhang撰写

数据风控“的实际意义是用DT（Data Technology）识别欺诈，将欺诈防患于未然，然后净化信用体系。

可下载资源

完整程序、数据和文档（word）

挑战

信贷风险和欺诈风险是消费金融业务发展中最重要的两种风险，信息不对称是导致这些风险的主要原因。

“ 数据防欺诈”是数据风控武器之一。这种武器的力量的重要保证是数据和信息收集的完整性和准确性。通过这些有价值的数据，找到欺诈者留下的线索，以防止发生欺诈。

× 与传统金融不同，互联网金融业务大多发生在线上，往往几秒钟就完成审核、申请、放款等，面临的欺诈风险也是前所未有的。据统计，我国网络犯罪导致的损失占GDP0.63%，一年损失金额高达4000多亿人民币。国际上的情况也不乐观，多份市场研究报告指出，仅2016年一年，全球信用卡、借记卡、预付卡和私有品牌支付卡损失就高达163.1亿美元；每年保险欺诈(不包括健康险)损失总额预计超过400亿美元。

“随着技术不断演进，针对金融业的攻击、欺诈手段已不同以往。团伙作案、分工明确、掌握各种先进技术工具、不断变化攻击手段，全新挑战使得金融企业越来越难以招架。”金融反欺诈期待创新已成业内共识。

“无监督机器学习是近年才发展起来的反欺诈手法。目前国内反欺诈金融服务主要是应用黑白名单、有监督学习和无监督机器学习的方法来实现。”

黑白名单被认为是最原始的反欺诈方式，类似于“筛选器”。如银行征信系统就可理解成一个黑白名单，信用卡多次逾期还款就可能被列入信贷“黑名单”；在淘宝上购买了退货险后屡屡退货，就可能上骗保“黑名单”。黑白名单是所有反欺诈方法中最简单的，但也是更新最慢、成本最高的。

能将异常用户一网打尽

有监督学习需要大量有标签数据来训练模型，以此来预测还未被标注的数据。以垃圾邮件为例，假如把5000封已由人工确认过的垃圾邮件输入到模型，模型通过对标题的识别、邮件内容句子的分割、关键词的识别等各种分析方法，找到其中的内在关系。如标题中有“福利”二字的，有90%的可能性是垃圾邮件；一次性发送超过200封的，有60%的可能性是垃圾邮件；回复率低于10%的，有70%的可能性是垃圾邮件……于是，当模型处理一封新邮件时，通过检测以上各子项，并对每一子项乘以百分比后相加，就能得出垃圾邮件的可能性。但有监督学习的弊端是，每个模型都需要大量训练数据以及较长的训练时间。

“可能你的模型还没有训练好，欺诈分子已经完成欺诈活动并寻找下个目标了。”

无监督机器学习主要方式有聚类和图形分析。无监督无需任何训练数据和标签，通过聚类等机器学习算法模型发现用户的共性行为，以及用户和用户的关系来检测欺诈。“通过无监督机器学习分析用户的共性行为，可以发现伪装过的异常用户，将其一网打尽。”

实施过程

用户立体化呈现——多维数据采集

深入分析用户的基本属性、社会属性、消费者行为、兴趣偏好、社会偏好、资产特征、信用特征等数据，通过数据挖掘，使用户更加立体化地实时呈现。

挖掘潜在的团伙欺诈——社区发现算法

一方面，基于机构的存量数据，运营商等数据构建复杂的网络。同时，采用社区挖掘算法实现风险分组。在此基础上，我们训练机器学习模型。

课程

R语言数据分析挖掘必知必会

从数据获取和清理开始，有目的的进行探索性分析与可视化。让数据从生涩的资料，摇身成为有温度的故事。

立即参加 ➜

建模的原材料 —— 特征工程

建模的第一步是特征工程，众所周知，特征是机器学习建模的原材料，对最终模型的影响至关重要。数据和特征比模型更重要，数据和特征决定了机器学习的上限，而模型和算法逼近这个上限。特征加工和衍生工作越完备，那么构建的机器学习模型效果越好。但是，面对不同数据，不同业务场景，特征加工衍生往往是最耗时间与资源的工作。

尤其在弱数据方面，充斥着大量文本、时序类数据，人工特征定义的方法天然存在较大局限性。

tecdat引入基于机器学习的特征提取框架（如 random forest，SVM，CNN）来适应不同的数据类型，自动从大量复杂的非结构化数据中产生高质量的特征，完成模型训练后可以输出特征的重要性，结合多种方法进行特征选择和解释。

和而不同——集成模型

具体的模型，我们知道在弱势数据的基础上加工和衍生的特点，机构往往面临很多特征维度，从数千到数万以上，非常稀疏。超出了传统风控的基于评分卡系统的建模能力。

最受欢迎的见解

1.采用spss-modeler的web复杂网络对所有腧穴进行分析

2.用R语言和python进行社交网络中的社区检测

3.R语言文本挖掘NASA数据网络分析，tf-idf和主题建模

4.在R语言中使用航空公司复杂网络对疫情进行建模

5.python隶属关系图模型基于模型的网络中密集重叠社区检测

6.使用Python和SAS Viya分析社交网络

7.关联网络分析：已迁离北京外来人口的数据画像

8.情感语义网络：游记数据感知旅游目的地形象

9.用关联规则数据挖掘探索药物配伍中的规律

tecdat引入集成模型(ensemble models)来解决这个问题。集成模型从“投票”的思想简单的理解，也就是我们对不同类型的数据使用最合适的子模型（Logistic回归，GBDT，CNN，xgboost）, 然后每个子模式投票作出决策。

能够使整体模型的准确度和防止过拟合的能力达到协调，从而达到在总体上的最佳准确度。

复杂的集成模式框架除了当前场景和业务建模具有很好的表现，其另一个重要价值在于可以快速应用于新业务应用，对“冷启动“阶段有非常重要的作用。

结果/效果总结

最后，在线上信用贷场景实践下来，经过多批次多个跨时间段的验证，可以看到，效果上还是有非常直接的提升，模型性能相比传统模型提升了大约30%。

可下载资源

关于作者

Kaizong Ye是拓端研究室（TRL）的研究员。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

非常感谢您阅读本文，如需帮助请联系我们！

相关文章

拓端AI助手