R语言建模收入不平等:分布函数拟合及洛伦兹曲线(Lorenz curve)

洛伦兹曲线来源于经济学,用于描述社会收入不均衡的现象。

将收入降序排列,分别计算收入和人口的累积比例。

由Kaizong Ye,Weilong Zhang撰写

本文,我们研究收入和不平等。我们从一些模拟数据开始

为什么说这个样本中存在不平等?如果我们看一下最贫穷者拥有的财富,最贫穷的人(五分之一)拥有5%的财富;倒数五分之二拥有11%,依此类推

如果我们绘制这些值,就会得到 洛伦兹曲线

现在,如果我们得到500个观测值。直方图是可视化这些数据分布的方法

在这里,我们使用直方图将样本可视化。但不是收入,而是收入的对数(由于某些离群值,我们无法在直方图上可视化)。现在,可以计算 基尼系数 以获得有关不平等的一些信息

还包括了一条具有高斯分布的蓝线,

另一个流行的方法是帕累托图(Pareto plot),我们在其中绘制了累积生存函数的对数与收入的对数,


R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测

阅读文章


如果点在一条直线上,则意味着可以使用帕累托分布来建模收入。

前面我们已经看到了如何获得洛伦兹曲线。实际上,也可以针对某些参数分布(例如,一些对数正态分布)获得Lorenz曲线,


随时关注您喜欢的主题


在这里, 对数正态分布是一个很好的选择。帕累托分布也许不是:

实际上,可以拟合一些参数分布。

现在,考虑两种分布,伽马分布和对数正态分布(适用于极大似然方法)

我们可以可视化密度

在这里,对数正态似乎是一个不错的选择。我们还可以绘制累积分布函数

现在,考虑一些更现实的情况,在这种情况下,我们没有来自调查的样本,但对数据进行了合并,

对数据进行建模,

我们可以拟合对数正态分布(有关该方法的更多详细信息,请参见 从合并收入估算不平等 的方法)

在此,在直方图上(由于已对数据进行分箱,因此很自然地绘制直方图),我们可以看到拟合的对数正态分布很好。

对于累积分布函数,我考虑了最坏的情况(每个人都处于较低的收入中)和最好的情况(每个人都具有最高可能的收入)。

也可以拟合广义beta分布

为了获得最佳模型,查看

结果很好,接下来看下真实数据:

同样,我尝试拟合对数正态分布

但是在这里,拟合度很差。同样,我们可以估算广义beta分布

可以得到基尼指数,  AIC 和BIC

看到最好的分布似乎是 广义伽玛分布。


可下载资源

关于作者

Kaizong Ye拓端研究室(TRL)的研究员。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

​非常感谢您阅读本文,如需帮助请联系我们!

 
QQ在线咨询
售前咨询热线
15121130882
售后咨询热线
0571-63341498