R语言多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用

通常,我们在回归模型中一直说的一句话是“ 请查看一下数据 ”。

上一篇文章中,我们没有查看数据。如果我们查看单个损失的分布,那么在数据集中,我们会看到以下内容:


This image has an empty alt attribute; its file name is image.png

专栏

精算科学

关于结合数学、统计方法以及程序语言对经济活动来做风险分析、评估的见解。

探索专栏

看来我们的数据库中有固定成本索赔。在标准情况下,我们如何处理?我们可以在这里使用混合分布,

  • 小额索赔的分布https://latex.codecogs.com/gif.latex?{\color{Blue}%20f_1(}\cdot{\color{Blue}%20)}​,例如指数分布
  • 狄拉克分布https://latex.codecogs.com/gif.latex?{\color{Magenta}%20\kappa}​,即https://latex.codecogs.com/gif.latex?{\color{Magenta}%20\delta_{\kappa}(}\cdot{\color{Magenta}%20)}
  • 分布https://latex.codecogs.com/gif.latex?{\color{Red}%20f_3(}\cdot{\color{Red}%20)}​,例如Gamma分布或对数正态分布

上一篇文章中,我们讨论了所有参数可能与某些协变量相关的想法,即

https://latex.codecogs.com/gif.latex?f(y | \ boldsymbol {X})%20 =%20p_1(\ boldsymbol {X})%20 {\ color {Blue}%20f_1(} y | \ boldsymbol {X} {\ color {Blue}%20)}%20 +%20p_2(\ boldsymbol {X})%20 {\ color {Magenta}%20 \ delta _ {\ kappa}(} y {\ color {洋红色}%20)}%20 +%20p_3(\ boldsymbol {X})%20 {\ color {Red}%20f_3(} y | \ boldsymbol {X} {\ color {Red}%20)}

产生以下模型,

对于概率,我们应该使用多项式模型。回忆一下逻辑回归模型,如果https://latex.codecogs.com/gif.latex?(\pi,1-\pi)=(\pi_1,\pi_2)​,则

同样,可以使用最大似然,因为

在这里,变量https://latex.codecogs.com/gif.latex?Y_{i}​  (分为三个级别)分为三个指标(就像标准回归模型中的任何分类解释变量一样)。从而,

https://latex.codecogs.com/gif.latex?\log%20\mathcal{L}(\boldsymbol{\beta},\boldsymbol{y})\propto%20\sum_{i=1}^n %20 \ sum_ {j = 1} ^ 2%20 \ left(Y_ {i,j}%20 \ boldsymbol {X} _i%27 \ boldsymbol {\ beta} _j \ right)%20-%20n_i \ log \左[1 + 1 + \ exp(\ boldsymbol {X}%27 \ boldsymbol {\ beta} _1)+ \ exp(\ boldsymbol {X}%27 \ boldsymbol {\ beta} _2)\ right]

对于逻辑回归,然后使用牛顿拉夫森(Newton Raphson)算法在数值上计算最大似然。在R中,首先我们必须定义级别,例如

然后,我们可以定义一个多分类logistic模型回归

使用一些选定的协变量

输出在这里

为了可视化协变量的影响,还可以使用样条函数

例如,如果协变量是汽车的寿命,那么我们有以下概率

对于0到20岁的所有年龄段,

例如,对于新车,固定成本所占的比例很小(在这里为紫色),并且随着车龄的增长而不断增加。如果协变量是驾驶员居住地区的人口密度,那么我们获得以下概率

基于这些概率,可以在给定一些协变量(例如密度)的情况下得出索赔的预期成本。但首先,定义整个数据集的子集

阈值由

然后,让我们运行四个模型,

现在,我们可以基于这些模型计算预测,

为了可视化每个组成部分对溢价的影响,我们可以计算概率,预期成本(给定每个子集的成本),

现在,可以将这些数字绘制在图形中,

(水平虚线在我们的数据集中是索赔的平均费用)。


可下载资源

​非常感谢您阅读本文,如需帮助请联系我们!


关于作者

Kaizong Ye拓端研究室(TRL)的研究员。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。


随时关注您喜欢的主题

在wechat上关注我们

最新洞察

技术干货

Leave A Reply

电子邮件地址不会被公开。

 
QQ在线咨询
售前咨询热线
15121130882
售后咨询热线
0571-63341498