R语言逻辑回归分析连续变量和分类变量之间的“相关性“

比如说分类变量为是否幸存、是因变量,连续变量为年龄、是自变量,这两者可以做相关分析吗?两者又是否可以做回归分析?

我们考虑泰坦尼克号数据集,考虑两个变量,年龄x(连续变量)和幸存者指标y(分类变量)

由Kaizong Ye,Liao Bao撰写

考虑泰坦尼克号数据集,

 考虑两个变量,年龄x(连续变量)和幸存者指标y(分类变量)

 年龄可能是逻辑回归中的有效解释变量,

此处的显着性检验的p值略低于4%。

 实际上,可以将其与偏差值(零偏差和残差)相关联。


热门课程

R语言数据分析挖掘必知必会

面对扑面而来的数据浪潮,包含Google、Facebook等国际企业,都已采用R语言进行数据分析

探索课程

在x没有影响的假设下,D_0趋于具有1个自由度的χ2分布。我们可以计算似然比检验的p值自由度,

 与高斯检验一致。但是如果我们考虑非线性变换

Age的p值更小,似乎“更重要”

为了可视化非零相关性,可以考虑给定y = 1时x的条件分布,并将其与给定y = 0时x的条件分布进行比较,

 即p值大于10%时,两个分布没有显着差异。

我们可以查看密度

另一种方法是离散化变量x并使用Pearson的独立性检验,

 p值在此处为7%,分为年龄的五个类别。实际上,我们可以比较p值

只要我们有足够的类别,P值就会接近5%。实际上年龄在试图预测乘客是否幸存时是一个重要的变量。


可下载资源

关于作者

Kaizong Ye拓端研究室(TRL)的研究员。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

​非常感谢您阅读本文,如需帮助请联系我们!

 
QQ在线咨询
售前咨询热线
15121130882
售后咨询热线
0571-63341498