使用线性模型、回归决策树自动组合特征因子水平

每次我们在应用计量经济学课程中遇到实际应用时,我们都要处理类别变量。

学生也提出了同样的问题:我们如何自动组合因子水平?有简单的R函数吗?

因此我想编写一个R函数。为了说明这一点,请考虑以下内容

没有定义一个(连续的)因变量,没有定义一个连续的协变量,也没有定义一个分类变量,此处有十个级别。我们可以使用


热门课程

R语言数据分析挖掘必知必会

面对扑面而来的数据浪潮,包含Google、Facebook等国际企业,都已采用R语言进行数据分析

探索课程

线性回归的输出得出以下预测

斜率是相同的,我们只需为每个级别添加一个不同的常数。如我们所见,某些级别非常接近,因此将它们组合为一个类别。这是线性回归的输出,

这里的参考类别是“ I”。看起来我们实际上可以将该类别与其他几个类别结合起来。这里的一种策略是选择似乎没有显着差异的所有类别,然后运行(多个)测试

我们可以将这四个类别结合在一起。

我们看到更改参考类别时的情况(在所有类别上循环)

我们看到它是对称的:如果将“ H”与“ I”组合,则“ I”也应与“ H”组合。

我们可以手动预定义一些顺序

我们得到

我们已经合并了类别。

实际上,可以使用其他策略。我们从某个级别开始,说“ A”。然后,我们将其与所有不显着不同的级别合并。如果“ B”不是其中之一,我们将其用作新参考。

最后的类别是

有以下回归输出

这与我们之前得到的组一致。但是,如果我们更改顺序,我们可以得到不同的组合。例如,如果我们从“ J”到“ A”,而不是从“ A”到“ J”,我们得到

这里有不同的信息标准

最后但重要的一点是,可以使用回归树。问题是还有另一个可能相互干扰的解释变量。所以我建议(1)拟合线性模型,计算残差(2)运行回归树,解释未定义分类变量

观察叶子与我们得到的叶子具有相同的组。

我想有可能改善回归的水平组合。


可下载资源

​非常感谢您阅读本文,如需帮助请联系我们!


关于作者

Kaizong Ye拓端研究室(TRL)的研究员。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。


 
QQ在线咨询
售前咨询热线
15121130882
售后咨询热线
0571-63341498