在这篇文章中，我们将着重探讨高维数据下的机器学习应用，以房屋市场租金价格预测为例。

在实际生活中，房屋租金作为一个重要的经济指标，被广泛应用于城市规划、财务投资等方面的决策中。

由Junjun Li撰写

然而，如何准确地预测房屋租金价格却一直是一个具有挑战性的问题。

× Tibshirani(1996) 引入了 LASSO (Least Absolute Shrinkage and Selection Operator)模型，用于参数的选择和收缩。当我们分析大数据时，这个模型非常有用。在这篇文章中，我们学习如何使用R包glmnet 包建立LASSO 模型。这些回归模型被称为正则化或惩罚回归模型。Lasso可以用于变量数量较多的大数据集。传统的线性回归模型无法处理这类大数据。虽然线性回归估计器 (linear regression estimator)在偏-方差权衡关系方面是无偏估计器，但正则化或惩罚回归，如Lasso, Ridge承认一些减少方差的偏倚。这意味着后者的最小化问题有两个组成部分:均方误差(linear regression estimator)和惩罚参数()。Lasso的L1惩罚使变量选择和收缩成为可能，而Ridge的L2惩罚使变量收缩成为可能。

本文将介绍如何使用Lasso回归和交叉验证方法来解决高维数据下的房屋市场租金价格预测问题，并详细阐述R语言在此过程中的应用技巧和实现方法。

背景

Goal: 利用主体物业和租户的各种特征来预测房屋市场租金价格

Data: 在Inter-University Consortium for Politicaland Social Research(ICPSR)数据库中找到的2007年美国住房调查（全国微观数据）有65,000个观测值和超过500个变量

Limitation: 某些特征的不可观测

有部分特征在超过80%的观测值中没有数据的，导致没有办法配合预测模型进行变量的筛选

Model used:

Regularization: 10.fold Lasso & AICc Lasso

适合于大量数据处理（高维度多变量)

Junjun Li

✉

联系我们

最受欢迎的见解

1.matlab偏最小二乘回归(PLSR)和主成分回归(PCR)

2.R语言高维数据的主成分pca、 t-SNE算法降维与可视化分析

3.主成分分析(PCA)基本原理及分析实例

4.R语言实现贝叶斯分位数回归、lasso和自适应lasso贝叶斯分位数回归

5.使用LASSO回归预测股票收益数据分析

6.r语言中对lasso回归，ridge岭回归和elastic-net模型

7.r语言中的偏最小二乘回归pls-da数据分析

8.R语言用主成分PCA、逻辑回归、决策树、随机森林分析心脏病数据并高维可视化

9.R语言主成分分析（PCA）葡萄酒可视化：主成分得分散点图和载荷图

数据清理

使用R语言处理无法观测到的变量︰ 1.观测codebook去除无关的变量2.选择去除50%以上失踪的变量（可以反复对比去除了不同变量后的模型) 3.对于剩下的变量去除含有NA的观测值

视频

R语言机器学习高维数据应用：Lasso回归和交叉验证预测房屋市场租金价格

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

visualize部分重要变量是否合理

观测数据

大多数租金集中在一千美元左右，其平均租金（由红线标示)为1025美元(直方图呈现出略微右偏的近似正态分布)。

观测一些关键特征的信息，这些特征有助于预测公平市场租金，包括卧室数量、楼层数量、地块面积和主体单位的平方英尺面积。

模型分析

Regularization – Lasso Model

贝叶斯分位数回归、lasso和自适应lasso贝叶斯分位数回归分析免疫球蛋白、前列腺癌数据

阅读文章 ➜

使用K-Fold cross validation确定最佳的入值:

数据被分成K个相等的部分，除了第k个折叠之外的所有数据都用于训练模型，第k个折叠用于测试模型，记录离样本外的偏差。

随时关注您喜欢的主题

重复此过程，以至每个折叠都有机会成为测试集。导致离样本外偏差最小的入是最优入值，在案例中我采用K-10：

最终计算最小deviance中的样本内R^2与通过10.Fold cross validation计算出的样本外R^2。

左侧是套索正则化路径的绘图。我们可以看到随着lamda的增加，系数逐渐趋近于零。

右侧的图表显示了10.Fold crossvalidation的离样本外偏差误差估计。最优入由最左边的垂直虚线表示。图表上的最低点实际上位于图表的最左侧，lamda的值最小。

·与典型的图表不同，这个图表不是呈“u形

在这种情况下，这意味着选择了最复杂的模型作为最优解。

模型分析

右图的值表示非零系数及其值，取重要变量进行合理性分析: 卧室数量:每增加—个卧室，月租金价格天约增加143.51美元，其他变量和特征保持不变。这个值是合理的，因为2个卧室的单位的租金价格很可能大于1个卧室的单位的租金价格。楼层数的系数是负数:对于每增加个楼层的单位或物业，月租金价格将减少约10.55美元，其他变量和系数保持不变。这个负系数是合理的，因为楼层数较多的物业更有可能是紧凑型的。