R语言机器学习方法分析二手车价格影响因素

By tecdat11月 10, 2023R语言辅导, 大数据部落, 技术支持, 数理统计, 计算机科学CS辅导, 计算机科学与技术二手车, 二手车价格, 价格, 机器学习

比较多种机器学习方法优劣性，分析二手车价格影响因素，训练模型预测二手车价格。

根据印度二手车交易市场1996-2019年数据，进行清洗，建模，预测。

由Siming Yan撰写

数据源准备

7253笔交易数据包括汽车属性和交易日期、地点等信息。分析数据构成：

× 随机森林算法作为一种取代神经网络等传统机器学习方法的分类回归算法，具有高准确率、不易过度拟合、对噪声及异常值容忍度高等特点。相比于传统的多元线性回归模型，随机森林算法能够克服协变量之间复杂的交互作用。[1]随机森林算法通过构建多棵决策树形成森林，使用bootstrap重采样方法。实际操作为从原始样本中抽取一定数量样本，允许重复抽样；根据抽出的样本计算给定的统计量；重复上述步骤多次，得到多个计算的统计量结果；由统计量结果得到统计量方差。

将数据分为NA和非NA组，分析缺失值是否均匀分布：

QQ截图20231110155851.png

对于的因变量“交易价格”，可见其缺失值基本均匀分布。

Siming Yan

最受欢迎的见解

1.R语言多元Logistic逻辑回归应用案例

2.面板平滑转移回归(PSTR)分析案例实现

3.matlab中的偏最小二乘回归（PLSR）和主成分回归（PCR）

4.R语言泊松Poisson回归模型分析案例

5.R语言回归中的Hosmer-Lemeshow拟合优度检验

6.r语言中对LASSO回归，Ridge岭回归和Elastic Net模型实现

7.在R语言中实现Logistic逻辑回归

8.python用线性回归预测股票价格

9.R语言如何在生存分析与Cox回归中计算IDI，NRI指标

图片2.png

视频

从决策树到随机森林：R语言信用卡违约分析信贷数据实例

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

视频

Lasso回归、岭回归等正则化回归数学原理及R语言实例

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

其他自变量的缺失值也基本均匀分布。

特征转换

对一些因变量进行dummy variable转换。对大数值变量如引擎容量，已行驶的公里数进行log transformation。

划分训练集和测试集

75% training data, 25 test data. RMSE作为衡量模型精度的标准。

建模

10 folds Validation when training models to choose best model tuning parameters .

1. Linear Regression with mixing Lasso & Ridge Penalty:

包含三种模型的混合预测。

Best tune: Alpha 0.25, lambda .053. RMSE 5.332

1. Support Vector Machines with Radial Basis Function Kernel

R语言二手车汽车销售数据可视化探索：预处理、平滑密度图、地理空间可视化

阅读文章 ➜

随时关注您喜欢的主题

Best tune: Cost(M) = 10.

1. Random Forests:

随着随机选定的因变量数量提高，10 folds Cross Validation所展示的拟合效果也有波折地逐渐提高。

1. Stochastic Gradient Boosting Machine

调整的参数为树深，树层数达到6时拟合效果最好。

模型优化

各个模型都进行了调参过程。主要依据为10 folds cross validation

结果

在此案例中，Stochastic Gradient Boosting Machine 所得到的RMSE值最小，预测效果最好。

预测结果仅作为参考一个权重值，还需要专家意见，按照一定的权重来计算。

以下为预测集和测试集的部分展示：

关于作者

Siming Yan

在此对Siming Yan对本文所作的贡献表示诚挚感谢，他专注数据采集，数据分析，机器学习领域。擅长R语言、Python、SQL、Tableau。

相关文章

售前咨询热线

15121130882

售后咨询热线

0571-63341498