Ⅰ将针对房源具体方面（如实描述/accuracy，干净卫生/cleanliness，入住顺利/checkin，沟通交流/communication，位置便利/ location，高性价比/value）的分数加和；由于每项满分十分，共6项，为了和总分review_scores_rating（满分100）量纲一致，乘上权重10/6作为新变量（对房源具体方面的评分）review_scores_specific

想了解更多关于模型定制、咨询辅导的信息？

✉

联系我们

Ⅱ将review_scores_rating和review_scores_specific加权求和形成响应变量scores，权重分别为0.3，0.7.

Ⅲ考虑到高分较多，我们人工设置scores大于97.5分的分数为1，小于97.5分的分数为0.（97.5的来历：取加权后的总分的五分位数作为分类变量的分界值）。

构造

以上说明了如何抽取相关特征，我们大致有如下训练样本（只列举部分特征）。

建模

logistic****回归是一种广义线性回归（generalized linear model），适用于因变量y只有两种可能取值的情况，也就是说，因变量的分布是伯努利分布（或二点分布），通常用1和0分别代表因变量的两种可能结果。

决策树是一种广泛应用的分类方法，它能从给出的训练样本中，提炼出树型的分类模型。树中的每个内部节点记录了使用哪个属性来进行分类，每个分支代表一个判断结果的输出，每个叶子节点则代表了最终分类后的结果。在本实验中将评分大于98.5的分数设置为1，将评分小于98.5的分数设置为0，将其作为目标变量score_kind，决策树模型的叶节点将显示目标变量score_kind的类别，根节点到每个叶子节点形成分类的路径规则。

模型优化

1.删除异常值：

在逻辑回归中输出各个残差统计量到res_out数据集，再筛选出Pearson残差绝对值大于2的观测，认为是异常值。共有793个，大约占比百分之二。

运用sql过程步删去这793个异常点，再进行逻辑回归。

2.上线之后的迭代，根据实际的A / B测试和业务人员的建议改进模型

逻辑回归ROC曲线：

R语言贝叶斯分层、层次Hierarchical Bayesian模型的房价

阅读文章 ➜

对城区数据通过决策树分类，有76.457%的准确率，对郊区数据通过决策树分类，有85.08%的准确率，说明决策树预测效果更好。

随时关注您喜欢的主题

在上面的分析结果中，我们不难看出，影响短租房评分的因素在北京城区和郊区之间存在着非常的差异。

在郊区，租客更加关注短租房的户型，房型以及房源所在的行政区。八达岭长城，司马台长城，密云水库等景点，尤其是以自然风光为主的景区，大量分布在京郊，密云县、顺义区和延庆县的房子更有可能成为优质房源可以佐证我们的推测，所以选择位于郊区的短租房的租客更多的是旅游导向的，更加关注居住的体验，所以独栋和小众房型，复式和酒店式公寓也都比普通居民楼公寓更加受欢迎。

与之相反，在北京城区内选择短租房的租户更大可能上是因为有工作，学习等方面的需求所以以短期生活居住为主要导向的，所以更加关注房源的可靠性，对房源的遴选更加依赖房主和房源的基本信息以及往期评论。

python岭回归、Lasso、随机森林、XGBoost、Keras神经网络、kmeans聚类链家租房数据地理可视化分析|附数据代码

最近我们被客户要求撰写关于租房数据分析的研究报告。利用 python 爬取链家网公开的租房数据。对租房信息进行分析，主要对房租相关特征进行分析，并搭建模型用于预测房租。

由Kaizong Ye，Liao Bao撰写

利用上海链家网站租房的公开信息，着重对月租进行数据分析和挖掘。

Scikit learn是机器学习领域当中最知名的 python 模块之一.

Sklearn 包含了很多种机器学习的方式:

· Classification 分类
· Regression 回归
· Clustering 非监督分类
· Dimensionality reduction 数据降维
· Model Selection 模型选择
· Preprocessing 数据预处理

上海租赁数据

此数据来自 Lianjia.csv文件包含名称，租赁类型，床的数量，价格，经度，纬度，阳台，押金，公寓，描述，旅游，交通，独立浴室，家具，新房源，大小，方向，堤坝，电梯，停车场和便利设施信息。

属性：

名称：列表名称
类型：转租或全部租赁
床：卧室号码
价格
经度/纬度：坐标
阳台，押金（是否有押金政策），公寓，描述，旅游可用性，靠近交通，独立浴室，家具

新房源：NO-0，YES-1
面积：平方米
朝向：朝向窗户，南1，东南2，东-3，北4，西南-5，西-6，西北-7，东北8，未知-0
级别：房源层级，地下室-0，低层（1-15）-1，中层（15-25）-2，高层（>25）-3
停车场：无停车场-0，额外收费-1，免费停车-2
设施：设施数量

import pandas as pd

import numpy as np

import geopandas 

df = pd.read\_csv('liania\_sh.csv', sep =',', encoding='utf\_8\_sig', header=None)

df.head()

可下载资源

完整程序、数据和文档（word）

本文分析的智能体、数据、代码、报告分享至会员群

加入会员群

最受欢迎的见解

1.R语言多元Logistic逻辑回归应用案例

2.面板平滑转移回归(PSTR)分析案例实现

3.matlab中的偏最小二乘回归（PLSR）和主成分回归（PCR）

4.R语言泊松Poisson回归模型分析案例

5.R语言混合效应逻辑回归Logistic模型分析肺癌

6.r语言中对LASSO回归，Ridge岭回归和Elastic Net模型实现

7.R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病

8.python用线性回归预测股票价格

9.R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测

视频

Lasso回归、岭回归等正则化回归数学原理及R语言实例

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

视频

KMEANS均值聚类和层次聚类：R语言分析生活幸福质量系数可视化实例

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

视频

Boosting集成学习原理与R语言提升回归树BRT预测短鳍鳗分布生态学实例

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

视频

LSTM神经网络架构和原理及其在Python中的预测应用

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

数据预处理

ETL处理，清理数据帧。

df_clean.head()

探索性分析 – 数据可视化

plt.figure(figsize=(8, 6))

sns.distplot(df_clean.price, bins=500, kde=True)

plt.xscale('log') # Log transform the price

读取地理数据

R语言线性回归和时间序列分析北京房价影响因素可视化案例

阅读文章 >

随时关注您喜欢的主题

plt.figure(figsize=(12, 12))

sns.heatmap(df_clean.corr(), square=True, annot=True, fmt = '.2f', cmap = 'vla

模型构建

尝试根据特征预测价格。

y = df\_clean.log\_price

X = df\_clean.iloc\[:, 1:\].drop(\['price', 'log\_price'\], axis=1)

岭回归模型

ridge = Ridge()

alphas = \[0.0001, 0.001, 0.001, 0.01, 0.1, 0.5, 1, 2, 3, 5, 10\]

Lasso回归

coef.sort_values(ascending=False).plot(kind = 'barh')

Random forest随机森林

rf\_cv.fit(X\_train, y_train)

XGBoost

xgb_model.loc\[30:,\['test-rmse-mean', 'train-rmse-mean'\]\].plot();

xgb\_cv.fit(X\_train, y_train)

Keras神经网络

model.add(Dense(1, kernel_initializer='normal'))

# Compile model

model.compile(loss='mean\_squared\_error', optimizer='Adam')

model.summary()

kmeans聚类数据

  kmeanModel = KMeans(n_clusters=k).fit(X) 

    kmeanModel.fit(X)     

    inertias.append(kmeanModel.inertia_) 

plt.plot(K, inertias, 'bx-')

gpd.plot(figsize=(12,10), alpha=0.3)

scatter\_map = plt.scatter(data=df\_clean, x='lon', y='lat', c='label', alpha=0.3, cmap='tab10', s=2)

可下载资源

关于作者

Kaizong Ye是拓端研究室（TRL）的研究员。在此对他对本文所作的贡献表示诚挚感谢，他在上海财经大学完成了统计学专业的硕士学位，专注人工智能领域。擅长Python.Matlab仿真、视觉处理、神经网络、数据分析。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

非常感谢您阅读本文，如需帮助请联系我们！

关于分析师

Nan Hu

✉

联系我们

在此对 Nan Hu 对本文所作的贡献表示诚挚感谢，她在上海财经大学攻读应用统计专业硕士学位，专注于数据分析和统计建模领域。擅长 SQL、R 语言、Python 和 SAS 。

Python对Airbnb北京、上海链家租房数据用逻辑回归LR、决策树、岭回归、Lasso、随机森林、XGBoost、神经网络kmeans聚类分析市场影响因素|数据分享

北京市短租房评价影响因素研究

想了解更多关于模型定制、咨询辅导的信息？

R语言贝叶斯分层、层次Hierarchical Bayesian模型的房价

随时关注您喜欢的主题

python岭回归、Lasso、随机森林、XGBoost、Keras神经网络、kmeans聚类链家租房数据地理可视化分析|附数据代码

上海租赁数据

数据预处理

探索性分析 – 数据可视化

读取地理数据

R语言线性回归和时间序列分析北京房价影响因素可视化案例

随时关注您喜欢的主题

模型构建

尝试根据特征预测价格。

岭回归模型

Lasso回归

Random forest随机森林

XGBoost

Keras神经网络

kmeans聚类数据

关于分析师

相关文章

Python对Airbnb北京、上海链家租房数据用逻辑回归LR、决策树、岭回归、Lasso、随机森林、XGBoost、神经网络kmeans聚类分析市场影响因素|数据分享

北京市短租房评价影响因素研究

想了解更多关于模型定制、咨询辅导的信息？

R语言贝叶斯分层、层次Hierarchical Bayesian模型的房价

随时关注您喜欢的主题

python岭回归、Lasso、随机森林、XGBoost、Keras神经网络、kmeans聚类链家租房数据地理可视化分析|附数据代码

上海租赁数据

数据预处理

探索性分析 – 数据可视化

读取地理数据

R语言线性回归和时间序列分析北京房价影响因素可视化案例

随时关注您喜欢的主题

模型构建

尝试根据特征预测价格。

岭回归模型

Lasso回归

Random forest随机森林

XGBoost

Keras神经网络

kmeans聚类数据

关于分析师

相关文章

关注有关新文章的微信公众号