住房趋势
首先,这里是伯克利价格的一般直方图。这是基于从伯克利的租金收集委员会收集的数据,从中我可以获取伯克利目前被占用的9143套公寓的租赁信息,并从2014年开始租赁。这是每间客房的价格,平均为公寓楼数量由于租金管制,我认为每个房间的每栋房租都非常相似。
正如我们可以清楚地看到的那样,这是一个标准的正态分布形状,平均约为1400,标准偏差约为200美元。
但是,我们希望探索价格随时间的关系 ,让我们看看每个月的直方图映射到当月启动的租约数量:
然后,结合上述两幅图的信息,我们预计过去两年价格普遍上涨,5 – 8月价格上涨。
这正是我们所看到的!5月份开始的租赁价格明显高于11月份到1月份。而且,租金价格在每年的7月/ 8月达到高峰,这是合理的:购买这些房子的学生迫切希望租住公寓,并愿意为有限的剩余供应支付额外费用。如果您在多年的同一月份进行比较,我们也可以看到2014年至2016年价格普遍上涨的趋势。
现在,这给我们提供了整个伯克利市房价上涨的总体思路,我们的大部分数据来自主要是学生住房。
寻找内在价格
现在我们对伯克利的租金定价有了更好的理解,让我们改变方向,并提出一个更基本的问题:公寓的内在价值是什么?
经济学家说,关于公寓的所有可用信息都包含在当前价格中,因此它没有内在价值:它的价值是人们愿意支付的价格(这实际上也是技术股票分析的核心假设)。但是,这个定义现在对我们来说并不是特别有用,所以我提出了另外一个定义。
具有一些任意特征向量的公寓的内在价值是具有完全相同的特征向量的另一个公寓将出售的所有其他公寓的平均值(其中特征代表我们可以测量的一定数量的公寓),在这里,功能可以是平方英尺,或浴室的数量等)
但是,这与预测价格的问题完全一样!如果我们有一套训练集和一套机器学习模型在这套训练集上进行训练,那么模型预测给定公寓的价格就是该公寓的内在价值(如果我们只关心其特征,那么该公寓将花费什么)。然后,我们可以比较该公寓的实际价格,并确定相对于其内在价格是高估还是低估。
这就是我所做的。在过去的几天里,我挖掘了大约1500个Craigslist列表,解析它们,并使用Ridge回归模型预测任何新列表的价格。
为什么岭回归?
为什么岭回归? 在10倍交叉验证测试中,Ridge回归的准确率约为42%,标准偏差为22%。
但除此之外,我想保持解释性。我使用这个模型作为内在价格的度量,而不是价格预测,所以我想要很容易地理解每个特征对最终价格的影响程度,并确保内在价格思想不会被复杂的模型。例如,一个神经网络使得讨论内在价值变得更加困难,因为它掩盖了信息如何组合来创造预测。用于比较的回归模型是相当透明的:它使用线性代数为每个要素分配权重,并且使用向量内积生成每个预测。
特征
在确定价格时最重要的是什么?
以下是我们模型中每个特征的权重:
('bedrooms', -0.01484452500338929),
('bathrooms', 441.35475406327225),
('square feet', 0.81243297704451789),
('distance_to_campus', -82.126291331406136),
('num_images', 37.305112110230304),
('unique_words', 0.51051340095473563),
('postingDate', 8.1268498554076096)
这意味着每个额外的卫生间,例如,增加441美元的发布价格。每平方英尺增加约80美分的价格,而从校园每增加一英里的价格减少了82美元。这大部分与我们之前在地图上看到的一致。
然后,如果我们计算每个特征,将其乘以相应的权重,并将它们加在一起,我们得到2507.84967859作为我们的预测,这非常接近。
可下载资源
关于作者
Kaizong Ye是拓端研究室(TRL)的研究员。Kaizong Ye是拓端研究室(TRL)的研究员。在此对他对本文所作的贡献表示诚挚感谢,他在上海财经大学完成了统计学专业的硕士学位,专注人工智能领域。擅长Python.Matlab仿真、视觉处理、神经网络、数据分析。
本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。
非常感谢您阅读本文,如需帮助请联系我们!