最近我们被客户要求撰写关于出租车GPS轨迹数据的研究报告。
随着城市化进程的加快,出租车行业在城市交通体系中占据着重要地位。近年来,随着GPS定位技术的发展,出租车GPS轨迹数据的收集和分析成为了可能。这些数据不仅记录了出租车的行驶轨迹,还反映了城市的交通状况、乘客需求等多方面信息。本报告旨在对出租车GPS轨迹数据进行深入研究和分析,以期为出租车行业管理和城市规划提供决策支持。通过解析原始数据得到模式通常涉及一系列步骤,这些步骤可能因数据类型、结构和分析目的的不同而有所差异。
可下载资源
作者
每次行程都有非常具体的上/下车位置以及开始/结束时间的详细信息。 下面显示了一个示例 :
我们留下了158,320,608个出租车行程的数据集,分为32,654个不同的起点/终点。
自1987年以来,位于东79街和约克大街的出租车站一直将上东区的居民带到华尔街。
我在数据中发现了沿着这条路线的252,210次记录。出租车平均需要20.35分钟才能以22.11 mph的速度行驶。当然,凌晨4点出租车的行驶速度更快,但是大多数人直到凌晨6点或凌晨7点才开始上下班:
一年中,最忙的出租车沿该路线行驶234次(只有7辆出租车沿该路线行驶100次):
尽管前十名最常见的出租车司机的平均速度可以预测,但他们的速度并没有比大多数人快(这可能是因为他们经常每天长时间开车)。
SELECT
pickup_street1, pickup_street2, dropoff_street1, dropoff_street2,
trips_medallion, trips_pickup_datetime, trips_dropoff_datetime,
ROUND(trips_avg_mph,4) AS avg_mpg,
ROUND(trips_trip_duration_hours,4) AS num_hours
FROM
[taxi_strava.joined_geohash_geonames]
WHERE
trips_geohashed_dropoff = 'dr5ru2'
AND trips_geohashed_pickup = 'dr5rvj'
可下载资源
关于作者
Kaizong Ye是拓端研究室(TRL)的研究员。Kaizong Ye是拓端研究室(TRL)的研究员。在此对他对本文所作的贡献表示诚挚感谢,他在上海财经大学完成了统计学专业的硕士学位,专注人工智能领域。擅长Python.Matlab仿真、视觉处理、神经网络、数据分析。
本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。
非常感谢您阅读本文,如需帮助请联系我们!