基于出租车GPS轨迹数据的研究:出租车行程的数据分析

最近我们被客户要求撰写关于出租车GPS轨迹数据的研究报告。

由Kaizong Ye,Weilong Zhang撰写

随着城市化进程的加快,出租车行业在城市交通体系中占据着重要地位。近年来,随着GPS定位技术的发展,出租车GPS轨迹数据的收集和分析成为了可能。这些数据不仅记录了出租车的行驶轨迹,还反映了城市的交通状况、乘客需求等多方面信息。本报告旨在对出租车GPS轨迹数据进行深入研究和分析,以期为出租车行业管理和城市规划提供决策支持。通过解析原始数据得到模式通常涉及一系列步骤,这些步骤可能因数据类型、结构和分析目的的不同而有所差异。

×

随着信息通讯技术(Information and communication technologies,ICT)的高速发展和位置感知(Location Awareness)设备如智能手机、车载GPS等的普及应用,大样本量的城市居民连续型时空轨迹数据集成为最令地理信息科学(GIScience)研究工作者兴奋的新数据源。此类移动定位数据获取成本低,覆盖范围广,且拥有时态特性,既可以进行微观个体活动模式的研究,也可以进行宏观活动系统的城市空间结构的研究(刘瑜等,2011),国际上已经有大量学者利用地理空间大数据(Big Geo-Data or Big Spatial Data)进行城市动态景观分析,城市公共空间组织与规划,城市人口分布,城市交通可达性、土地利用与交通需求的依赖关系、城市路网脆弱性等研究。同时,利用配有GPS的浮动车数据(Floating Car Data)不仅能够动态追踪移动车辆的连续轨迹,而且由于浮动车辆的运动受限于路网,也能够动态感知城市道路的路网交通状态、拥堵状况、十字路口等重要交通节点的车流量状况,分析出租车轨迹的时空规律等,因此成为地理信息系统(GIS)、行为地理学、智能交通系统(ITS)、城市规划新技术等领域的研究热点。而基于此类大数据、新处理方法的研究也必将为我国智慧城市的建设奠定理论分析基础,为企业级大空间数据云计算处理平台提供丰富应用案例。


    与人口普查、交通OD调查等传统方法相比较,基于出租车GPS轨迹、移动手机数据、社交媒体数据(在此先不做讨论,续篇再做分享)等研究城市范围内人群时空行为大数据的研究价值包括:

1.数据真实、定位精度高且信号覆盖广、实时动态获取信息、数据编码信息损失小等特点,适合于大规模的数据采集,相对传统的野外交通问卷调查成本大大降低,在城市与区域规划中的应用具有广阔前景。

2.在区域城镇体系结构的研究中,空间流分析是把握空间结构的重要方法。手机移动数据可根据规划者的需求进行空间尺度与时间维度的变化,为人流、信息流的方向与强度分析提供了丰富的数据基础。

3.在城市规划中,通过出租车GPS轨迹和移动通讯网络强度所表现的人口分布空间集聚动态规律,有助于交通问题的发现与解决,促进交通分析的精确化、科学化。城市社区尺度的人口流动信息,有助于城市地块环境容量参数的确定,限制地块的开发强度并保障可持续发展。手机移动数据作为智能交通系统的数据保障,可支持实时导航服务及动态交通管理,是极具潜力的城市规划与智慧城市管理辅助工具。


4.对于城市交通与土地规划的管理决策者提供直观可靠的数据支持,动态感知城市尺度上所有出租车的时空运动规律,估算由出租车生成的交通流量的空间分布密度情况,早晚通勤高峰时期的出租车活动情况,路况平均车速情况,刻画城市居住与工作区域与交通是否合理配置。通过一个地块上下车数目随时间变化的曲线刻画该地块的土地利用强度特征,间接也反映出城市土地利用的时空利用效率现状与城市详细规划对比;不过这需要一定样本量的统计规律,单一出行没法推断,除非结合个体抽样调查或多种传感器数据综合分析。


5.出租车搭乘的停靠地点从一定程度上反映出城市的热点,即“对公众吸引力大的地区和POI兴趣点”,辅助支持做城市土地价值评估;支持公共停车场的规划。

6.掌握城市出行群体的通勤时空规律,分析道路网络中心性(Centrality)、可达性(Accessibility)、脆弱性(Vulnerability)、可持续性(Sustainability)等指标,为突发事件响应、灾害应急编制应急行动预案。

7.有助于建立基于GPS定位网络和手机无线通讯网络的智能动态调度出租车和个体出行位置服务系统。

8.基于个体通讯和移动模式和城市网络构建扩散模型,蕴含信息传播、疾病传播等有价值研究。

9.聚合城市区域单元分析移动流网络(Mobility Network)和通讯流网络 (Communication Network),探索城市居民在社交空间和实体空间的实际活动规律,引导城市规划。

10.城市汽车尾气排放、城市空气质量与人地关系探讨。

 

数据技术处理与理论分析框架主要包括:

1.空间数据挖掘与模式发现,机器学习

2.行为地理学与时间地理学

3.GIS空间分析与可视化

4.地理学基础规律探讨:空间异质性、空间自相关、距离衰减、尺度效应

5.社交网络和复杂空间网络相关分析

小结

    在物联网时代和大数据时代,每一类城市传感器都有自己的优势和不足。采用多种传感器结合、与传统居民出行日志调查结合(可以用Web或移动App方式)、与城市区域功能需求分析相结合的方法将是未来智慧城市研究、社会公共服务、城市精细化管理的趋势。同时,实时数据流(Streaming Data)也与历史性数据(Historical Data)的分析处理策略不同,在数据中心搭建云计算并行处理环境也是大势所趋。如:Song Gao, Linna Li, Michael F. Goodchild.(2013) A Scalable Geoprocessing Workflow for Big Geo-Data Analysis and Optimized Geospatial Feature Conflation based on Hadoop. In NSF CyberGIS AHM’13, Sep.15-17, Seattle, WA, USA.


 每次行程都有非常具体的上/下车位置以及开始/结束时间的详细信息。 下面显示了一个示例 :

 我们留下了158,320,608个出租车行程的数据集,分为32,654个不同的起点/终点。


把握出租车行驶的数据脉搏 :出租车轨迹数据给你答案!

阅读文章


自1987年以来,位于东79街和约克大街的出租车站一直将上东区的居民带到华尔街。 

我在数据中发现了沿着这条路线的252,210次记录。出租车平均需要20.35分钟才能以22.11 mph的速度行驶。当然,凌晨4点出租车的行驶速度更快,但是大多数人直到凌晨6点或凌晨7点才开始上下班:


课程

R语言数据分析挖掘必知必会

从数据获取和清理开始,有目的的进行探索性分析与可视化。让数据从生涩的资料,摇身成为有温度的故事。

立即参加

 一年中,最忙的出租车沿该路线行驶234次(只有7辆出租车沿该路线行驶100次):

尽管前十名最常见的出租车司机的平均速度可以预测,但他们的速度并没有比大多数人快(这可能是因为他们经常每天长时间开车)。 

SELECT
  pickup_street1, pickup_street2, dropoff_street1, dropoff_street2,
  trips_medallion, trips_pickup_datetime, trips_dropoff_datetime,
  ROUND(trips_avg_mph,4) AS avg_mpg,
  ROUND(trips_trip_duration_hours,4) AS num_hours
FROM
  [taxi_strava.joined_geohash_geonames]
WHERE
  trips_geohashed_dropoff = 'dr5ru2'
  AND trips_geohashed_pickup = 'dr5rvj'


可下载资源

关于作者

Kaizong Ye拓端研究室(TRL)的研究员。Kaizong Ye拓端研究室(TRL)的研究员。在此对他对本文所作的贡献表示诚挚感谢,他在上海财经大学完成了统计学专业的硕士学位,专注人工智能领域。擅长Python.Matlab仿真、视觉处理、神经网络、数据分析。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

​非常感谢您阅读本文,如需帮助请联系我们!

 
QQ在线咨询
售前咨询热线
15121130882
售后咨询热线
0571-63341498

关注有关新文章的微信公众号


永远不要错过任何见解。当新文章发表时,我们会通过微信公众号向您推送。

技术干货

最新洞察

This will close in 0 seconds