出租车GPS轨迹数据挖掘研究

时间:2022-02-22 08:35:15

出租车GPS轨迹数据挖掘研究

1出租车GPS轨迹数据挖掘技术分析

1.1数据预处理。初步的数据采集,往往都是不完整的或不一致的,数据当中可能存在缺漏项或重复项,所以不能直接用于数据分析与数据挖掘,需要进一步进行数据的清理与冗余数据化简操作。出租车的GPS轨迹数据当中,可能存在的问题主要包括两点,其一是轨迹点的经纬度坐标越界;其二时轨迹点位置异常。对这两种数据问题进行清理,可通过以下步骤:首先,处理经纬度坐标越界问题,假设数据采集对象为沈阳市辖区,则要划分重点研究区域,若此次研究主要为主城区的交通道路规划提供参考,则要将绕城高速以外的所有坐标记录进行清除处理。其次,处理轨迹点异常的问题,需要进行异常值过滤处理,如,数据的来源出租车的行车速度要控制在合理范围内;同时,还要有效剔除车载GPS的测量异常值,具体办法可结合中位数滤波器进行有效处理。在数据采集过程中,受到交通拥堵、停靠等现实状况的影响,地位系统当中会出现大量的定位冗余点,若要保证数据分析的准确性,必须对其进行简化处理。针对这一处理过程,可充分利用计算机图形学与制图学领域的研究成果,采用Douglas-Peucker即DP算法,针对出租车GPS轨迹数据中曲线节点密度较高的数据类型,能够起到显著的去冗余效果。1.2地图匹配。在实际数据采集过程中,受到GPS定位精度问题的影响,获取到的轨迹点可能存在一定的误差,针对这种数据问题,就需要进一步采用地图数据对其进行匹配纠正处理。较为简单的匹配方法,就是将GPS轨迹点与距离最近的道路进行匹配,主要原理是几何特性,基于道路拓扑关系进行匹配,能够简化匹配过程,且计算更为便捷、准确度更高。对初始数据进行相应的处理,最终得到的轨迹数据,应能够清晰的呈现为目标区域的道路网络。

2利用出租车GPS轨迹数据挖掘居民出行特征的方案设计

2.1高斯定理与轨迹数据。采用高斯定律进行居民出行特征挖掘,是一种类比的应用手段,主要原理是利用高斯定律描述目标场景,进而细致分析出租车轨迹方向与载客数量等特征。高斯定律数学表达公式如下:式中的Ω表示一个封闭曲面,而V则表示由这个封闭曲面所围成的空间;0ε表示介电常数;E表示空间V当中的电场分布矢量函数;而qi则表示空间V当中所包含的电荷。对其进行直观的理解,即公式所表示的的封闭曲面内所包含的电荷之和,与穿过该曲面的电场线呈正比关系。将其类比于出租车GPS轨迹数据挖掘的过程当中,即表示在出租车GPS轨迹数据当中,一个载客段就对应高斯定律当中的一条电场线,而载客段所形成轨迹的起点与终点则为高斯定律当中的正负电荷;假设研究范围内的出租车载客量趋于稳定,皆为1/0λ,则能够进一步得出出租车穿过制定区域的轨迹正比于区域内所有载客段起点与终点之和。将高斯定律类比与出租车GPS轨迹数据,针对尺度不同的区域,其起点与终点之和能够进一步表现各个区域尺度下的载客净流入量密度空间,具体表达公式如下:(count终点-count起点)式中的Ti表示目标区域内的的载客段,当载客段的终点在目标区域之内时,δ(Ti)则为+1;若终点超出目标区域,则δ(Ti)的值为-1;1/0λ作为出租车的平均载客量,可将其假定为稳定常数。2.2基于高斯定律的轨迹挖掘。类比于高斯定律的出租车GPS轨迹数据挖掘,通过对目标区域中出租车载客段在一定时间内的轨迹进行分析,能够进一步得到在这段时间内,目标区域内出租车的载客净流入量[1]。对于载客净流入量这一数据,能够明确其数据分析指标包括出租车GPS轨迹数据当中的数量特征与方向特征,能够在一定程度上,客观的反映出目标区域对居民出现的“吸引力”程度。总结基于高斯定律的出租车GPS轨迹数据挖掘算法如下:(1)首先,初步获取目标区域内的出租车GPS轨迹数据,并对其进行数据预处理操作;然后,将轨迹数据进行有效分割,分割的主要依据为出租者的载客状态,最终形成空车状态数据与载客状态数据,从而提取出区域内出租车载客轨迹的起点与终点。(2)得到有效的出租车GPS轨迹数据之后,进一步分割数据覆盖区域,可采取栅格分割方式来设定分割尺寸。(3)以每个分割单元为单位,统计其中的载客轨迹起始点与终点,统计值即为count终点-count起点。(4)依据公式(count终点-count起点)•1/0λ,得出目标区域内,一定时间内的乘客净流入量。

3利用出租车GPS轨迹数据挖掘居民出行特征的实验结果分析

以某城市交通局提供的,2017年9月1日至2日,城市主城区出租车GPS轨迹数据为例,对其进行数据挖掘实验,进一步分析居民出行特征。3.1数据分析。通过数据预处理后得到有效的轨迹数据,分析得出以下内容:统计时间间隔为10min,从早上5:00至中午12:00,出租车的载客次数呈现为先增加,后区域稳定的趋势;中午12:00至14:00,载客次数出现了明显的下落,此后又逐渐上升;在16:00至19:00之间,再次出现了载客低谷状态。通过分析,能够明确此数据变化形式,与居民的常规出行行为特征基本符合。3.2轨迹挖掘实验。对经过预处理的数据进行分割处理,采用100m作为分割尺度,而500m作为搜索半径,分别对每天5:00至10:30、16:30至22:00两个时段进行分析,每个时段固定为5小时30分钟。在得出9月2日输出结果的基础上,进一步结合山顶点提取法,分析乘客净流入量、流出量峰值点进行提取,并得出其空间分布状况,挖掘得出有利数据[2]。3.3实验分析。在实验观察中发现,在5:00至10:30这个时间段内,存在明显的高值区域,这种数据形式说明,在目标区域内,这一时段的人流净流量处于较高水平,可将其归类为净流入区;通过实际地图对比,该区域位于城市中心的商业区及邻近区域;在数据当中,显示出明显的低值区域,即此区域内的人流净流量较低,说明为净流出区,与实际电子地图进行对比发现,此区域为城市的主要居民区;数据载一点,则出现了一些相对高值区域,与实际地图相对照发现,此区域内包含城市火车站商圈,以及城市著名旅游风景区。16:30至22:00时段对比于5:00至10:30这个时间段,高值区域的实际地址分布呈现为相反的状态,经过思考分析,能够得出,出租车GPS轨迹数据分析结果,与城市居民的日常生活行为习惯基本相符合,在早上,人们出行多数是去商务区上班,所以形成的商务区为高值区域、居民区为低值区域的数据特征;而傍晚时间,则是人们正常下班回家的时间,导致其高值区域与低值区域正好与早上相反。上述数据分析结果与Alain对城市通勤模式的相关分析基本符合:现阶段的城市通勤模式,呈现为定性的单中心通勤模式,以就业岗位聚集的位置为主要中心,其周边的商业设施以及基础设施等,也可以作为中心区域的覆盖位置;由此向外,呈现为放射性的通勤流格局,在上午时段,通过出租车GPS轨迹数据,能够进一步得出城市居民由向中心聚集、傍晚时段由中心向分散的行为特征。这种城市格局,是造成城市交通不畅的主要因素,在理想的城市规划当中,城市结构应该是多中心格局,这样一来,通过多个“中心”分散原有城市单一中心的人流承载量,能够显著缓解城市的整体交通压力。这就要求在城市规划过程中,要充分利用城市中心,吸引周边居民的就业与消费等出行习惯,从而分解城市日常运行过程中的城市中心的交通压力。这种城市规划格局长久以来都未能得到有效实现,属于一种理想化的规划目标。针对城市交通规划,在多中心格局还无法全面实现的情况下,折中选择了一种单一中心和多个次中心的组合结构模式,即在规划过程中不进行主次中心的明确划分,相应商务中心位置的就业岗位与商业设施等都进行均等分配建设的方式,在此基础上,通勤流呈现为自由随机的布置格局,长此以往,由于居民的日常行为习惯逐渐趋于稳定,就会形成单一中心和多个次中心的组合结构模式,而城市居民的出行特征,也就成为了放射状与随机共存的格局[3]。3.4实验拓展。进一步拓展出租车GPS轨迹数据挖掘范围,对其工作日与非工作日,同时段内的轨迹数据进行分析,能够发现在工作日,出租车的轨迹数据以及城市居民的出行特征,呈现为上述早上由向中心聚集,傍晚由中心向分散的形式;而在非工作日,城市居民有居民区向更出的火车站商圈以及旅游景区的输出率明显增高。此种研究,不仅有利于城市总体的交通规划,对出租车行业来说,还能进一步降低出租车死机巡游方式下,空载率高的问题,进而更好的为城市居民提供出行服务,综合提升出租车行业运营的经济效益与社会效益。

4结语

综上所述,对基于出租车GPS轨迹数据挖掘的居民出行特征进行相关研究,有利于推动城市交通规划与出租车行业的共同发展。通过上述分析,基于高斯定律的轨迹数据挖掘方法,能够更好的进行出租车净流入量密度空间的分析,从而得出城市居民的出行行为特征。在未来的应用过程中,可改进文中所述方法存在的局限,充分利用GPS定位终端所产生的历史轨迹数据,与出租车GPS轨迹数据结合应用,能够得到更加精准的分析结果。

参考文献:

[1]冯琦森.基于出租车轨迹的居民出行热点路径和区域挖掘[D].重庆:重庆大学,2016.

[2]谭康.基于GPS轨迹的道路拓扑构建和路径选择方法研究[D].湘潭:湖南科技大学,2015.

[3]程静,刘家骏,高勇.基于时间序列聚类方法分析北京出租车出行量的时空特征[J].地球信息科学学报,2016,18(09):1227~1239.

[4]付鑫,孙茂棚,孙皓.基于GPS数据的出租车通勤识别及时空特征分析[J].中国公路学报,2017,30(07):134~143.

作者:王瑶 单位:重庆城市职业学院