DOI: 10.11817/j.issn.1672-7207.2020.12.031
基于因果关联的交通拥堵传播分析
陈美林1, 2,郑治豪1, 2,郭宝1, 2,王璞1, 2
(1. 中南大学 交通运输工程学院,湖南 长沙,410075;
2. 轨道交通大数据湖南省重点实验室,湖南 长沙,410075)
摘要:为揭示拥堵区域之间的内在联系,提出基于因果关联的交通拥堵传播分析方法。该方法通过对出租车GPS数据进行清洗、地图匹配等预处理后,计算蜂窝网格的速度并以蜂窝网格而非路段为单元检测拥堵事件,以便更精确地描述各区域的交通状态;基于拥堵的时空特征,提出拥堵传播事件提取方法,以确定拥堵的时空范围;提出网格关联置信度与拥堵传播源强度,推断蜂窝网格间拥堵传播的方向。研究结果表明:该方法能定位出易发生且易传播拥堵的重点传播源,并发现晚高峰相对早高峰更容易出现范围广、持续时间长的拥堵传播事件;该方法能用于揭示拥堵的演化规律,可为交通管理部门制定拥堵缓解策略提供科学依据。
关键词:拥堵传播;蜂窝网格;因果关联;时空特征;拥堵传播源
中图分类号:U491 文献标志码:A
文章编号:1672-7207(2020)12-3575-09
Traffic congestion spreading analysis based on causal nexus
CHEN Meilin1, 2, ZHENG Zhihao1, 2, GUO Bao1, 2, WANG Pu1, 2
(1. School of Traffic and Transportation Engineering, Central South University, Changsha 410075, China;
2. Rail Data Research and Application Key Laboratory of Hunan Province, Changsha 410075, China)
Abstract: In order to reveal the correlation between congestion areas, a causal nexus method was proposed to investigate congestion propagation in urban areas. Taxi GPS data were preprocessed via data cleaning and map matching. Hexagon speed was calculated and congestion events were detected on hexagon level instead of road segment level to receive more accurate results. Congestion spreading events were extracted using the spatiotemporal characteristics of hexagons. The confidence index and congestion intensity index were used to infer the congestion spreading diretion between hexagons. The results show that the proposed method can identify recurring congestion sources that spread congestion to other areas. The congestion spreading during evening rush hours was larger in scale and longer in duration compared to morning rush hours. The proposed method can uncover the evolutionary patterns of traffic congestion and provide significant intelligence for transportation authorities to mitigate traffic congestions.
Key words: congestion propagation; hexagon; causal nexus; spatiotemporal characteristics; recurring congestion sources
城市交通的发展与居民生活息息相关。随着城市化进程加快,机动车保有量逐年提高,各大城市交通拥堵普遍出现,制约了国民经济的发展[1],分析城市交通拥堵的演化过程显得十分重要。关于交通拥堵演化问题,国内外研究者大多使用交通流理论如元胞自动机模型[2-5]、跟驰模型[6-7]、流体力学模型[8-9]等进行研究。LONG等[10]提出了基于元胞传输模型的交通拥堵传播模型,通过仿真发现该模型能有效识别出拥堵瓶颈道路。张晨琛等[3]采用元胞自动机模型研究了高速公路收费站的拥堵机理,发现收费通道开放数量和入口流量是造成高速公路主线收费站拥堵的主要原因;MICHALOPOULOS等[8]改进流体力学模型,估计了交叉口车辆排队形成和消散的过程,揭示了交通流的时空流动关系;李树彬等[11]基于中观动力学模型研究了网络拓扑结构对交通拥堵传播的影响,发现网络中边介数较大的道路容易发生交通拥堵(某条道路的边介数定义为网络中所有最短路径中经过该道路的路径的数目占最短路径总数的比例)。拥堵是人类活动与路网结构共同作用的复杂非线性现象,以上研究主要基于研究者自主定义规则的仿真实验,然而,单纯依靠仿真模型很难反映路网拥堵时的真实状态。随着信息通讯技术的发展,越来越多的交通数据被采集,基于大样本数据的实证研究成为新的研究热点。近年来,众多学者通过数据挖掘技术从海量真实数据中探索交通拥堵的成因与扩散规律,如:MA等[12]结合深度受限的玻尔兹曼机和递归神经网络模型建立了交通拥堵预测模型,并利用宁波市出租车GPS数据进行验证,发现该方法对拥堵的预测精度达到88%;SAEEDMANESH等[13-14]提出了一种基于“SNAKE”相似性度量的动态聚类方法,该方法能快速将路网分类成若干个连通的同质区域,以捕获拥堵的动态变化;WANG等[15]设计了一种视觉分析系统,该系统从出租车GPS轨迹中提取拥堵信息并构建传播图,直观展示交通拥堵的传播过程;AN等[16-17]提出一种基于网格的拥堵检测方法,揭示了常发性拥堵的传播规律。以上方法主要集中于对拥堵事件进行独立分析,未对拥堵在不同区域之间传播的因果关联关系进行研究,无法定位出导致拥堵传播的重点传播源。为此,本文作者以蜂窝网格为单元计算网格速度并提取拥堵事件,提出基于时空特征的拥堵传播事件提取方法,通过分析网格之间拥堵传播的因果关联关系,定位出易发生且易传播拥堵的重点传播源,以便为交通部门处理交通拥堵问题提供决策依据。
1 数据描述与处理
1.1 路网信息
本文使用深圳市路网信息,如图1所示。该路网由21 115条路段和13 109个交叉口组成,每条路段包含路段编号、长度、起终点对应的经纬度以及交叉口编号等信息。以蜂窝网格为单元,对路网进行映射,并剔除无路段经过的蜂窝网格。蜂窝网格的速度由出租车速度计算所得,为了保证蜂窝网格速度计算结果的准确性,网格应足够大以确保当车辆通过该网格时,至少有1个轨迹点位于该网格中。本文计算了出租车相邻GPS轨迹点的距离,发现96.8%的轨迹点与上一轨迹点的距离小于500 m,因此,选取相邻蜂窝网格中心的距离均为500 m。

图1 深圳市路网
Fig. 1 Road network of Shenzhen
1.2 出租车GPS数据
本文使用深圳市2016-09-01—2016-09-28中工作日的出租车GPS数据,该数据包含14 392辆出租车提供的897 591 210条记录,如表1所示。每条记录表示1个轨迹点的信息,包括车牌、时间戳、经度、纬度和载客状态等。载客状态中,1表示载客,0表示未载客。
表1 出租车GPS数据格式
Table 1 Format of taxi GPS data

由于出租车运行过程可能产生异常的GPS数据,本文参考文献[15,18]中方法,对获取的GPS轨迹数据进行清洗。首先,将每辆出租车的轨迹点按时间进行排序,删除具有重复时间戳的轨迹点;然后,剔除不在深圳市范围内的轨迹点。由于出租车处于空载寻客状态时车速一般较慢,速度不具有代表性,因此,删除出租车在空载状态下的GPS轨迹点数据[19],将连续载客状态下的轨迹点序列作为1次出行序列,进行以上操作后共获得出行序列4 913 315条。出租车GPS数据采样频率为15 s。由于少量出租车GPS设备出现故障,出行序列中部分相邻轨迹点在时间和空间上间隔较远,利用间隔较远的轨迹点计算速度时误差较大,因此,将相邻轨迹点空间间隔大于2 km或时间间隔大于10 min的出行序列断开,形成2条或多条出行序列,经过该操作后共获得出行序列6 357 912条;同时,为了避免GPS设备载客状态记录故障而生成的短序列的影响,删除轨迹点数少于5个或者总长度小于500 m的出行序列,最终获得出行序列5 188 348条。
1.3 地图匹配算法
采用ST-Matching地图匹配算法[20]将出行序列与深圳市路网进行匹配。以出行序列
为例:首先,获取轨迹点
周围35 m范围内的所有路段
作为其候选路段集合
;然后,计算每条候选路段的观测概率
、相邻轨迹点两两候选路段之间的传递概率
以及轨迹点各候选路段的综合概率
;最后,选取综合概率最高的候选路段作为轨迹点匹配路段。观测概率、传递概率和综合概率的计算方式如下:
(1)
(2)
(3)
式中:
为轨迹点
到候选路段
之间的垂直距离;
为轨迹点
和
之间的直线距离;
为候选路段
和
之间的最短路径距离。
通过以上步骤,得到出行序列
的匹配路段序列。将相邻轨迹点对应的最短路径长度与间隔时间的比值作为该出行序列在该路径的速度,并将该速度映射到对应路段上作为1次速度计数。设置时间窗长度为15 min,计算时间窗内某路段所有计数速度的平均值作为该路段的速度。为保证数据可靠,本文仅对每个时间窗内经过车辆数不少于5的路段速度进行研究[15]。
2 网格拥堵传播规律研究方法
2.1 拥堵事件检测方法
为消除不同道路等级造成的速度差异,定义相对速度(路段速度与该路段自由流速度的比值)量化路段的交通状态,自由流速度为该路段速度集由小到大顺序排列的85%分位值[15]。由于路段长短不一,同一路段可能在不同位置出现不同的交通状态,且交叉口的交通状态由多条路段共同决定,因此,以蜂窝网格为单元计算网格速度并提取拥堵事件,能更精确地描述各区域的交通状态。网格速度为路段相对速度的加权平均值,权重为路段在网格内的长度。网格拥堵判定采用WANG等[21]提出的方法,若网格
在时间窗
的速度小于该网格在所有时间窗速度平均值的0.5倍,则判定为拥堵,并记作拥堵事件
。定义
表示第
天中所有拥堵事件的集合。
2.2 拥堵传播事件提取方法
当网格交通状态为拥堵时,拥堵波会随时间不断向周围扩散。基于拥堵传播的时空关系,定义拥堵传播事件为一系列空间尺度或者时间尺度存在相邻关系的拥堵事件集合,用CP(i)表示第
个拥堵传播事件。
图2所示为拥堵传播事件的提取流程,具体实现步骤如下。
第1步:参数初始化,令
,
。
第2步:获取第
天的拥堵事件集合C(d)。
第3步:从C(d)中随机选取1个拥堵事件
,将其从C(d)中剔除并归至第
个拥堵传播事件CP(i),将该拥堵事件进行标记。
第4步:判断C(d)中是否存在拥堵事件
与
网格相邻且时间相邻,即编号为
的网格和编号为
的网格中心相距500 m,且
,若存在,则将满足条件的拥堵事件从
中剔除并归入CP(i),执行第5步;否则,直接执行第5步。
第5步:判断CP(i)中是否存在未被标记的拥堵事件,若存在,则选取其中1个未被标记的拥堵事件,记为
,并将其进行标记,返回第4步;否则,令
,执行第6步。
第6步:判断C(d)中是否存在拥堵事件,若存在,则返回第3步;否则,进一步判断是否完成所有数据的识别,即
是否达到最大值。若
未达到最大值,则令
,返回第2步;否则,执行第7步。
第7步:剔除只包含1个拥堵事件的拥堵传播事件,完成对所有拥堵传播事件的提取。

图2 拥堵传播事件提取方法流程图
Fig. 2 Flow chart of congestion propagation event extraction method
2.3 拥堵传播规律确定方法
拥堵传播事件汇聚了不同时间或空间的网格,这些网格存在直接或者间接的因果关联关系。在某一具体拥堵传播事件中,先发生拥堵的网格可能会直接造成其他网格接连发生拥堵,也可能是多个拥堵网格共同造成其他网格接连发生拥堵,因此,可认为先发生的拥堵事件对后发生的拥堵事件存在一定影响。
若在同一拥堵传播事件中存在2个拥堵事件
和
满足
,则在认为该拥堵传播事件中存在拥堵关联关系
。为反映拥堵网格之间的影响程度,定义关联置信度为
(4)
式中:
为网格
对网格
的关联置信度;
为存在拥堵关联关系
的拥堵传播事件个数;
为包含
的拥堵传播事件的个数。关联置信度
具有方向性,由网格
中心指向网格
中心。
为反映目标网格对其他网格的综合影响度,定义传播源强度
。网格的传播源强度越高,则该网格在已拥堵情况下造成其他网格拥堵的可能性越高,且影响范围也越广,因此,需重点关注传播源强度高的网格区域。传播源强度计算公式为
(5)
3 拥堵传播实证分析
使用前面所述方法对深圳市蜂窝网格进行拥堵事件检测和拥堵传播事件提取。为保证有充足的出租车GPS数据使得路段速度计算结果可靠,选取7:30—9:00(早高峰)和17:30—19:00(晚高峰)这2个时段进行分析。深圳市共有10大行政区即南山区、大鹏区、福田区、罗湖区、宝安区、盐田区、龙华区、龙岗区、坪山区和光明区,其中,大鹏区、坪山区和光明区未检测到拥堵事件,这是由于这3个行政区的出租车经过数量较少,因此,对剩余7大行政区进行研究分析。拥堵事件检测及拥堵传播事件提取结果表2所示。
表2 拥堵事件和拥堵传播事件检测结果
Table 2 Detection results of congestion events and congestion propagation events

图3(a)所示为早晚高峰时段各行政区拥堵事件和拥堵传播事件的可视化结果。结合图3(a)和表2可知:1) 大部分行政区在晚高峰时段的拥堵事件和拥堵传播事件发生次数通常高于早高峰时段,这是由于晚高峰时段除了通勤出行外,娱乐出行产生交通量较大;2) 在早高峰时段,南山区发生拥堵事件的次数最多,龙岗区发生的拥堵传播事件最多,而在晚高峰时段,龙岗区发生拥堵事件和拥堵传播事件的次数均最多;3) 福田区在早晚高峰时段发生的拥堵事件次数存在明显差异,晚高峰时段的拥堵事件发生次数明显比早高峰时段的多,这是由于福田区是深圳市的中心城区,晚高峰时段该区域的出行次数较多。

图3 拥堵事件和拥堵传播事件分析
Fig. 3 Analysis of congestion events and congestion propagation events
为分析拥堵传播事件的严重程度,分别从时间(持续时间CT)和空间(影响范围CR)这2个角度分析拥堵传播事件的特性。持续时间CT为拥堵传播事件中拥堵发生时间与结束时间之差,CT越大,说明拥堵传播事件产生连锁拥堵的时间越长。影响范围CR为拥堵传播事件中包含蜂窝单元的数量,CR越大,说明拥堵传播事件产生连锁拥堵的范围越广。
图3(b)所示为CT的概率密度分布。从图3(b)可知:超过80%的拥堵传播事件会在45 min之内结束;早高峰相对晚高峰更易出现短时拥堵 (CT≤45 min),而晚高峰更易于出现长时拥堵 (CT>45 min)。
图3(c)所示为CR的概率密度分布图。从图3(c)可见:早晚高峰时段拥堵传播事件影响范围均服从指数分布
,拟合系数
均达到0.99以上;早高峰时段函数参数
,
,而晚高峰时段函数参数
,
,这说明大部分拥堵发生时影响的范围都比较小。在早高峰时段检测到的拥堵传播事件中,单个时间窗获得的拥堵网格数量最多的1个事件为33个,而晚高峰时段则达到73个。
通过以上分析可知:深圳市早高峰容易出现范围小、持续时间短的拥堵传播事件,而晚高峰相对早高峰更容易出现范围广、持续时间长的拥堵传播事件。
基于拥堵传播事件,计算每个网格对其他网格的关联置信度
,该值越大,说明网格
在已拥堵的情况下造成网格
拥堵的可能性越大。
为进一步分析早晚高峰各行政区拥堵传播的整体情况,依据关联置信度的方向性,计算各个行政区在东南西北4个方向的累积关联置信度。例如,某一关联置信度
的方向为东南方,则该关联置信度应同时分配到网格
所在行政区的东向和南向,最后分别计算东南西北4个方向所有关联置信度之和作为累积关联置信度。累积关联置信度的大小和方向反映了各行政区拥堵传播的整体严重程度和传播方向。各行政区在东南西北4个方向的累积关联置信度如图4所示。
从图4可以看出:1) 宝安区、龙华区、龙岗区和南山区的拥堵传播方向较均衡,但早晚高峰的累积关联置信度存在一定差异;2) 福田区早高峰拥堵传播事件较少,因此,各方向的累积关联置信度也较小,而晚高峰时段拥堵主要向东北方向传播,累积关联置信度(>400)均比其他行政区的大,说明在晚高峰时段福田区发生的拥堵传播事件均较严重,影响范围大,持续时间长;3) 罗湖区早晚高峰时段的整体拥堵传播方向正好相反,早高峰时段整体拥堵向西南方传播,晚高峰时段整体拥堵则向东北方传播,表现出明显的潮汐现象。4) 盐田区由于发生拥堵事件和拥堵传播事件均较少,因而累积关联置信度均偏小(<35)。

图4 各行政区累积关联置信度分析
Fig. 4 Analysis of cumulative confidence correlation in different administrative regions

图5 传播源强度分析
Fig. 5 Analysis of propagation source intensity
进一步分析拥堵网格的地理分布,找出易影响其他网格的传播源网格,基于网格之间的关联置信度,计算每个网格的传播源强度。图5所示为各个网格的传播源强度分布情况。从图5可以看出:1) 早高峰时段,深南北环立交桥附近、沈海高速、福龙路、梅观立交桥附近、求水岭隧道和沙湾路等区域具有较高的传播源强度;2) 晚高峰时段,上述区域的拥堵传播源强度均有所降低,但仍属于传播源强度较高的区域,应重点关注;3) 晚高峰时段,传播源强度最高的区域处于福田区北环皇岗立交桥、深南皇岗立交桥以及罗湖区泥岗红岭立交桥附近。
4 结论
1) 基于出租车GPS数据,结合拥堵的时空特征,以蜂窝网格为单元提取拥堵传播事件,更精确地描述各区域的交通状态。晚高峰时段发生的拥堵事件和拥堵传播事件次数普遍比早高峰的多,早高峰容易出现范围小、持续时间短的拥堵传播事件,而晚高峰更容易出现范围广、持续时间长的拥堵传播事件。
2) 提出关联置信度指标,挖掘网格之间拥堵的因果联系。通过计算网格之间的关联置信度以及各行政区的累积关联置信度,发现各个行政区整体拥堵程度和传播方向在早晚高峰时段都存在一定的差异。
3) 分析传播源网格的地理分布情况,利用传播源强度指标定位易发生且易传播拥堵的重点传播源。早高峰时段的重点传播源并未分布在作为中心城区的福田区范围内,但晚高峰时段传播源主要集中在福田区且传播源强度明显比其他区域的高,传播源的动态变化规律可为交管部门制定管控策略提供科学依据。
参考文献:
[1] 闫庆军, 徐萍平. 基于外部性的交通拥堵成因分析与缓解策略[J]. 经济论坛, 2005(5): 57-59.
YAN Qingjun, XU Pingping. Cause analysis and mitigation strategy of traffic congestion based on externality[J]. Economic Tribune, 2005(5): 57-59.
[2] LONG Jiancheng, GAO Ziyou, ZHAO Xiaomei, et al. Urban traffic jam simulation based on the cell transmission model[J]. Networks and Spatial Economics, 2011, 11(1): 43-64.
[3] 张晨琛, 王艳辉, 贾利民. 高速公路主线收费站拥堵消散控制策略[J]. 中国公路学报, 2013, 26(4): 139-145.
ZHANG Chenchen, WANG Yanhui, JIA Limin. Congestion dissipation control strategies for expressway mainline toll station[J]. China Journal of Highway and Transport, 2013, 26(4): 139-145.
[4] GENG Nan, ZHAO Xiaomei, XIE Dongfan, et al. Congestion mechanism and demand adjustment strategies for double-cell system with bottlenecks[J]. Transportation Research Part C: Emerging Technologies, 2015, 57: 122-145.
[5] DAGANZO C F. The cell transmission model, part II: network traffic[J]. Transportation Research Part B: Methodological, 1995, 29(2): 79-93.
[6] BANDO M, HASEBE K, NAKAYAMA A, et al. Dynamical model of traffic congestion and numerical simulation[J]. Physical Review E, 1995, 51(2): 1035.
[7] GAZIS D C, HERMAN R, ROTHERY R W. Nonlinear follow-the-leader models of traffic flow[J]. Operations Research, 1961, 9(4): 545-567.
[8] MICHALOPOULOS P G, PISHARODY V B. Derivation of delays based on improved macroscopic traffic models[J]. Transportation Research Part B: Methodological, 1981, 15(5): 299-317.
[9] JIN Wenlong. A kinematic wave theory of lane-changing traffic flow[J]. Transportation Research Part B:Methodological, 2010, 44(8/9): 1001-1021.
[10] LONG Jiancheng, GAO Ziyou, REN Hualing, et al. Urban traffic congestion propagation and bottleneck identification[J]. Science in China Series F: Information Sciences, 2008, 51(7): 948-964.
[11] 李树彬, 吴建军, 高自友, 等. 基于复杂网络的交通拥堵与传播动力学分析[J]. 物理学报, 2011, 60(5): 140-148.
LI Shubin, WU Jianjun, GAO Ziyou, et al. The analysis of traffic congestion and dynamic propagation properties based on complex network[J]. Acta Physica Sinica, 2011, 60(5): 140-148.
[12] MA Xiaolei, YU Haiyang, WANG Yunpeng, et al. Large-scale transportation network congestion evolution prediction using deep learning theory[J]. PloS One, 2015, 10(3): e0119044.
[13] SAEEDMANESH M, GEROLIMINIS N. Clustering of heterogeneous networks with directional flows based on “Snake” similarities[J]. Transportation Research Part B: Methodological, 2016, 91: 250-269.
[14] SAEEDMANESH M, GEROLIMINIS N. Dynamic clustering and propagation of congestion in heterogeneously congested urban traffic networks[J]. Transportation Research Procedia, 2017, 23: 962-979.
[15] WANG Zuchao, LU Min, YUAN Xiaoru, et al. Visual traffic jam analysis based on trajectory data[J]. IEEE Transactions on Visualization and Computer Graphics, 2013, 19(12): 2159-2168.
[16] AN Shi, YANG Haiqiang, WANG Jian. Revealing recurrent urban congestion evolution patterns with taxi trajectories[J]. ISPRS International Journal of Geo-Information, 2018, 7(4): 128.
[17] AN Shi,YANG Haiqiang, WANG Jian, et al. Mining urban recurrent congestion evolution patterns from GPS-equipped vehicle mobility data[J]. Information Sciences, 2016, 373: 515-526.
[18] WANG Pu, LAI Jiyu, HUANG Zhiren, et al. Estimating traffic flow in large road networks based on multi-source traffic data[J]. IEEE Transactions on Intelligent Transportation Systems, 2020, doi: 10.1109/TITS.2020.2988801.
[19] 王璞, 熊雨沙, 王骋程, 等. 基于路径旅行时间分析的交通异常检测方法[J]. 电子科技大学学报, 2018, 47(6): 869-875.
WANG Pu, XIONG Yusha, WANG Chengcheng, et al. Traffic anomaly detection method based on travel time of path[J]. Journal of University of Electronic Science and Technology of China, 2018, 47(6): 869-875.
[20] LOU Yin, ZHANG Chengyang, ZHENG Yu, et al. Map-matching for low-sampling-rate GPS trajectories[C]// Proceedings of the 17th ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems: GIS '09.New York, USA:ACM Press, 2009: 352-361.
[21] WANG Yuqi, CAO Jiannong, LI Wengen, et al. Exploring traffic congestion correlation from multiple data sources[J]. Pervasive and Mobile Computing, 2017, 41: 470-483.
(编辑 陈灿华)
收稿日期: 2020 -02 -05; 修回日期: 2020 -04 -22
基金项目(Foundation item):国家自然科学基金资助项目(71871224) (Project(71871224) supported by the National Natural Science Foundation of China)
通信作者:王璞,博士,教授,从事交通大数据、智能交通等研究;E-mail:wangpu@csu.edu.cn