数据挖掘在道路交通事故中的应用

时间:2022-08-14 08:48:08

数据挖掘在道路交通事故中的应用

数据挖掘技术在金融业、医疗保健业、市场业、零售业和制造业等很多领域都得到了很好的应用。针对交通安全领域中交通事故数据利用率低的现状,可以通过数据挖掘对相关交通事故数据进行统计分析,从而发现其中的关联,这对提升交通安全水平具有非常重要的意义。

1数据挖掘技术概述

数据挖掘(DataMining)即对大量数据进行有效的分类统计,从而整理出有规律的、有价值的、潜在的未知信息。一般来讲,这些数据存在极大的随机性和不完全性,其包括各行各业各个方面的数据。数据挖掘是一个结合了数据库、人工智能、机器学习的学科,涉及统计数据和技术理论等领域。

2数据挖掘关联分析研究

关联分析作为数据挖掘中的重要组成部分,其主要作用就是通过数据之间的相互关联从而发现数据集中某种未知的联系。关联分析最初是在20世纪90年代初被提出来的,一直备受关注。已被广泛应用于各行各业,包括医疗体检、电子商务、商业金融等各个领域。关联规则的挖掘一般可分成两个步骤[1]:(1)找出频繁项集,不小于最小支持度的项集;(2)生成强关联规则,不小于最小置信度的关联规则。相对于生成强关联规则,找出频繁项集这一步比较麻烦。由R.Agrawal等人在1994年提出的Apriori算法是生成频繁项集的经典算法[2]。Apriori算法使用了Level-wise搜索的迭代方法,即用k-项集探索(k+1)-项集。Apriori算法在整体上可分为两个部分。(1)发现频集。这个部分是最重要的,开销相继产生了各种各样的频集算法,专门用于发现频集,以降低其复杂度、提高发现频集的效率。(2)利用所获得的频繁项集各种算法主要致力产生强关联规则。当然频集构成的联规则未必是强关联规则,还要检验构成的关联规则的支持度和支持度是否超过它们的阈值。Apriori算法找出频繁项集分为两步:连接和剪枝。(1)连接。集合Lk-1为频繁k-1项集的集合,它通过与自身连接就可以生成候选k项集的集合,记作Ck。(2)剪枝。频繁k项集的集合Lk是Ck的子集。剪枝首先利用Apriori算法的性质(频繁项集的所有非空子集都是频繁的,如果不满足这个条件,就从候选集合Ck中删除)对Ck进行压缩;然后,通过扫描所有的事务,确定压缩后Ck中的每个候选的支持度;最后与设定的最小支持度进行比较,如果支持度不小于最小支持度,则认为该候选项是频繁的。目前,在互联网技术及科学技术的快速发展下,人工智能、机器识别等技术兴起,关联分析也被越来越多应用其中,并在不断发展中提出了大量的改进算法。

3数据挖掘关联分析在道路交通事故原因分析当中的应用

近年来,我国越来越多的学者将数据挖掘关联分析应用于道路交通事故的研究中,主要是分析道路、车辆、行人以及环境等因素与交通事故之间的某种联系。Pande和Abdel-Aty[3]通过关联分析研究了美国佛罗里达州2004年非交叉口发生的道路交通事故,重点分析了各个不同的影响因素与交通事故之间的内在联系,通过研究得出如下结论,道路照明条件不足是引发道路交通事故的主要因素,除此之外,还发现天气恶劣的环境下道路弯道的直线段也极易发生交通事故。Graves[4]利用数据挖掘技术中的关联规则对欧洲道路交通事故进行了分析,主要研究了交通事故与道路设施状况之间的关联,通过研究发现了易导致交通事故发生的各个道路设施状况因素,此研究为欧洲路面建设及投资提供了强大的决策支持。我国学者董立岩在研究道路交通事故数据的文献中,将粗糙集与关联分析进行了融合,提出了基于偏好信息的决策规则简约算法并将其应用其中,通过分析发现了道路交通事故的未知规律。王艳玲通过关联分析中的因子关联树模型重点分析了影响道路交通事故最重要的因子,发现在道路交通事故常见的诱因人、车、路及环境中对事故影响最大的因子是环境。许卉莹等利用关联分析、聚类分析以及决策树分析三种数据挖掘技术对道路交通事故数据进行分析,最终得出了科学的道路交通事故预防和交通安全管理决策依据。尚威等在研究中,对大量的道路交通数据进行了有效整合,并在此基础上按照交通事故相关因素的不同特点整理出与事故发生有关的字段数据,形成新的事故数据记录表,然后再根据多维关联规则对记录的相关数据进行分析,从而发现了事故诱导因素记录字段值和事故结果字段值组成的道路交通事故频繁字段的组合。张听等在充分掌握聚类数据挖掘理论与方法的基础上,提出了多目标聚类分析框架和一个启发式的聚类算法k-WANMI,并将其用在道路交通事故的聚类研究中对不同权重的属性进行了多目标分析。同样,许宏科也利用该方法对公路隧道交通流数据进行了聚类分析,其在研究中不仅明确了隧道交通流的峰值规律,而且还根据这种规律制订了隧道监控设备的不同控制方案,对提高隧道交通安全的水平做了极大的贡献。徐磊和方源敏在研究中,提出了由简化信息熵构造的改进C4.5决策树算法,并将其应用在交通事故数据的研究中,对交通数据进行了正确分类,发现了一些隐藏的规则和知识,为交通管理提供了依据。刘军、艾力•斯木吐拉、马晓松运用多维关联规则分析交通事故记录,从而找到导致交通事故发生次数多的主要原因,并且指导相关部门作出相应的决策。杨希刚运用关联规则为现实中的交通事故的预防提供依据。吉林大学的吴昊等人,基于关联规则的理论基础,定义了公路交通事故属性模型,并结合改进后的Apriori算法,分析了交通事故历史数据信息,为有关单位和用户寻找道路黑点(即事故多发点)提供了技术支援和决策帮助。

4结语

通过数据挖掘中的关联分析方法虽然能够对道路交通事故的相关因素进行清晰的分析,但是目前在这一方面的研究仍有不足之处。因为关联分析在道路交通事故的研究中往往只能片面发现某一种或几种因素影响交通事故的规律,很难将所有影响因素结合起来进行全面系统的分析。然而道路交通事故的发生通常都是由相应因素导致,而后事故当事人意识到危险源的存在并采取措施,直到事故发生的连续过程,整体来看体现了时序性。也就是说,道路交通事故是受到一系列按照时间先后顺序排列的影响因素组合共同作用而发生的,从整体的角度出发研究事故发生机理更加科学。

作者:杨剑红 单位:广州大学

参考文献

[1]杨秀萍.大数据下关联规则算法的改进及应用[J].计算机与现代化,2014(12):23-26.

[2]王云,苏勇.关联规则挖掘在道路交通事故分析中的应用[J].科学技术与工程,2008(7):1824-1827.

[3]徐磊,方源敏.基于决策树C4.5改进算法的交通数据挖掘[J].微处理机,2010,31(6):57-59.

[4]杨希刚.数据挖掘在交通事故中的应用[[J].软件导刊,2008,7(26):18-20.