论文作者:Yuan Wang a , Dongxiang Zhang b, ⁎ , Ying Liu b , Bo Dai b , Loo Hay Lee a
1.Introduction
智能交通系统(ITS)是由先进的数据通信、信息处理和交通管理技术组成的综合交通管理系统。近年来,深度学习在计算机视觉、速度识别和自然语言处理方面取得的成功使得人们很自然将其应用于ITS。我们将ITS中的应用程序分为视觉识别任务、交通流预测(TFP)、交通速度预测(TSP)、行程时间预测(TTP)和其他任务。
2.深度学习相关
2.1深度神经网络DNN
DNN包括多层感知机MLP、深度信念网络DBN、堆叠自编码器SAE。三者都包括一个输入层、一个或多个隐层和一个输出层,主要的不同在于隐层的设计上。
MLP是一种前向的神经网络,至少三层,各神经元间为全连接,可采用BP算法以监督学习的方式进行训练。在有标签数据充足时可得到较好的网络模型。DBN和SAE的权重参数初始化可以通过无监督贪婪逐层学习的方式进行预训练得到,输出层为监督学习方式的分类器或预测器,较少了对有标签数据的需求。
DBN由多个受限玻尔兹曼机(RBM)堆叠而成。RBM是一个两层的神经网络,下层称为可见层,上层称为隐藏层。在同一层的神经元之间不会相互连接,而不在同一层的神经元之间会相互连接。神经元之间的连接是双向对称的,这意味着在网络进行训练以及使用时信息会在两个方向上流动,而且两个方向上的权值是相同的。在DBN中,上一个RBM的隐层即为下一个RBM的显层,上一个RBM的输出即为下一个RBM的输入。训练过程中,需要充分训练上一层的RBM后才能训练当前层的RBM,直至最后一层。在SAE中,用自编码器(AE)作为隐藏层。它的目标是最小化重构误差,即通过训练使其输出与输入向量相同。输入首先由隐藏层编码,然后由输出层解码。在经过训练的网络中,输入和输出层的单元数是相同的,编码和解码操作是相反的。
2.2卷积神经网络CNN
卷积神经网络在图像分类的上取得了巨大的成功,并在视频分类、动作识别和文本分类等领域得到了广泛的应用。一个典型的CNN模型从卷积层开始,其目标是在整个训练集中提取通用模式。它由多个卷积核组成,这些卷积核应用于整个图像,并将原始像素值转换为更高级别的模式。每个卷积核都以矩阵的形式存在,其元素值是要学习的参数。每个卷积层后面都有一个非线性激活函数,该函数允许网络学得非线性决策边界并指示要激活的图像区域。
卷积层后紧跟池化层,目的是减小特征映射的维度。池化操作包括最大池化和均值池化。在CNN用于交通信号识别时,几乎都使用了最大池化。可以通过重复进行卷积、池化操作构建更深的网络,但网络深度的加大也增加了参数数量、可能导致过拟合。CNN的最后一次为全连接层,用于产生一定维度的输出。输出的维度等于分类任务中的类别数。每个维度表示属于相应类的输入图像的概率。
2.3循环神经网络RNN
循环神经网络(RNN)是专门为序列数据建模而设计的,在语音识别、机器翻译、文本生成和视频字幕等领域有着广泛的应用。网络的每个记忆单元被连接起来,对输入序列中的每个元素执行相同的任务,可以直接学习输入和输出序列之间的映射。RNN的特点:1、权值共享,图中的W全是相同的,U和V也一样。 2、每一个输入值都只与它本身的那条路线建立权连接,不会和别的神经元连接
RNN由于梯度消失或梯度爆炸的原因只能有短期记忆,LSTM网络通过精妙的门控制将短期记忆与长期记忆结合起来,并且一定程度上解决了梯度消失的问题。
门是一种让信息选择式通过的方法。他们包含一个 sigmoid 神经网络层和一个 pointwise 乘法(按元素相乘)操作。Sigmoid 层输出 0 到 1 之间的数值,描述每个部分有多少量可以通过。0 代表“不许任何量通过”,1 就指“允许任意量通过”。LSTM 拥有三个门(输入门、遗忘门、输出门),来保护和控制细胞状态。
遗忘门决定从细胞状态中丢失什么信息,输出为 ;
输入门决定什么样的新信息被存放在细胞状态中,包含两个部分。第一,sigmoid 层称 “输入门层” 决定什么值我们将要更新。然后,一个 tanh 层创建一个新的候选值向量加入到状态中。输出为 ;
更新细胞状态后,细胞状态为 。
输出门将会得到输出结果。首先,通过一个 sigmoid 层来确定细胞状态的哪个部分将输出出去。接着,我们把细胞状态通过 tanh 进行处理(得到一个在 -1 到 1 之间的值)并将它和 sigmoid 门的输出相乘,最终我们仅仅会输出我们确定输出的那部分,即 。
Gated Recurrent Unit (GRU)是LSTM的一个变体。GRU同样解决了梯度消失的问题,且比LSTM更易训练。GRU模型只有两个门,分别为更新门和重置门。更新门用于控制前一时刻的状态信息被带入到当前状态中的程度,更新门的值越大说明前一时刻的状态信息带入越多。重置门用于控制忽略前一时刻的状态信息的程度,重置门的值越小说明忽略得越多。
式中c即图中的h ̃_t。
RNN、LSTM和GRU都有自己的双向变体,具有相似的基本原理。规则网络的神经元分为两个方向,一个方向为正向,另一个方向为反向。由于它涉及到更多的细胞,双向变体与更多的参数相关,训练和表现力方面具有更高的潜力。双向网络的训练过程与单向网络的训练过程相似,反向传播算法仍然可以应用
2.4Deep reinforcement learning深度强化学习
在强化学习中,给定状态集和动作集,智能体根据当前状态s不断选择动作a直至终止条件达到。选择方法由所学到的策略π给出,对动作的奖励函数由 给出,γ∈[0,1],表示当前动作的奖励函数对未来后续奖励的重视程度,即学习算法是否贪婪,或是短视的还是长视的。Q学习是一种模型自由的算法,目标是得到最优的Q值,但Q值计算需要考虑当前状态下所有的动作选择,存在维度灾难的问题,效率较低。将Q表中的元素值分布用一个函数f来表示,状态s作为输入,输出每一个动作的Q值,也就是输出一个向量。用一个深度网络(非线性多层卷积神经网络)来表示出函数f,Q值也就成为了Q网络。深度强化学习已成功应用于玩基于文本的游戏、信息提取、文本生成、数学字问题解决和图像检测等任务。
3. ITS中的视觉识别任务
Traffic sign recognition(交通标志识别)可以自动识别交通标志牌上的正确信号,是一个图像分类问题,其精度是指正确分类的图像部分。Trafficsign detection (TSD)交通信号检测的目标是从场景图像中识别出交通标志的区域。GTSRB是一个交通标志图像数据集,包含43个类中的51839个图像。
交通标志识别本质上是一个模式识别任务,其准确度主要取决于特征抽取器和分类器。传统统机器学习方法在数据集GTSRB上的实验结果。他们能达到的最高精度约为97%。通过应用深度学习模型,能够有效地自动提取特征,其精度可达到99.84%。也可以同时进行交通信号检测和识别。
图像或监控视频中的车辆检测也应用了深度网络。这类任务一般分两步进行,第一步通过诸如Fast R-CNN的区域提取网络确定可能存在车辆的区域,第二步通过训练CNN网络对每个区域内的车辆进行检测。
深度网络还可用于行人检测、交通设施等基础设施的维护(如隧道检测、路面裂缝检测等)、小型路障检测、车道检测和车辆转向角预测等任务。
4.交通状态预测
4.1交通流预测Traffic Flow Prediction (TFP)
交通流量预测的目的是估计未来时间段内特定区域或路段进出车辆的数量。任务的成功解决将有利于动态交通控制、路线规划、导航服务等应用。
交通流预测问题定义:假设一天可以按固定间隔分为多个时间间隔,当前时间间隔T内的任务就是基于前面所有时间间隔内的交通流预测T+1间隔内的交通流量,或者预测T+1到T+n时间间隔内的交通流量。根据预测时间的长短,交通流量预测分为短期(5-30分钟)、中期(30-60分钟)和长期(1小时以上)三种类型。该领域无标准数据集。预测的准确率通过预测值和真实值间的误差来衡量,有三种形式,分别为平均绝对误差、平均相对误差、均方根误差。
交通流预测可以归结为时间序列分析问题,传统的方法可以分为两类:参数法和非参数法。自回归综合移动平均(ARIMA)预测模型最常用的参数化方法,卡尔曼滤波器(KF)也被广泛采用,以解决预测误差较小的TFP问题。常用的非参数化方法包括k-最近邻(k-nn)、非参数回归、支持向量回归(SVR)等。非参数化方法从已知的交通路序列中学习得到潜在关系进行预测。
将深度网络应用于TFP任务最直接的方法就是使用MLP网络。还有一类方法是应用预训练模型,如深度信念网络(DBN)和堆叠式自动编码器(SAE)。该网络包含一个无监督预训练的底层DBN网络或SAE堆叠自编码器网络和一个多任务学习(MTL)层,用于监督预测。参数的训练采用贪婪的分层方式,顶层MTL层能够充分利用DBN或SAE中的权重,提供更好的预测结果。
CNN、LSTM、RNN及其组合网络也可用于交通流预测。对于不同的数据集,网络的层数及单元数有所不同。CNN、LSTM及其组合网络的预测性能通常优于使用DBN和SAE进行预训练的网络模型。
4.2交通速度预测Traffic Speed Prediction (TSP)
交通速度预测(TSP)的问题定义与TFP相似。考虑到过去时间间隔内某路段的历史交通速度数据,目标是预测其随后的时间间隔内的未来速度。已知变量从进出车辆数变为速度值。因此,这两个问题采用几乎相同的预测策略。其发展过程依次为MLP、使用SAE或DBN的预训练模型、CNN与LSTM及其混合网络。用CNN网络进行特征提取有两种方式,一种是将整个可视化地图视为图像输入。地图包含了路网结构,可以用不同的颜色绘制路段,以表示交通状况。另一种方法是使用n×n的网格表示路网,每个矩阵元素表示特定路段的交通状态。由于路网稀疏,该矩阵一般为稀疏矩阵。目前最新的交通速度预测网络为CNN与LSTM的混合网络,并且考虑了天气、道路行人等外界因素。
4.3行程时间预测Travel Time Prediction (TTP)
行程时间预测(TTP)是根据历史数据估计路段的预期行程时间。这个问题类似于在TFP和TSP。一种方法是应用速度预测模型来获得未来时间间隔内的速度。然后,根据路段长度的信息,推导出行程时间。另一种方法是,如果历史行程时间信息可用,则直接用于训练预测模型。目前行程时间预测的最新模型一般采用RNN、LSTM或两者构成的混合网络,未出现将CNN网络用于行程时间预测的案例。
5.其他任务
5.1Traffic tensor prediction
交通张量预测用于预测路网中每对源-目的地之间的交通流量。具体应用包括预测OD间的行程时间、交通需求量的预测等。
5.2 拥堵管理与出行风险预测Congestion management and travel risk prediction
RBM受限玻尔兹曼机和RNN都有预测短时序列的能力,因此RBM和RNN的混合网络可用于大规模交通网络的拥堵预测。CNN和LSTM的混合网络也可用于拥堵预测。MLP、SAE、多层LSTM网络、DBQ和LSTM的混合网络都可用于出行风险预测。
5.3监控视频中的异常事件检测
一种方法是使用堆叠自编码器进行特征提取,然后使用SVM对特征进行分类以查找到异常事件,另一种是使用CNN进行特征提取。
5.4交通信号控制
强化学习中,当外部环境过大时,可以使用深度网络逼近值函数,深度强化学习已经成功应用于交通信号控制。交通信号控制的任务是对交通信号灯进行适当的控制,以减少车辆长期停留在交叉口的时间。在给定奖励函数的情况下,智能体根据当前的交通流条件控制交通灯的状态,深度强化学习框架中的关键部分包括设计合适的状态、动作和奖励函数,以及选择深度学习模型来近似Q学习函数。
6.总结
6.1适用性
机器学习的主要应用包括分类和拟合。只要任务可以被定义为分类、回归或MDP(马尔可夫决策过程),并且有大量的有标签数据可用或可以以低成本获得,就可以应用深度学习模型。
6.2DL模型的优点
主要优点是精度高。
6.3DL模型的缺点
对数据量和计算资源有较高的要求。超参数调整也比较困难。由于深度网络的黑盒性,其解释能力较差。将深层强化学习应用于优化问题还处于早期阶段。智能调度和实时优化是智能交通系统的基础功能,深度学习暂时无法达到该要求。
6.4DL模型使用选择
CNN是图像分类任务的最佳选择,在交通标志识别、车辆和乘客跟踪、障碍物和车道检测、视频监控等领域得到了广泛应用。LSTM及其变体(如GRU和双向LSTM)用于处理序列数据。对于交通流量预测、交通速度预测和行程时间预测等时间序列预测问题,它们可以达到很好的精度。DBN和SAE它们通常用于无监督的预训练步骤,以实现良好的参数初始化。对于交通信号控制等优化问题,使用深度强化学习,以最小化红灯的总等待时间,也可以应用于车辆路径问题。
6.5DL模型的设计
这些任务的发展模式类似。开始应用简单的DNN网络。随后使用CNN或LSTM进行改进,最后出现了混合网络。注意力机制已经有了一些应用,但在ITS领域的应用还未出现。当缺乏足够的训练数据时,过拟合在DL模型中相当常见。为了解决这个问题,一个有用的策略是应用dropout,在训练阶段随机忽略某些神经元的参数更新。另一种解决方案是对网络的权值参数应用L1或L2范数正则化