(基于XGBoost和SHAP的城市轨道交通站点乘客感知换乘距离研究)
话题点:城市轨道交通站点、换乘距离、XGBoost模型、SHAP
模型:感知传输距离偏差the Ratio of Perceived Transfer Distance
Deviation (R)、XGBoost和SHAP模型
考虑的因素:乘客个人属性、换乘设施和换乘环境相关的32个指标
1.引言
轨道交通的快速发展带来的挑战:①乘客对安全性、速度和舒适性需求增长;②最大限度地发挥城市轨道交通的商业潜力
实际换乘距离、等效步行距离和感知换乘距离对比,感知换乘距离是乘客换乘体验和服务满意度的更可靠指标。
感知换乘距离的影响因素:个人特质、路线特征和环境因素
与更易于解释的模型(如线性回归)相比,使用基于树的模型(如 XGBoost)既有好处也有缺点。尽管线性回归模型可以很容易地解释,但它们可能无法捕获预测变量之间的复杂和非线性关系。相反,XGBoost 模型具有捕获非线性关系的能力,并提供更高的预测准确性,但其可解释性可能有限。为了解决这个问题,我们的研究采用了SHAP值来解释模型的预测,并深入了解了不同因素的相对重要性。
2、指标量化和数据收集
2.1感知传输距离偏差比率
2.2影响因素分析
乘客个人属性由两类构成:个人特征和旅行特征。个人特征包括七个因素:性别、年龄、教育程度、职业、月收入、健康状况和疲劳程度。旅行特征包括八个因素:常见的旅行方式、每日步行步数、旅行时间、旅行目的、换乘路线的熟悉程度、承重能力、紧急程度以及是否有伴。
中转设施由两类组成:设施规模和其他特征。设施规模包括楼梯长度比、自动扶梯长度比、电梯运行高度比、通道长度比、行人比、交叉口设施长度比六个因素。其他功能包括转弯次数以及标志和标记的合理性。
传输环境由两类组成:安全性和舒适性。安全性包括站外交通组织的合理性、站内交通组织的合理性、站外夜间照明的舒适性三个因素。舒适性有七个因素:车站内的照明舒适度、车站内的空气舒适度、车站内的热舒适度、站台的拥堵程度、楼梯的拥堵程度、通道的拥堵程度和入口处的拥堵程度。
2.3数据收集
调查样本量的确定:
调查方法:基于“经验-反应”的乘客换乘感知调查方法(调查问卷)
3.基于xgboost—SHAP的感知转移距离模型
3.1提取关键因素
为了排除与R无关的因素(p < 0.01),该研究检验了R与上表中列出的32个影响因素之间的Pearson相关性。在此过程之后留下的 m 个因素被认为与𝑅强相关的。
3.2基于xgboost的R预测模型
①训练集和测试集:7:3
②初始化预测值:
③目标函数:
用泰勒近似:
④持续构建决策树并拟合残差
⑤累加每个决策树的预测值
⑥评估:RMSE,MAE
3.3基于SHAP的关键因素分析
4.案例分析
4.1案例概述
研究以浙江省金华市轨道交通系统津逸东线为研究对象。全线全长58.4公里,设17个车站。于2022年6月6日至6月19日期间,对津一东线9个车站的39个换乘点进行了“经验-反应”问卷调查。共有 1017 名受访者完成了调查,经过合理性检查后,还剩下 981 份回复,效率为 96.46%。
4.2提取关键因素
在32个因素中,教育程度(X3)、职业(X4)、月收入(X5)、常见出行方式(X8)、每日步行步数(X9)、出行目的(X11)、紧急程度(X14)、有无陪伴(X15)、电梯运行高度比(X18)、站内照明舒适度(X26)、站内空气舒适度(X27)、站内温度舒适度(X28)等12个因素与相关性不显著R.因此,在排除 12 个因素后,本研究确定了其余 20 个因素作为影响的关键变量R.
4.3XGBoost模型的预测效果
为了验证XGBoost模型预测R的有效性,研究中将其性能与其他三种常用算法进行了比较:线性回归、随机森林和LightGBM。此外,本研究选取了两种不同的变量输入方案来验证使用Pearson相关系数提取关键因子的必要性。第一种方案包括所有因子作为模型输入,而第二种方案仅使用关键因子进行预测。
四种方法的评估结果:
结果表明,在提取关键因素后,随机森林、XGBoost和LightGBM模型的误差有所减少,而线性回归模型的性能仍然相对较差。本文认为,这主要是因为,在变量选择后,基于随机森林、XGBoost、LightGBM等的模型能够更好地捕捉变量间的非线性关系,降低模型复杂度,最小化噪声干扰,从而显著提高模型性能。然而,由于线性回归模型的线性假设和有限的噪声因子去除效果,其性能在变量选择后基本保持不变。
此外,如图所示,在测试集上比较四个模型的实际 R 和预测 R 表明,XGBoost 模型的点位于完美拟合线附近,表明预测值和实际值之间存在显着对齐。相反,其余3个模型表现出更大的误差和更大的离散性,表明XGBoost模型最适合预测R并提供更好的应用结果。
4.4关键因素显著性排序分析
下图显示了使用经过训练的 XGBoost 模型计算的所有 20 个关键因子的 SHAP 值,并附有一个散点图,显示了关键因子与 R 之间的关系。为了评估关键变量对 R 的显著性,本研究利用了显著性程度,该显著性是通过平均 SHAP 的绝对值来计算的。
研究结果表明,换乘环境对R的影响最大,其次是换乘设施,而乘客个人属性的影响相对较小。因此,优化换乘设施和换乘环境可以有效降低城市轨道交通旅客的R;然而,也必须考虑到乘客个人属性对感知转机距离的影响。
上图提供了对影响 R 的关键因素的宝贵见解,其中标志和标记的合理性 (X22) 被认为是最有影响力的特征。它具有最高的平均 SHAP 值,表明其对 R 的整体解释力最强。自动扶梯长度比(X17)、站外交通组织合理性(X24)、楼梯长度比(X16)和通道拥堵程度(X31)等其他变量在换乘距离感知中也起着至关重要的作用,尽管贡献小于X22。此外,通道长度比(X19)是换乘设施变量中的另一个显著特征,对换乘距离感知具有关键影响。
4.5影响及应用
基于研究结果,本文建议采取以下措施来改善金华市轨道交通系统津一东线旅客中转感知状态:
提升城市轨道交通乘客体验,很大程度上依赖于提高标志标识的合理性(X22)。其中一个原因是 X22 对乘客感知的换乘距离影响最大。幸运的是,改进X22的成本相对较低,并且在车站设计和管理阶段都可以实现优化。为确保对乘客的有效指导,应战略性地放置标志和标记,提供清晰简洁的信息。通过这样做,可以最大限度地减少混淆,使乘客更容易在车站导航,并最终减少他们感知的换乘距离。
自动扶梯和楼梯布置的优化(X17、X16)是提升城市轨道交通乘客体验的关键环节。在规划和设计车站时,必须优先考虑在楼梯上安装自动扶梯,以尽量减少体力消耗并减少感知的换乘距离,特别是对于行动不便的乘客。此外,确保自动扶梯和楼梯之间有适当的间距,并设计它们以适应有效的客流,这一点至关重要。
此外,应特别注意确保交通组织计划(X23、X24)具有适应性和响应性,以应对不断变化的条件,例如客流量波动或可能影响交通流量的外部事件。通过根据需要不断评估和调整交通组织计划,车站可以在提供积极的乘客体验方面保持高效和有效。
解决通道拥堵问题(X31)是优化车站的一个关键方面。在车站规划和设计阶段,估计客流并确定适当的通道尺寸非常重要。在运营阶段,应实施有效的人流管理策略以缓解交通拥堵,例如在高峰时段派人引导乘客,利用实时信息系统通知乘客拥挤区域,以及修改车站布局以促进高效客流。通过创建畅通无阻的通道来优先考虑乘客的安全和舒适性至关重要。
车站的设计和规划应考虑到所服务乘客的个人特点,包括残疾人、老年人和不熟悉车站的乘客。为满足不同乘客的需求,车站设计应包括座位区、电梯、清晰的寻路信息。这些功能可以方便乘客使用车站,并增强车站的可达性和包容性。通过考虑乘客的多样化需求,车站可以成为一个对每个人更具吸引力和人性化的环境。
通过实施这些建议,城市轨道交通站点可以有效减少乘客感知的换乘距离,提高乘客的整体出行体验和满意度。
需要注意的是,不同车站之间甚至同一车站在不同时间段内的客流特征、换乘设施、换乘环境可能存在差异,导致各种影响因素的重要性水平不同。因此,本文仅基于现阶段金华市轨道交通系统津逸东线,提出设计和优化策略。这些策略可能不适用于其他站点。