1手机信令数据处理方法
1.1手机信令数据特征分析
居民的日常出行活动是城市交通需求的直接反映。随着通信技术在交通出行调查中的应用和推广,交通数据获取方法发展很快。居民手机拥有量日益增长,手机已经可以作为居民随身的出行探测器,移动通信数据中会留下用户的电子脚印,实时反映居民的出行位置等信息。手机信令数据能够提供大量的居民空间活动信息,是分析城市交通的重要数据源,利用手机信令数据分析出行信息已经具备实际应用的条件。
携带手机的用户在由基站构成的移动通信网络范围内活动会产生位置更新信息,并被移动业务中心记录下来,保存在数据库中。笔者通过对上海某移动公司提供的数据进行分析了解到,被记录的数据字段包括用户手机识别号、手机号、用户所在位置区(LAC)及Cell小区、触发事件类型、记录时间等信息。其记录表结构如表,数据范例如图。其中事件类型(EventID)与前述上报手机位置信息的机制是一致的,事件类型(EventID)字段包括主叫、被叫、位置更新、周期位置更新、收发短信、开机关机等。手机信令数据还包括基站位置等基础信息。
表 1.1‑1 移动业务中心存储用户手机信令数据表结构
序号 | 字段名称 | 描述 | 类型 |
1 | IMSI | 手机识别号,IMSI或由IMSI单向加密的结果,唯一标识手机 | Text加密,可能为空 |
2 | TMSI | TMSI | UINT64类型数字,暂时为0 |
3 | MSISDN | 手机号 | UINT64类型数字 |
4 | IMEI | 手机型号信息 | UINT64类型数字 |
5 | TimeStamp | 时间截,由厂商在采集卡上对成功发生的信令过程加上的时间标记,精确到s | |
6 | LAC | 位置区编号 | UINT32类型数字 |
7 | CellID | 小区编号 | UINT32类型数字 |
8 | EventID | 事件类型 | UINT8类型数字 |
9 | Stat | 结束通话的原因 | UINT8 |
10 | Flag | 进出小区标示位 | UINT8 |
11 | Reserved1 | 保留字段 | TEXT |
12 | Reserved2 | 保留字段 | TEXT |
手机数据有很多的特点和优势:
- 手机信令数据拥有极大的样本量;
- 由于手机使用的普及,采集的居民出行信息覆盖范围广;
- 采集数据实时性强,能及时更新数据;
- 对基础设施要求低;
- 定位精度满足交通分析的需求,位置信息精确到经纬度,能准确定位到出行的起讫点、驻点等,很适用于对通勤交通的分析。
基于手机数据可以分析预测居民出行状态、出行韵律,为分析城市交通出行状态,居民出行行为,理解城市交通发生机理,分析城市交通拥堵和城市交通管理与规划提供参考依据。
1.2手机信令数据预处理
随着社会的不断发展、信息化水平的不断提高,手机普及率、使用率也随之提高,每秒可能产生几十万甚至成百上千万条手机数据记录。因此,海量手机信令数据动态的实时存储和处理十分关键。本次研究将通信运营商提供的大量手机信令数据存储于SQL数据库中,利用SQL强大的数据库引擎提高了数据的存储、搜索和查询效率。同时按照不同的规则,在不同的数据处理阶段,设置了多级过滤器,一步步对大量的原始手机信令数据过滤除噪,最终获得质量较好的手机信令数据信息。
1.2.1信令数据存储
本次研究将运营商提供的海量手机信令数据存储于优化的SQL数据库中,由于底层信令采集系统提供的手机用户信令数据存在的字段较多,并且部分字段对交通信息提取没有实际意义,为提升系统的处理效率、查询性能,以及方便各类功能对数据的调用,首先要进行数据的预处理,主要完成数据的质量分析、清洗、转换、预统计、加载等操作(相当于数据挖掘的ETL过程)。最终保留需要的字段有MSISDN、TimeStamp、LAC、CellID、EventID,在预处理时可以将不需要的字段去掉。另外,存在同一用户在同一位置有多条记录的情况,需要将同一用户在同一位置发生的事件进行压缩,只考虑用户的出行轨迹,体现出移动性即可,不需要考虑用户发生的具体业务。
本次研究搭载SQL数据库平台,对原始数据进行预处理,处理后得到的最终手机信令数据格式如图。
图 1.2‑1 信令数据存储于SQL数据库示意图
存储文件格式及命名:按照GPS时间对采集的手机信令数据进行合并,每1min产生一个数据文件,文件命名如SJXL—20130602000Ltxt。接口保存采用文本文件形式,文件编码采用ASCII。将每分钟的信令数据进行合并后存储成一个文件,文件中每一行对一个信令事件进行表述,用回车符(CR,ASC码值为OxOD)分割各条记录。每条记录由若干个字段组成,以逗号(ASC码值为0x2C)隔开各个字段,以相同个数字符串来表示各字段,当位数不够时通常在字符串前面加0,如:000、001、00151、09141、01234567、0123456789、20130402000011。
1.2.2信令数据过滤
①数据分组:后续系统分析模块牵涉到大量的数据计算,需要进行数据分组优化,其原理与在线系统将运算分布到各节点类似,通过将数据分发至不同的数据组,再分别对每组数据进行计算,达到优化运行效率,缩短运行时间的目的。
②EVENTID过滤功能:由于信令事件类型中的部分类型信令(主要是一些失败类型的信令),其位置并不一定反映用户的真实位置,在分析时需过滤掉这部分信令。建议的过滤列表如下所示:
1)切换失败:EVENTID=011,切换失败,Cause=SS7HandOverRequired定义的切换失败原因编码;
2)通话结束、挂机:EVENTID=014,Cause=000;
3)其它类型事件:
EVENTID=015,主叫失败,Cause=000;
EVENTID=016,被叫失败,Cause=000;
EVENTID=017,发送短信失败,Cause=000;
EVENTID=018,接受短信失败,Cause=000;
EVENTID=022,正常位置更新失败,Cause=000;
EVENTID=024,周期性位置更新失败,Cause=000。
1.2.3信令数据除噪
基于手机切换定位的交通信息采集技术能够简单、高效、低廉地获取交通信息,为相关应用研究提供丰富的交通数据。但由于移动通信网络自身及周边环境的影响,获取的手机定位数据中夹杂着较多的“噪声”数据,一定程度上影响着交通信息获取的效果。这些噪声数据主要有以下两种:
①切换扰动数据(如兵兵切换)。即手机在服务小区和相邻小区之间来回进行切换产生的数据。切换扰动产生的原因是由于手机用户在相邻的蜂窝小区之间时,由于GSM中的基站系统对用户的功率信号变换进行切换判断的误差导致切换扰动引起的,这种数据是普遍存在的;
②在较长的时间内未发生位置切换的数据。在GSM网络中,为防止手机与通信基站失去联系而引入周期性位置更新的功能,要求手机隔一定的时间要向基站系统报告当前所处的CELLID,便于基站及时了解手机所处的位置和状态,因此当用户长时间处于某一固定场所时就会产生大量冗余的定位数据。
由于这些“噪声”数据不利于确定手机用户的运动轨迹,在分析过程中需对其进行处理。如剔除小区编号(CELLID)和位置区编号(LAC)字段为-1 (0或空值)的数据行,这些是移动设备通信故障时的缺陷数据;剔除MSID、CELLID都相同的重复数据行,这些是冗余的手机数据。
2、区域交通出行特征提取关键技术分析
2.1地理空间数据投影与映射技术
移动通信网信号覆盖与交通网络的相互映射关系,是手机技术应用于交通参数采集的最为关键的基础数据。直接利用手机定位数据,只能得到手机用户在移动通信网络中不同的信号覆盖小区间的运动情况,而只有将移动通信网络信号覆盖映射到交通网络上,才能得到手机用户在交通网络中的运动情况,用于计算和分析手机用户的交通出行。
如图所示,图中的正方形区域代表交通小区,正方形间的区域代表道路。则可以看出,移动蜂窝网络中的基站小区和交通网络中的小区、道路在空间上呈现有规则的对应。因此,若能建立特定的匹配规则,处理好一对多、多对一、多对多的关系,则可根据手机用户在通信网络中的出行情况,推断出手机用户在交通网络中的出行情况。
图 2.1‑1 移动网络覆盖与交通网络匹配示意图
由于基站信号的强弱与天气、建筑物遮挡等诸多因素有关,基站小区的边界并非有严格的界限。因此,可采用专用的路测设备,对分析范围内的基站小区信号覆盖范围进行有限次路测(如6次)。根据有限次路测小区局部边界成果,利用软件中的空间分析工具计算基站小区的泰森多边形边界,作为每个基站小区的边界。
在移动通信网络信号覆盖映射到道路路段用于手机速度计算的基础上,进一步研究移动通信网络信号覆盖映射至交通分析区域和交通分析断面的方法,用于区域客流检测与断面客流检测。
①对区域客流分析来说,利用GIS软件中的空间分析工具。计算某基站小区i与某交通分析区域j交集覆盖面积Cr(i,j),当前基站小区覆盖面积Area_CELL(i) 大于当前交通分析区域覆盖面积,当基站小区覆盖面积与交通分析区域覆盖面积分别达到一定的阈值标准时,将当前基站小区映射至当前交通分析区域要求当不同交通分析区域相互独立(相互间无交集)时,每个基站小区唯一映射至一个交通分析区域。
②对断面客流分析来说,首先确定反映客流跨越行为的关键断面所在位置,断面的位置设置在基站小区的边界上(如上所述,此边界并非真实的断面界限,有移动网络信号强弱影响,现实的断面位置在有限的空间范围内)广将断面两侧的基站小区分别进行映射至两侧的交通分析区域TAZ(b),同样要求每个基站小区唯一对应至某个交通分析区域。将符合TAZ(a)-TAZ(b)的手机用户识别为正向跨越断面,符合的手机用户识别为反向跨越断面,以区分跨越断面的方向性。
2.2区域居住人口识别技术
区域居住人口识别技术是对手机长期历史数据分析,得到各个手机用户在不同日期各个时间段的空间活动范围,根据人口在时间与空间上的出现规律,筛选出区域居住人口。
本文将0:00-6:00间在研究区域的手机用户视为本区域的居住人口。将符合条件的手机用户通过SQL数据库筛选出来,提取他们的手机信令数据进行相关的交通出行分析。
2.3出行活动链提取技术
目前已有的探索性方法主要针对GPS定位方式获取的出行轨迹数据,用于手机定位信息的相关识别算法较少。本研究将在对数据充分挖掘与分析的基础上,设计针对手机定位信息的出行链获取方法。
在获取单用户收集信息轨迹之后,由于手机定位过程中的误差以及基站分布等客观因素的存在,导致手机定位信息的精度难以保障,无法直接对手机用户的出行链进行获取。并且,出行的定义以及交通OD点位的确定,也是出行链获取必不可少的因素。因此,本研究结合手机定位数据的特点以及实际工程应用的需求,对手机原始数据进行进一步处理。
在实际数据处理过程中,本研究针对距离以及时间的变化,进行了分析与处理算法的设计。
第一步,停靠点判定。
以距离阈值为判定条件。若两点间距离小于阈值,则状态判定为停留;若两点间距离大于阈值,则状态判定为移动。
第二步,OD点判定。
以距离阈值ki以及时间阈值kt为判定条件。
逻辑流程为:若点间距离小于距离阈值,则该点状态为停留;若点间距离大于距离阈值,则该点状态为移动。在状态判定结束后,计算连续停留段的起讫点时间间隔,将其定义为停留状态持续时间。若停留状态持续时间小于时间阈值,则这些停留点的状态判定为短暂停留;若停留状态持续时间大于时间阈值,则该段时间内的第一个点判定为上次出行的D点,最后一个点判定为下次出行的O点。
如此,OD点判定完成。
2.4出行OD分布时变分析技术
基于手机的交通分析区域居民出行时间分布分析流程如下(以交通组团为例)。
图 2.4‑1 基于手机信令的交通组团居民出行时间分布分析
步骤1 :根据每个交通组团每位手机居民的出行目的地分析情况,进一步判断每位手机居民每天离开居住地以及到达工作地的时段,以出现天数频率最高的时段作为该手机居民离开居住地出发时段以及到达工作地到达时段。
步骤2:统计得到每个交通组团不同时段出现的手机居民数量,并将(移动、联通)手机用户扩样至总体人群,得到每个交通组团居民出行时间分布情况。
3、区域出行特征提取
3.1居住人口分布
假设小区常驻人口为一周内夜间(0:00-6:00)停留在该小区累计超过三天的人口,通过SQL数据库对海量的手机信令数据的筛选得到常住人口为223826人。其中教育科研区与一类住宅区的居住人数最多,有些小区甚至达到1万人以上,如图为居住人口分布。
图 3.1‑1 居住人口分布图
利用GIS地理信息系统对居住人口进行核密度分析,如图所示,可以看到西部人口分布较为密集,东部人口较为稀疏,主要是由于小区的功能定位中西部多为教育科研区和住宅区、办公区等,而东部主要为工农业生产区和物流仓储区。由此西部的公交客流需求量大于东部,公交线网的布设应主要集中在西部地区。
图 3.1‑2 居住人口核密度分布图
3.2机动化出行OD分布
利用手机信令数据进行出行OD特征分析,可获得出行OD分布,根据每一条数据中的时间、位置可以得到相应的速度,利用速度筛选得到机动化出行总量为每天304896人次,此值常住人口在工作日每日出行量的平均值,这里不考虑同一小区内部的出行量,研究内容是不同小区间的客流交换。
机动化出行总量中对外交通发生量所占比例较高,约为69%,总计每天210063人次,主要发生在101与202、102与202、102与206等小区之间,可见102小区的对外交通出行的需求量更大;内部交通发生量约占总量的31%,总计每天94833人次,主要发生在101与104、102与104小区之间,不包括同一小区内部的出行量,101和102的对内出行需求量较大。
综合以上可以发现,101和102的机动化出行量较其他小区高,符合居住人口分布的规律。指的一提的是根据对大量数据进行分析并结合相关调查,估算出机动化出行中公交所占比例约为60%,可由此估算每天的公交出行总量,根据手机信令数据筛选得到的机动化出行量进行公交出行客流预测。
图 3.2‑1 出行OD分布图
3.3出行特征时变分析
由手机信令数据可以得到居民的出行时间,由此统计各个时间段的出行人数,如图为每日24小时机动化出行总量的变化曲线。24小时出行中工作日即周一到周五的变化趋势基本相同,早晚高峰分布明显,早晚高峰的出行量明显大于平峰时期,早高峰大约出现在7:00-9:00,出行量在8点左右最为集中,出行量最高达到50000人次,晚高峰大约出现在16:30-18:30,由于加班或者错峰行为的存在,持续时间较长且有分散现象;而周末的出行量总体较工作日少,全天的出行量分布也较为均匀,主要集中在8:00-20:00,由于居民在周末大多无约束,趋向于晚点出门,早上公交客流出行的开始时段稍晚于工作日。由此,工作日的早晚高峰可缩短发车间隔以满足较大的客流需求,在平峰及周末时段无需太多班次,并且可以将周末首末班车适当调整,首班车时间可较工作日晚一些,末班车可保持不变。同时公交客流需求不局限于白天,部分居民夜晚同样有出行需求,1:00-6:00为夜班车,在起始时段客流人数在10000左右,也有相当一部分的客流需求,公交车服务班次可减少,发车频率也应适当降低。
图 3.3‑1 每日24小时机动化出行总量的变化曲线
对一周的机动化出行进行分析研究,如图为周一至周日机动化出行总量变化曲线,周一到周四出行量基本相同,机动化出行量都在30万人次左右,主要为通勤出行;周五的出行量上涨明显到达32万人次,增加出行量部分应为工作日结束后的放松以及朋友聚会等出行;周六又回到30万人次,周日出行量明显减少,只有26万次的机动化出行,减少原因可能是部分人选择周日在家休息迎接下一周即将到来的工作。除去周日,一周出行量变化不大,周末的公交车可适当增加发车间隔以避免运能的浪费,而平日可只在高峰与平峰时段做出适当调整,高峰时段减少发车间隔满足公交出行客流需求。
图 3.3‑2 周一至周日机动化出行总量变化曲线
需要手机信令数据请私信,需要处理也可私信。