作者 | 王静远  北京航空航天大学计算机学院副教授

陈   超  北京航空航天大学研究生

“8·12天津滨海新区爆炸事故”已经过去了近3年,大量的人员伤亡与财产损失给我们带来了惨痛的教训,同时也令我们开始反思城市危险品管理中存在的问题。当时,事故调查组从企业违规、政府枉法、危化品监管不力等方面给出了事发原因。

与其不同的是,本文将以一个更加宏观的层面,从大数据的角度,探讨城市危险品管理中存在的问题,并提出相关的防范建议。本文的相关工作已经发表在SIGKDD 2017上。

 

一、对于城市安全来讲,哪些危险品最需防范?

首先给出结论:最需要防范的是离我们最近的危险品。比起易燃易爆程度、毒性程度等危险品本身的性质,危险品与我们的距离才是更能威胁我们生命财产安全的因素。以两个事故为例。

一如前文所提,2015年8月12日,天津滨海新区危险品仓库发生爆炸,造成了173人死亡、8人失踪、797人受伤的严重事故。事故原因是涉案公司在靠近住宅区的地点违规存储了近3000吨的危化品并发生自燃。

另外一则事故是,2001年9月,位于法国西南部工业城市图卢兹的AZF化工厂发生强烈爆炸,事故造成31人死亡和2500人受伤。时任图卢兹市市长事后表示,此次事故说明图卢兹市民实际上是在“与炸弹同眠”。

长久以来,由于危险品存储与运输不当而造成的城市安全事故层出不穷,而令我们刻骨铭心的事故都包含了一个特点,那就是“离我们太近了”。

不考虑伦理问题,仅就事件后果而言,我们害怕的不是落在戈壁滩上的原子弹,而是家园旁的一公斤TNT。

定义了危险品对于我们的危险性,那么如何寻找城市中由于危险品的不合理规划导致的危险区域?如何得知造成城市区域危险的原因?如何预测危险的发生?

为了解决这些问题,BIGSCity兴趣组的相关研究者研发了Dangerous Goods Eyes(DGeye)系统,其从大数据的角度为这些问题的解决提供了新的方法。

 

二、系统介绍

DGeye系统主要由多源数据融合、危险模式挖掘、因果依赖网络及其应用构成。

多源数据融合的目标是区域危险性的评估,危险模式挖掘的目标是发现城市中长期存在的、稳定的危险模式,因果依赖网络及其应用的目标是研究模式间的因果关系以及预测城市区域危险性。下面我们将具体介绍这些部分。

1、数据来源

DGeye系统的数据来源由危险品运输车辆轨迹和手机信令数据两部分构成。

首先是危险品车辆的轨迹数据。2010年7月,国务院印发《关于进一步加强企业安全生产工作的通知》,要求自2011年8月1日起,所有新出厂的危险品运输车辆,均需安装北斗卫星定位装置。

定位数据由地方交通管理部门进行分级收集管理,并接入交通部运营平台,从而实现了对于全国危险品车辆位置的实时管理。

然而只了解危险品车辆的位置并不能完全满足危险品管理的要求。DGeye系统除了需要知道危险品在哪里之外,还需要了解“人”在哪里。

手机信令数据(手机和基站之间进行信号连接的次数记录,不记名、不含隐私信息)能够统计城市中手机用户的数量,DGeye系统使用手机信令数据作为第二个主要的数据来源。

DGeye系统使用栅格化方法,将城市地图划分为500m×500m的正方形区域,并对每一个区域的危险品车辆数据和手机用户所代表的人口数据进行了统计。

下图使用2015年1月的数据,展示了北京和天津两座城市中人口数量的分布和危险品车辆的分布情况(左图为人口分布,右图为危险品车辆分布)。

图1 京津两市人口与危险品车辆分布

2、数据融合

从图1中可以看出,如果我们只考虑危险品车辆而不考虑人口的分布,会因为绝大多数危险品车辆都分布在城市外围,而认为城市中心区域并没有太严重的危险品运输危险。因此需要对两种数据进行融合。

数据融合的主要挑战是两类数据在尺度上的异构性。全北京的总人口超过两千万,但是危险品车辆的总数不超过一千辆,如果直接将两种数据进行融合,危险品车辆的信息会完全淹没在巨量的人口数据当中。

为了解决这一问题,DGeye使用马氏距离将两种数据进行尺度归一化。对于一个区域,我们使用人口和危险品数量在马氏距离空间上的乘积作为该区域的危险评(Risky Score)。当一个区域的危险评分高于某个阈值时,系统就认为该区域是一个危险区域(Risky Zone)。

下图展示了京津两地某日早晨10点的危险区域分布和每个区域的危险评分。颜色由绿到红,表示Risky Score由低到高。从图中可以看出,一些位于市中心的高危险区域被检测了出来。

图2 京津两市的Risky Zone分布

3、危险模式挖掘

对于一个城市来说,相比于突发的不可控事件,我们更加关心长期存在的、稳定的危险,并且以此作为研究城市危险品危险的基石。

上一节中,Risky Zones每时每刻都在发生着变化,其对于危险的实时监控十分重要。然而,也正是因为这一原因,使得Risky Zones仅能反映城市中短暂的危险事件,而不能反映出较为稳定的城市危险模式。

事实上,一个稳定的危险模式,对应的是危险在时间上的频繁性和空间上的局部性。时间上的频繁,才能保证危险模式的危险性与稳定性;空间上的局部,才能保证同一模式下危险的产生肌理相同。

为了挖掘危险模式,我们提出了一种Apriori-like算法来挖掘城市中危险区域的时空模式。

该算法的功能是发现城市中“空间上相邻”(co-location)、“时间上频繁”(co-occurrence)的危险区域组合,如下图所示。

图3 危险模式挖掘

通过Apriori-like算法,DGeye系统提取出了稳定的城市危险模式。下图为北京和天津两座城市在危险模式上的比较。

图4 京津两市的危险模式空间分布

从图中可以看出,北京较大规模的危险模式集中在城市中心区域,而天津较大规模的危险模式则集中在天津港区。

这种差异反映出两座城市具有不同的危险品运输需求:北京的危险品需求多为加油站、餐饮燃气等民用燃料为主,运输车辆需要穿行市区,因此在市中心造成连片的危险模式;而天津的危险品需求主要是天津港的危化品进出口,因此危险模式集中在天津港区。

在时间分布上,京津两市的危险模式也极为不同。

如下图所示,北京的危险品需求内在驱动力为市民的生活需求,因此危险模式的时间分布和市民作息高度相关,具有有着很强的节律性;而天津的危险品需求为进出口工业需求,由于港口能够进行三班倒的连续运营,因此天津的危险模式在时间上的分布比较均匀。

图5 京津两市的危险模式时间分布

4、危险模式依赖网络

危险模式包含两个语义信息,一个是模式对应的区域内危险品密度大,一个是人群密度大。

于是自然而然出现了一个问题,为什么危险品要去人群密度大的地方呢?

如上图所示,其实无论是在北京还是天津,危险品的运输的目的地往往是诸如加油站、餐馆以及危险品生产地等。而在危险品到达目的地的过程中,很可能需要途经城市中人群密度较大的区域。

换言之,造成城市危险模式的原因就在于危险品目的地的危险货物需求!

因此,在若干城市危险模式中,有些是危险品运输的目的地,而有些则是由于危险品需求所导致的沿途风险。也就是说,城市危险模式之间存在着很强的因果依赖关系。

为了便于城市管理部门对危险模式进行治理,我们需要进一步地分析危险模式之间的依赖关系。

如下图所示,我们构建了一个模式之间的依赖网络,该网络中每一个节点代表一个危险模式,当一辆危险品运输车从A模式经过并驶向B模式时,我们会对A到B模式之间构建一条边,并对边的权重加1。

以此方法构建出的网络,假设 p_x\to p_y 有一条边,那么我们可以认为区域 p_y 是危险品的下一目的地, p_y (或其下游节点)对危险品的需求其导致了区域 p_x 的危险,因此我们也称该网络为危险模式的因果依赖网络。

基于危险模式的因果依赖网络,为了得到网络中“重要”的节点,我们使用带重启动的随机游走算法(Random Walk with Restart),对危险模式进行了重要性排名。下图是排名获得的两个例子。

图6 危险模式排名案例分析

左图为北京市的危险模式区域排名,其中红色的模式为排名第一的危险模式。该模式覆盖了北京市东四北大街和建国门内大街的一片区域。

生活在北京的朋友们都知道,该区域是北京的休闲和娱乐区,著名的“簋街”特色小吃一条街就在这里。该区域火锅、烤鱼、麻辣小龙虾等特色餐饮吸引了众多的食客(人口密度大)。同时,众多餐馆对煤气罐等危险货物的需求导致该区域危险品和人口聚集高度重合,形成了危险品安全危险。

左图中绿色和蓝色的两个模式是因果依赖网络中依赖于红色区域的两个主要模式。可以看出,这两个模式覆盖了从市区外到达红色区域的几条主干道路。

红色区域对于危险品的迫切需求,导致了这两个区域发生了危险品运输危险。2016年1月17日,一辆输液化气运输车在绿色区域发生了燃烧事故,其目的地就是红色区域的特色餐馆。

由于我们使用的是历史数据,我们也想看看天津爆炸案发生前的危险排名情况。

在图6的右图中,我们可以看到当时天津市排名第一的危险模式覆盖了沿着天津港的一条南北走向的主干道,该道路直接和天津港码头的内部铁路相连。由该模式引起的两个模式覆盖了通往码头的一条东西主干道路,该道路穿过了天津滨海新区人口密度较高的城市中心。

东西道路和南北道路的交叉点,就是天津滨海新区爆炸事故的爆炸点!

此外,基于因果依赖网络,我们提出了基于Expectation-Maximization (EM) 算法的贝叶斯模型,以当前一小时的危险模式分布来预测未来的一个小时的危险模式分布。由于我们的因果依赖网络能够很好的建模模式之间的因果依赖关系,因此获得了非常好的预测效果。

 

三、总结

以城市危险品安全问题的发现与防范为动机,BIGSCity兴趣组的相关研究者提出了一个新型系统DGeye用于城市危险品危险检查和预测。其重点技术在于危险模式的挖掘、Apriori-like算法以及因果网络的构建和应用。

危险模式揭示了历史数据中京津两市危险品管理危险的时空间分布规律。基于因果依赖网络的应用能够指导城市管理部门进行城市危险品治理和城市安全改造。

注:本论文所使用的数据均为历史数据,实验结果只用于验证模型和算法的有效性,并不代表京津两市的当前城市危险品危险。在天津爆炸事故发生之后,政府对天津港的危险品管理进行了重点治理,目前隐患已经排除。

对北京簋街地区存在的液化气运输危险,大家也完全不必担心。2016年,北京市启动了包括铺设天燃气管道在内簋街的改造工程。目前,簋街已经完全告别了罐装气时代。

关于BIGSCity

北航智慧城市兴趣组BIGSCITY是隶属于北京航空航天大学计算机学院的一个学术研究小组,小组致力于研究机器学习与数据挖掘在城市科学、社会科学等领域的交叉应用技术。BIGSCITY的研究兴趣包括:城市计算,时空数据挖掘,机器学习可解释性,以及AI在交通、健康、金融等领域的应用等。本专栏将介绍BIGSCITY的一些研究成果,不定期更新与课题组研究相关的研究工作介绍,以及介绍与BIGSCITY相关的一切有趣的内容。

 

参考文献

1、Wang J, Chen C, Wu J, et al. NoLonger Sleeping with a Bomb: A Duet System for Protecting Urban Safety fromDangerous Goods[C]//Proceedings of the 23rd ACM SIGKDD International Conferenceon Knowledge Discovery and Data Mining. ACM, 2017: 1673-1681.

2、让城市不再与炸弹同眠:大数据助力城市危险品管理 | 雷锋网.

3、2015 Tianjin explosions