“8·12天津?yàn)I海新區(qū)爆炸事故”已經(jīng)過(guò)去了近3年,大量的人員傷亡與財(cái)產(chǎn)損失給我們帶來(lái)了慘痛的教訓(xùn),同時(shí)也令我們開始反思城市危險(xiǎn)品管理中存在的問(wèn)題。當(dāng)時(shí),事故調(diào)查組從企業(yè)違規(guī)、政府枉法、危化品監(jiān)管不力等方面給出了事發(fā)原因。
與其不同的是,本文將以一個(gè)更加宏觀的層面,從大數(shù)據(jù)的角度,探討城市危險(xiǎn)品管理中存在的問(wèn)題,并提出相關(guān)的防范建議。本文的相關(guān)工作已經(jīng)發(fā)表在SIGKDD 2017上。
對(duì)于城市安全來(lái)講,
哪些危險(xiǎn)品最需防范?
最需要防范的是離我們最近的危險(xiǎn)品。
首先給出結(jié)論:比起易燃易爆程度、毒性程度等危險(xiǎn)品本身的性質(zhì),危險(xiǎn)品與我們的距離才是更能威脅我們生命財(cái)產(chǎn)安全的因素。以兩個(gè)事故為例。
一如前文所提,2015年8月12日,天津?yàn)I海新區(qū)危險(xiǎn)品倉(cāng)庫(kù)發(fā)生爆炸,造成了173人死亡、8人失蹤、797人受傷的嚴(yán)重事故。事故原因是涉案公司在靠近住宅區(qū)的地點(diǎn)違規(guī)存儲(chǔ)了近3000噸的危化品并發(fā)生自燃。
另外一則事故是,2001年9月,位于法國(guó)西南部工業(yè)城市圖盧茲的AZF化工廠發(fā)生強(qiáng)烈爆炸,事故造成31人死亡和2500人受傷。時(shí)任圖盧茲市市長(zhǎng)事后表示,此次事故說(shuō)明圖盧茲市民實(shí)際上是在“與炸彈同眠”。
長(zhǎng)久以來(lái),由于危險(xiǎn)品存儲(chǔ)與運(yùn)輸不當(dāng)而造成的城市安全事故層出不窮,而令我們刻骨銘心的事故都包含了一個(gè)特點(diǎn),那就是“離我們太近了”。
不考慮倫理問(wèn)題,僅就事件后果而言,我們害怕的不是落在戈壁灘上的原子彈,而是家園旁的一公斤TNT。
定義了危險(xiǎn)品對(duì)于我們的危險(xiǎn)性,那么如何尋找城市中由于危險(xiǎn)品的不合理規(guī)劃導(dǎo)致的危險(xiǎn)區(qū)域?如何得知造成城市區(qū)域危險(xiǎn)的原因?如何預(yù)測(cè)危險(xiǎn)的發(fā)生?
為了解決這些問(wèn)題,BIGSCity興趣組的相關(guān)研究者研發(fā)了Dangerous Goods Eyes(DGeye)系統(tǒng),其從大數(shù)據(jù)的角度為這些問(wèn)題的解決提供了新的方法。
系統(tǒng)介紹
DGeye系統(tǒng)主要由多源數(shù)據(jù)融合、危險(xiǎn)模式挖掘、因果依賴網(wǎng)絡(luò)及其應(yīng)用構(gòu)成。
多源數(shù)據(jù)融合的目標(biāo)是區(qū)域危險(xiǎn)性的評(píng)估,危險(xiǎn)模式挖掘的目標(biāo)是發(fā)現(xiàn)城市中長(zhǎng)期存在的、穩(wěn)定的危險(xiǎn)模式,因果依賴網(wǎng)絡(luò)及其應(yīng)用的目標(biāo)是研究模式間的因果關(guān)系以及預(yù)測(cè)城市區(qū)域危險(xiǎn)性。下面我們將具體介紹這些部分。
1、數(shù)據(jù)來(lái)源
DGeye系統(tǒng)的數(shù)據(jù)來(lái)源由危險(xiǎn)品運(yùn)輸車輛軌跡和手機(jī)信令數(shù)據(jù)兩部分構(gòu)成。
首先是危險(xiǎn)品車輛的軌跡數(shù)據(jù)。2010年7月,國(guó)務(wù)院印發(fā)《關(guān)于進(jìn)一步加強(qiáng)企業(yè)安全生產(chǎn)工作的通知》,要求自2011年8月1日起,所有新出廠的危險(xiǎn)品運(yùn)輸車輛,均需安裝北斗衛(wèi)星定位裝置。
定位數(shù)據(jù)由地方交通管理部門進(jìn)行分級(jí)收集管理,并接入交通部運(yùn)營(yíng)平臺(tái),從而實(shí)現(xiàn)了對(duì)于全國(guó)危險(xiǎn)品車輛位置的實(shí)時(shí)管理。
然而只了解危險(xiǎn)品車輛的位置并不能完全滿足危險(xiǎn)品管理的要求。DGeye系統(tǒng)除了需要知道危險(xiǎn)品在哪里之外,還需要了解“人”在哪里。
手機(jī)信令數(shù)據(jù)(手機(jī)和基站之間進(jìn)行信號(hào)連接的次數(shù)記錄,不記名、不含隱私信息)能夠統(tǒng)計(jì)城市中手機(jī)用戶的數(shù)量,DGeye系統(tǒng)使用手機(jī)信令數(shù)據(jù)作為第二個(gè)主要的數(shù)據(jù)來(lái)源。
DGeye系統(tǒng)使用柵格化方法,將城市地圖劃分為500m×500m的正方形區(qū)域,并對(duì)每一個(gè)區(qū)域的危險(xiǎn)品車輛數(shù)據(jù)和手機(jī)用戶所代表的人口數(shù)據(jù)進(jìn)行了統(tǒng)計(jì)。
下圖使用2015年1月的數(shù)據(jù),展示了北京和天津兩座城市中人口數(shù)量的分布和危險(xiǎn)品車輛的分布情況(左圖為人口分布,右圖為危險(xiǎn)品車輛分布)。
圖1 京津兩市人口與危險(xiǎn)品車輛分布
2、數(shù)據(jù)融合
從圖1中可以看出,如果我們只考慮危險(xiǎn)品車輛而不考慮人口的分布,會(huì)因?yàn)榻^大多數(shù)危險(xiǎn)品車輛都分布在城市外圍,而認(rèn)為城市中心區(qū)域并沒(méi)有太嚴(yán)重的危險(xiǎn)品運(yùn)輸危險(xiǎn)。因此需要對(duì)兩種數(shù)據(jù)進(jìn)行融合。
數(shù)據(jù)融合的主要挑戰(zhàn)是兩類數(shù)據(jù)在尺度上的異構(gòu)性。全北京的總?cè)丝诔^(guò)兩千萬(wàn),但是危險(xiǎn)品車輛的總數(shù)不超過(guò)一千輛,如果直接將兩種數(shù)據(jù)進(jìn)行融合,危險(xiǎn)品車輛的信息會(huì)完全淹沒(méi)在巨量的人口數(shù)據(jù)當(dāng)中。
為了解決這一問(wèn)題,DGeye使用馬氏距離將兩種數(shù)據(jù)進(jìn)行尺度歸一化。對(duì)于一個(gè)區(qū)域,我們使用人口和危險(xiǎn)品數(shù)量在馬氏距離空間上的乘積作為該區(qū)域的危險(xiǎn)評(píng)(Risky Score)。當(dāng)一個(gè)區(qū)域的危險(xiǎn)評(píng)分高于某個(gè)閾值時(shí),系統(tǒng)就認(rèn)為該區(qū)域是一個(gè)危險(xiǎn)區(qū)域(Risky Zone)。
下圖展示了京津兩地某日早晨10點(diǎn)的危險(xiǎn)區(qū)域分布和每個(gè)區(qū)域的危險(xiǎn)評(píng)分。顏色由綠到紅,表示Risky Score由低到高。從圖中可以看出,一些位于市中心的高危險(xiǎn)區(qū)域被檢測(cè)了出來(lái)。
圖2 京津兩市的Risky Zone分布
3、危險(xiǎn)模式挖掘
對(duì)于一個(gè)城市來(lái)說(shuō),相比于突發(fā)的不可控事件,我們更加關(guān)心長(zhǎng)期存在的、穩(wěn)定的危險(xiǎn),并且以此作為研究城市危險(xiǎn)品危險(xiǎn)的基石。
上一節(jié)中,Risky Zones每時(shí)每刻都在發(fā)生著變化,其對(duì)于危險(xiǎn)的實(shí)時(shí)監(jiān)控十分重要。然而,也正是因?yàn)檫@一原因,使得Risky Zones僅能反映城市中短暫的危險(xiǎn)事件,而不能反映出較為穩(wěn)定的城市危險(xiǎn)模式。
事實(shí)上,一個(gè)穩(wěn)定的危險(xiǎn)模式,對(duì)應(yīng)的是危險(xiǎn)在時(shí)間上的頻繁性和空間上的局部性。時(shí)間上的頻繁,才能保證危險(xiǎn)模式的危險(xiǎn)性與穩(wěn)定性;空間上的局部,才能保證同一模式下危險(xiǎn)的產(chǎn)生肌理相同。
為了挖掘危險(xiǎn)模式,我們提出了一種Apriori-like算法來(lái)挖掘城市中危險(xiǎn)區(qū)域的時(shí)空模式。
該算法的功能是發(fā)現(xiàn)城市中“空間上相鄰”(co-location)、“時(shí)間上頻繁”(co-occurrence)的危險(xiǎn)區(qū)域組合,如下圖所示。
圖3 危險(xiǎn)模式挖掘
通過(guò)Apriori-like算法,DGeye系統(tǒng)提取出了穩(wěn)定的城市危險(xiǎn)模式。下圖為北京和天津兩座城市在危險(xiǎn)模式上的比較。
圖4 京津兩市的危險(xiǎn)模式空間分布
從圖中可以看出,北京較大規(guī)模的危險(xiǎn)模式集中在城市中心區(qū)域,而天津較大規(guī)模的危險(xiǎn)模式則集中在天津港區(qū)。
這種差異反映出兩座城市具有不同的危險(xiǎn)品運(yùn)輸需求:北京的危險(xiǎn)品需求多為加油站、餐飲燃?xì)獾让裼萌剂蠟橹鳎\(yùn)輸車輛需要穿行市區(qū),因此在市中心造成連片的危險(xiǎn)模式;而天津的危險(xiǎn)品需求主要是天津港的危化品進(jìn)出口,因此危險(xiǎn)模式集中在天津港區(qū)。
在時(shí)間分布上,京津兩市的危險(xiǎn)模式也極為不同。
如下圖所示,北京的危險(xiǎn)品需求內(nèi)在驅(qū)動(dòng)力為市民的生活需求,因此危險(xiǎn)模式的時(shí)間分布和市民作息高度相關(guān),具有有著很強(qiáng)的節(jié)律性;而天津的危險(xiǎn)品需求為進(jìn)出口工業(yè)需求,由于港口能夠進(jìn)行三班倒的連續(xù)運(yùn)營(yíng),因此天津的危險(xiǎn)模式在時(shí)間上的分布比較均勻。
圖5 京津兩市的危險(xiǎn)模式時(shí)間分布
4、危險(xiǎn)模式依賴網(wǎng)絡(luò)
危險(xiǎn)模式包含兩個(gè)語(yǔ)義信息,一個(gè)是模式對(duì)應(yīng)的區(qū)域內(nèi)危險(xiǎn)品密度大,一個(gè)是人群密度大。
于是自然而然出現(xiàn)了一個(gè)問(wèn)題,為什么危險(xiǎn)品要去人群密度大的地方呢?
如上圖所示,其實(shí)無(wú)論是在北京還是天津,危險(xiǎn)品的運(yùn)輸?shù)哪康牡赝侵T如加油站、餐館以及危險(xiǎn)品生產(chǎn)地等。而在危險(xiǎn)品到達(dá)目的地的過(guò)程中,很可能需要途經(jīng)城市中人群密度較大的區(qū)域。
換言之,造成城市危險(xiǎn)模式的原因就在于危險(xiǎn)品目的地的危險(xiǎn)貨物需求!
因此,在若干城市危險(xiǎn)模式中,有些是危險(xiǎn)品運(yùn)輸?shù)哪康牡兀行﹦t是由于危險(xiǎn)品需求所導(dǎo)致的沿途風(fēng)險(xiǎn)。也就是說(shuō),城市危險(xiǎn)模式之間存在著很強(qiáng)的因果依賴關(guān)系。
為了便于城市管理部門對(duì)危險(xiǎn)模式進(jìn)行治理,我們需要進(jìn)一步地分析危險(xiǎn)模式之間的依賴關(guān)系。
如下圖所示,我們構(gòu)建了一個(gè)模式之間的依賴網(wǎng)絡(luò),該網(wǎng)絡(luò)中每一個(gè)節(jié)點(diǎn)代表一個(gè)危險(xiǎn)模式,當(dāng)一輛危險(xiǎn)品運(yùn)輸車從A模式經(jīng)過(guò)并駛向B模式時(shí),我們會(huì)對(duì)A到B模式之間構(gòu)建一條邊,并對(duì)邊的權(quán)重加1。
以此方法構(gòu)建出的網(wǎng)絡(luò),假設(shè) p_xto p_y 有一條邊,那么我們可以認(rèn)為區(qū)域 p_y 是危險(xiǎn)品的下一目的地, p_y (或其下游節(jié)點(diǎn))對(duì)危險(xiǎn)品的需求其導(dǎo)致了區(qū)域 p_x 的危險(xiǎn),因此我們也稱該網(wǎng)絡(luò)為危險(xiǎn)模式的因果依賴網(wǎng)絡(luò)。
基于危險(xiǎn)模式的因果依賴網(wǎng)絡(luò),為了得到網(wǎng)絡(luò)中“重要”的節(jié)點(diǎn),我們使用帶重啟動(dòng)的隨機(jī)游走算法(Random Walk with Restart),對(duì)危險(xiǎn)模式進(jìn)行了重要性排名。下圖是排名獲得的兩個(gè)例子。
圖6 危險(xiǎn)模式排名案例分析
左圖為北京市的危險(xiǎn)模式區(qū)域排名,其中紅色的模式為排名第一的危險(xiǎn)模式。該模式覆蓋了北京市東四北大街和建國(guó)門內(nèi)大街的一片區(qū)域。
生活在北京的朋友們都知道,該區(qū)域是北京的休閑和娛樂(lè)區(qū),著名的“簋街”特色小吃一條街就在這里。該區(qū)域火鍋、烤魚、麻辣小龍蝦等特色餐飲吸引了眾多的食客(人口密度大)。同時(shí),眾多餐館對(duì)煤氣罐等危險(xiǎn)貨物的需求導(dǎo)致該區(qū)域危險(xiǎn)品和人口聚集高度重合,形成了危險(xiǎn)品安全危險(xiǎn)。
左圖中綠色和藍(lán)色的兩個(gè)模式是因果依賴網(wǎng)絡(luò)中依賴于紅色區(qū)域的兩個(gè)主要模式。可以看出,這兩個(gè)模式覆蓋了從市區(qū)外到達(dá)紅色區(qū)域的幾條主干道路。
紅色區(qū)域?qū)τ谖kU(xiǎn)品的迫切需求,導(dǎo)致了這兩個(gè)區(qū)域發(fā)生了危險(xiǎn)品運(yùn)輸危險(xiǎn)。2016年1月17日,一輛輸液化氣運(yùn)輸車在綠色區(qū)域發(fā)生了燃燒事故,其目的地就是紅色區(qū)域的特色餐館。
由于我們使用的是歷史數(shù)據(jù),我們也想看看天津爆炸案發(fā)生前的危險(xiǎn)排名情況。
在圖6的右圖中,我們可以看到當(dāng)時(shí)天津市排名第一的危險(xiǎn)模式覆蓋了沿著天津港的一條南北走向的主干道,該道路直接和天津港碼頭的內(nèi)部鐵路相連。由該模式引起的兩個(gè)模式覆蓋了通往碼頭的一條東西主干道路,該道路穿過(guò)了天津?yàn)I海新區(qū)人口密度較高的城市中心。
東西道路和南北道路的交叉點(diǎn),就是天津?yàn)I海新區(qū)爆炸事故的爆炸點(diǎn)!
此外,基于因果依賴網(wǎng)絡(luò),我們提出了基于Expectation-Maximization (EM) 算法的貝葉斯模型,以當(dāng)前一小時(shí)的危險(xiǎn)模式分布來(lái)預(yù)測(cè)未來(lái)的一個(gè)小時(shí)的危險(xiǎn)模式分布。由于我們的因果依賴網(wǎng)絡(luò)能夠很好的建模模式之間的因果依賴關(guān)系,因此獲得了非常好的預(yù)測(cè)效果。
總結(jié)
以城市危險(xiǎn)品安全問(wèn)題的發(fā)現(xiàn)與防范為動(dòng)機(jī),BIGSCity興趣組的相關(guān)研究者提出了一個(gè)新型系統(tǒng)DGeye用于城市危險(xiǎn)品危險(xiǎn)檢查和預(yù)測(cè)。其重點(diǎn)技術(shù)在于危險(xiǎn)模式的挖掘、Apriori-like算法以及因果網(wǎng)絡(luò)的構(gòu)建和應(yīng)用。
危險(xiǎn)模式揭示了歷史數(shù)據(jù)中京津兩市危險(xiǎn)品管理危險(xiǎn)的時(shí)空間分布規(guī)律。基于因果依賴網(wǎng)絡(luò)的應(yīng)用能夠指導(dǎo)城市管理部門進(jìn)行城市危險(xiǎn)品治理和城市安全改造。
注:
本論文所使用的數(shù)據(jù)均為歷史數(shù)據(jù),實(shí)驗(yàn)結(jié)果只用于驗(yàn)證模型和算法的有效性,并不代表京津兩市的當(dāng)前城市危險(xiǎn)品危險(xiǎn)。在天津爆炸事故發(fā)生之后,政府對(duì)天津港的危險(xiǎn)品管理進(jìn)行了重點(diǎn)治理,目前隱患已經(jīng)排除。
對(duì)北京簋街地區(qū)存在的液化氣運(yùn)輸危險(xiǎn),大家也完全不必?fù)?dān)心。2016年,北京市啟動(dòng)了包括鋪設(shè)天燃?xì)夤艿涝趦?nèi)簋街的改造工程。目前,簋街已經(jīng)完全告別了罐裝氣時(shí)代。
關(guān)于BIGSCity
北航智慧城市興趣組BIGSCITY是隸屬于北京航空航天大學(xué)計(jì)算機(jī)學(xué)院的一個(gè)學(xué)術(shù)研究小組,小組致力于研究機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘在城市科學(xué)、社會(huì)科學(xué)等領(lǐng)域的交叉應(yīng)用技術(shù)。BIGSCITY的研究興趣包括:城市計(jì)算,時(shí)空數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí)可解釋性,以及AI在交通、健康、金融等領(lǐng)域的應(yīng)用等。本專欄將介紹BIGSCITY的一些研究成果,不定期更新與課題組研究相關(guān)的研究工作介紹,以及介紹與BIGSCITY相關(guān)的一切有趣的內(nèi)容。
掃一掃在手機(jī)上閱讀本文章