前兩天公眾號所發出的推文《我為什么要強烈反對:對著數據做數據的研究》,引發了很多有益的討論。交通大數據分析研究的水面過于平靜,激起點波瀾是好事情。看了大家的觀點,感到有必要談一下自己的想法。
首先,作者所提出的討論問題的框架(“定義-> 數據源->計算方法-> 擴樣方法-> 數據校核”)是數據分析的討論模式。這并非是說大數據分析不需要這方面的工作,由于大數據分析是建立在基于數據的統計分析基礎之上,必要的數據質量評估和數據修復是前提和基礎,但遠非全部。在大數據分析中采用“是否獲得確切的結論”,而不是采用“是否獲得有價值信息”的方式討論一些局部研究工作是不恰當的。
同時需要注意的是大數據分析要盡可能避免“擴樣”,這一方面是大樣本分析與小樣本分析具有本質性的差異。小樣本方法也稱為“精確方法”,因為它往往是基于有關統計量的精確分布,小樣本方法的統計特性,如顯著性水平、置信系數等,往往是精確而非近似的。大樣本方法則被稱為“漸近方法”或“近似方法”,因為它是基于統計量的漸近分布,且有關的統計特性只是近似而非精確的,因而產生了近似程度如何的問題。更為重要的是,大數據具有很強的“蓋然性”特征(蓋然性在《現代漢語詞典》中的解釋是:有可能但又不是必然的性質)。由于大數據分析所使用的數據資源并非針對分析目的的“定制數據”(就如移動通信信令數據并非專為空間活動檢測的數據),其中的屬性判斷涉及“否定-模糊-肯定”三個值域,相當部分個體的屬性判斷是落在“模糊”區域的。在職住空間聯系結構的判斷中,就涉及對于是否就業者的判斷。缺乏個體社會屬性信息情況下,僅僅根據用戶空間活動特征必然存在相當部分難以判斷,而試圖獲取個體社會經濟屬性則是一條不能逾越的紅線。采用傳統數據分析方法進行擴樣,強行區分將中間難以判斷部分人歸入是或者否的范疇,反而會造成可信度(大數據分析中應該采用可信度而非精度)方面的問題。因此,交通大數據分析一般應該僅使用“否定”和“肯定”部分所提供的信息。當然這種信息是不完整的,這就是為什么我一直強調大數據分析所獲得的單項證據絕大多數為“間接證據”的原因。認為這種不完備證據不具有分析價值是嚴重偏離了大數據分析的初衷,大數據分析中恰恰非常強調低信息密度數據。大數據分析最為重要的一點,是充分利用各種有價值信息,多層次、多角度、連續地觀察研究對象,對具體數據分析的任務應定位于“是否可以獲取有價值的信息”,而非“獲取完備信息”(直接證據)。交通大數據分析研究并非不知道信息缺陷,而是不放棄不完備信息(間接證據),力圖通過“證據鏈”,采用基于證據的“證-析”方法解決問題。作者所批評的“職住空間聯系結構”研究工作,糾結于400萬確定個體以外部分占有很大份額,是誤解了相關的研究目的,自認為該方面的研究是力圖通過移動通信信令數據來確切了解城市中的各種職住分布與職住空間聯系,但是該項研究主要目的是識別“職住的空間聯系結構”包括哪些類型(至于作者所提出的推文中沒有討論數據具體處理的質量分析問題,我已經建議作者應該去看該碩士論文,而不是公眾號的短文)。事實上,對于交通角度的研究工作來說,如果為了研究當前通勤交通流量是完全沒有必要繞道“職住”關系這個圈子。采用移動通信信令數據研究“職住空間聯系結構”特征的工作,并非識別每一個具體“職住社區”的空間位置和范圍,主要是希望通過移動通信信令數據判斷城市中的職住“社區”(此社區并非城市規劃中的“社區”,而是復雜網絡中所定義的社區)結構,以及識別城市中具有廣泛意義的職住的空間聯系關系究竟有幾種類型,以完成宏觀層面的問題結構判斷,為相關案例剖析和深入調研方案打基礎。作者混淆了大樣本分析與小樣本分析的差異,也沒有真正理解“大數據分析”與“數據分析”的不同,也不知道這部分工作是在“宏微觀嵌套分析框架”下進行的,因此文中的這部分結論我是完全不贊同的。
面對大數據,傳統統計意義上的數據校核往往是難以實現的,這正是李國杰院士提出在大數據科學中需要研究相關統計學新問題的原因。仍然以職住空間聯系結構研究為例,移動通信信令數據的基礎是移動通信基站服務范圍,在市域范圍內基站服務范圍差異很大,中心城區內是2-300米的半徑,而外圍地區則達到數公里乃至10公里左右,也就是說其空間坐標參照系是非均勻的,這意味著相當部分定位數據橫向是不可比的。即使采用質量更好的數據,所確定的個體位置也是具有很大不確定性。想要通過盡力提升數據質量,獲取理想數據來完成數據分析工作,仍然沒有擺脫傳統數據分析的思維方式,有可能遇到難以克服的障礙。如果把視野擴展到交通大數據分析中的“輿情分析”,通過語義分析技術從網絡中提取的輿情信息,更加不是傳統數據檢驗能夠完成可信度評估的任務。交通大數據分析探索的是完全不同的另外一條研究路線:挖掘不完備數據資源的價值,通過將間接證據組合成為證據鏈來,基于證據鏈通過群決策完成問題識別與判斷。
作者的題目強調批判“對著數據做數據的研究”,有可能混淆了技術應用研究與探索性科學研究的界限。城市交通已經進入“物理-信息-社會”三元空間的時代,感知網、物聯網等技術發展使得數據繞過“人”而直接產生信息,信息空間有很強的獨立性。在此背景下交通大數據分析的任務并非是“利用更多的數據資源去對已有經驗外延”(這應該是交通數據分析的任務),而是充分利用各種信息,盡力發現我們所不知道的問題,以更好地應對具有復雜適應性特征的城市交通演化。為此,必須展開大量的探索性研究工作,從并不完備的海量數據中提取有價值信息的方法,就是其中的一部分。缺少了這部分工作,根本談不上在大量“間接證據”的基礎上構建“證據鏈”,進而完成城市交通的“情報決策”。但是要注意“對著數據做數據的研究”與“僅根據不完備數據分析下結論”是兩個完全不同的概念,作者似乎沒有對此加以區分。前者是科學和技術發展需要的(再次強調由于技術的發展,信息已經成為一個相對獨立的空間),后者是錯誤的。就像不能認為采用傳統數據分析方法進行規劃等方面的問題研究是錯誤路徑一樣,也不能認為在一定需求背景下展開針對數據本身的特征提取和情報決策研究是鉆牛角尖。前者是采用數據分析技術的應用研究,后者是構建交通大數據分析的理論與方法的研究,任務不同。
交通大數據分析技術研究必然會有波折起伏,在這個過程中更多觀點的討論是非常必要,只有這樣才能夠真正完成科學和技術的升華。對于一個遠談不上成熟的領域,在學術上還是很有必要區分“數據分析”與“大數據分析”的差異,以避免引起混亂。
掃一掃在手機上閱讀本文章