11 月 19 日上午,2019 世界人工智能融合發展大會于山東濟南正式召開。大會由工業和信息化部、中國工程院、山東省人民政府指導,由山東省工業和信息化廳、省教育廳、省科技廳、省財政廳、濟南市人民政府和新一代人工智能產業技術創新戰略聯盟共同主辦。
在這場大會上,中國工程院院士、新一代人工智能產業技術創新戰略聯盟理事長高文;中國工程院院士、浪潮集團首席科學家王恩東;英國皇家工程院院士、鯤云科技首席科學家陸永青;富士康工業互聯網董事長李軍旗等嘉賓出席,并作了主題報告。
中國工程院院士高文
以下是演講實錄:
各位專家、各位同行,各位朋友,大家好!
智能交通之所以被稱為“智能”,是因為它可以通過一些技術手段來提高效率;比如,它可以知道哪條路上車多,哪條路上車少。雖然,以前的信號控制系統也做了很多類似工作,但那些系統大部分是通過地面的線圈,或是通過攝像頭采集到的信息來進行輸入。
今天我要和大家分享的,就是將最現代化的傳感器和計算系統合在一起,去把智能交通這件事做好。
首先,我們來了解一下什么叫數字視網膜。實際上,數字視網膜本現在已經形成了大規模的系統,這個系統要如何把視頻“看到”的東西很好地協調起來,需要解決三個問題,一個是為什么,一個是怎么做,一個是具體的概念是什么。
從整體來講,無論是數字視網膜,還是圖像處理或視頻處理,都經過了漫長的演化路徑。舉個例子,視頻處理技術剛出現的時候,模擬的是照相機,那時大概是在 19 世紀中前期;后來,從倫敦開始,人們慢慢將這些圖像以及其傳達的內容利用起來;一直到 19 世紀中葉計算機以后,人們開始把模擬圖像變成數字圖像,進行處理和傳輸;到了今天,圖像處理從衛星圖像到醫學圖像等領域不斷發展,甚至覆蓋了我們生活的各個方面。
以前人們在這一方面的處理能力不強,但現在,攝像頭和傳感器的發展越來越好,云計算也出現了。以前的攝像頭現在成了攝像機網絡,由幾千個幾萬個攝像頭聯系在一起;原先簡單的云存儲也變成了現在復雜的城市大腦,一個城市有一個總存儲中心和若干個分存儲中心。智能交通的決策分析都在總中心進行,而數據則從最末端的每個攝像頭傳輸到分存儲中心,再匯總到總中心。
那么,這些數據具體是怎么過來的?以前的模式就是,攝像頭把拍到的內容用編碼器壓縮后傳送回來,到了總中心再解壓,通過基于手工的系統來提取有用信息,并分析識別。隨著人工智能技術越來越成熟,上述手工完成的工作都交給了深度神經網絡來做,只要有足夠的算力就夠了。
但是,這樣一個系統,真的能提高效率嗎?如果效率不行,又是因為什么原因呢?剛剛說過,攝像頭拍到畫面后要進行壓縮,然后傳到總中心解碼,再進行特征提取、分析、識別;實際上,這個過程需要一定的時間,很難達到實時的效果。為了解決這個問題,人們不停地升級系統,還加了許多特殊的智能攝像頭來直接識別一些特征,不再經過編碼的過程,由此來節約時間。
這種解決方案真的好嗎?其實不然。因為,這樣做確實可以解決一些小問題,但是它帶來了更多的大問題。現在的攝像機網絡規模很大,所以它收集的數據也非常大,然而,數據大不等于大數據。這些攝像頭拍下來的東西,85%—90% 都是監控視頻的數據,很難對整個城市的管理和規劃改進有幫助;而且,它們存儲的時間最長也只有三個月,可能在兩個星期的時候就被覆蓋了或是廢棄了。
這樣的超大數據量僅有一個超低的價值密度,我們應該想辦法去轉換,讓它變得更有價值。問題其實出在架構上。按照原來的架構,幾乎 99% 的攝像頭只是用來拍攝,然后將內容編碼,即便它們傳輸的數據之后發揮了作用,攝像頭的貢獻也是極小的。所以,我們要想辦法讓攝像頭干更多的活兒,但又不是將其升級為簡單的智能攝像頭來識別人臉或車牌(原因上文已解釋)。
真正有用的方法是,讓攝像頭將有用的數據抽取出來,傳送到云,然后作為一個富有價值的大數據在云里處理并長期保存。這是從生物界受到的啟發。
無論人還是動物,我們都有眼睛,并且效率非常高。眼睛獲取光學信號是通過視網膜來獲取,視網膜里有兩種比較關鍵的細胞,感光細胞和錐狀細胞,這兩種細胞加起來有 1.26 億,而我們平時看到的東西,都是通過這些細胞來傳到大腦的。不過,在信息往后傳的時候,經過了若干層,每傳一層信息都會進行縮減,一直傳到腦神經的連接地方。
舉兩個例子,一個正常的孩子在學習的過程,實際是把神經的全連接網絡進行了增強和剪裁,有些連接變得越來越粗,有些連接慢慢就萎縮掉,最后他能有效率地辨別事物。相反,一個患有自閉癥的孩子末端神經和腦端神經一樣粗,而是沒有進行過裁剪的全連接,他的注意力很難集中。
這也就說明了信息縮減的重要性,但目前我們的攝像頭沒有信息縮減這個功能,相當于一個“自閉系統”。所以,我們的系統要像人的視覺系統一樣,把信息縮減了再往上送。
為了做這件事,去年我和一個北大的同志,還有一個阿里巴巴的同志,三個人一起在《中國科學》上發了一篇文章名為《數字視網膜智慧城市系統演進的關鍵環節》的文章。
如果用了所謂的數字視網膜,這件事就可以解決了,數字視網膜有八個最主要的特性,我匯總了三個最本質的特征:
第一個特征叫做全局統一的時空 ID,每個攝像頭要有一個全局統一的時空的 ID,地理位置是全局統一;每個攝像頭只要是送信息回來,馬上就知道這是全局統一幾點幾分的時間發生的事,發生的物理地點是在哪里。
第二個特征就是視網膜本身要有高效視頻編碼的能力,高效特征編碼的能力和聯合優化的能力。高效視頻編碼方面現在有很多標準,像 AVS 標準,MPEG4 等等;特征編碼現在的標準有 MPEG,CDVS 標準,CDVA 標準;如果在一個碼流里,同時要監控視頻編碼和特征編碼的話,要想辦法讓它們可以聯合優化。
第三個本質特征就是模型可更新,注意可調節,軟件可定義,這也是三個不同的要求。我們現在都是用神經網絡模型,隨著時間推移可能會有新的算法出來,所以,數字視網膜要是模型可更新的;換句話說,每個攝像頭上的算法都是可以升級的。注意可調節,主要是可以后臺控制它。同一個畫面里的東西,優先級在每個地方都是不一樣的,我們可以賦予它一個感興趣區域的功能,讓它有注意一些特別重要的區域,并保留這個區域的信息。
軟件可定義,可以通過軟件升級來實現軟件可定義。這種新的數字視網膜實際有三個流,不像傳統的攝像頭就是一個流,即一個視頻壓縮流或一個識別結果流。數字視網膜的三個流包括視頻編碼流,特征編碼流,模型編碼流。當然這三個流是有分工的,有的是在前端可以實時控制調節,有的是通過云端反饋出來進行調節和控制的。這就是數字視網膜。實際上,數字視網膜主要是通過腦眼合一的方式,將未來終端的信息,通過數字視網膜的處理,送到云端的。
現在,我們在深圳專門做數字交通,為了做這個事而進行大規模的訓練。其中,有一些開源的東西,包括建立開源生態,還有一些勢能的技術,里面視頻編碼標準是一塊重要的勢能技術?,F在,聯盟也在做一些基于剛才說的標準裝的大的應用標準,這些都在按部就班往前推進。
第一款數字視網膜芯片已經在路上,很快就會發布,這個芯片很小,就像一塊錢硬幣一樣,但卻把我剛才說的三個本質特征,八個功能全都包含在里面。將來,這種芯片可能會直接進入各種智能交通的系統里,會支撐數字視網膜的應用。
掃一掃在手機上閱讀本文章