復旦數學家: 從《般若心經》揭開大數據的本質 | 文化縱橫_風聞
文化纵横-《文化纵横》杂志官方账号-2019-09-07 20:19
《文化縱橫》2019年8月新刊現已上市,點擊文末“閲讀原文”即可訂閲。
✪ 吳宗敏 | 復旦大學數學學院
《文化縱橫》微信:whzh_21bcr
**【導讀】**大約從2012年起,“大數據”通過各種傳播渠道,成為公眾耳熟能詳的熱詞。然而在媒體的狂轟濫炸背後,“大數據”對於大多數人來説其實還是一個人雲亦云空泛的詞彙,其真正內涵對大眾的理解還存在距離。事實上,大數據技術不僅已經在現實中改變了人類生活的方方面面,也帶來了人們意識觀念上的深刻改變:人類的一切經驗皆是數據、皆可量化處理。一些科學家認為大數據是科學研究繼實驗觀察、理論建構、計算機仿真之後的“第四範式”。而本文則以佛教認識論中“受想行識”的分類,以兩千多年前的佛教思想來界説今天的大數據技術。本文不僅是對大數據概念的清晰介紹,而且讓人感到今天的前沿技術並不是對古老思想的全盤顛覆,而是後者的傳承與最新進展。文章原載“科學1915”,僅代表作者觀點,特此編髮,以饗讀者。
大數據的受、想、形、識
大數據這個新名詞,近來總在不同的媒體出現。究竟什麼是大數據,不同人有着不同的理解與解讀,但總體形象還不十分清晰。如果説成數據科學,那就比較容易理解了,即關於對象為數據的科學,而大數據應該是數據科學中的問題,是尚未解決的問題,是數據科學延伸的一個研究領域。
▍何謂大數據
大數據與傳統的數據科學有什麼差異呢?“大”的一個直接解釋是多,但數據多並不自然等同於大數據。譬如小孩子背圓周率,不可能全部背出來,因為這是一個無限小數,也就是説數據是無限多。但是數學上早已給出多種不同的計算方法,想要精確到多少位就精確到多少位。
筆者認為,凡是數學已給出方法計算的,都不能算作大數據,或者説用現有數學方法處理的數據都不能算作大數據。籠統地講,數據科學涉及數據採集、描述、表示、分析、重構 、理解、演繹、挖掘等部分。而大數據與傳統的數據科學的差異,筆者認為主要在於:數據的異源、異構、不能直接嵌入經典的數學空間、含有深層的隱藏信息,以及與已獲得的經驗數據的聯繫、融合。這是大數據研究的挑戰性所在。
研究大數據是為了提高我們對現實世界的認識達到大智慧。這在佛學中稱為“般若波羅蜜多”。所以筆者在這裏引用《般若波羅蜜多心經》中的話:“受想行識、亦復如是”。這裏改動一個詞,將“行”改成“形”。受——就是感受,就是數據採集;想——就是數據分析;形——是形成概念,數據重構;識——是對數據解讀進而成為對現實世界的理解,並可用來為之服務。下面就這四個方面談談筆者對大數據的理解。
▍受——數據採集
人是怎麼感受世界的?這還要引用《般若波羅蜜多心經》:“眼耳鼻舌身意”。眼睛看到的東西我們可以用數字照片記錄下來,耳朵聽到的可以用數字錄音。視網膜、耳蝸中的絨毛及聽骨記錄的,如同計算機中的視頻、音頻文件,也是有限的離散數據。電子鼻、糖度儀一定程度上模擬了鼻舌。“身”是觸覺,也有不少儀器模擬它,如紅外遙感、X波雷達、CT等來模擬,而且擴充了人類採集數據的能力。“意”的解釋稍微困難一些,可能是第六感,用數學語言説就是通過異構數據的協同計算獲得的信息。蝙蝠可以通過聽聲音來辨別前方的物體,而一個人可以做到聽音辨物就會被認為是特異功能了。
一個有名的數學問題是:人可以從鼓聲聽出鼓面的形狀嗎?純粹數學家找到了兩種鼓面,證明它們發出相同的聲音,不過鼓面的構造比較複雜。這個結論事實上告訴我們,如果只有圓、橢圓、三角、四邊、六邊、八邊等簡單鼓面形狀的鼓,人們是可以通過訓練(數學上是學習算法),從鼓聲中分辨得到鼓面形狀的。再如,上司發火時會伴隨着臉部的肌肉抽搐,當半夜從睡夢中被一陣電話鈴聲叫醒,聽到他在電話裏咆哮,雖然沒有看見他,腦海中一定會出現那張彎曲的臉,或者説甚至可以聽出表情。這好像是超能力,筆者更願意把它叫做隱能力。X波雷達、紅外遙感也是如此。
所以,數據科學首先要在數據採集上將看不見、聽不到的數據轉換為看得見、聽得到的數據,將不是用通常手段採集的數據轉換為通常的數據表達形式,以擴充、提高人們採集數據的能力,特別是拓展隱能力。
反過來,心理學家也做過實驗:將一個每秒24幀圖像的影片,每24幅後加一張圖片,可以是血腥的,甚至只是寫上一句令人沮喪的話,然後以每秒25幀的速度播放。播放時一般不會發覺有什麼異樣,但當人看完整部電影之後,就會感覺非常不舒服。這也叫暗示,某種信息在不知不覺中傳到並記錄在觀眾腦子裏。近年來,有不少科幻影片通過手機等植入廣告的形式發送隱藏信息,以控制人們的思想。甚至有傳言,美軍在伊拉克戰場上就已經採用了這種戰術,在戰場上用超聲波播放伊斯蘭教禱告的錄音以瓦解敵方的鬥志。開發利用數據採集與播放發送的隱能力,是數據科學特別是大數據的重要領域。
▍想——數據分析
數據分析,首先是去噪,譬如現在好的相機都有防抖功能,這是利用數學方法獲得了去除噪聲的圖片。再一個是濾波或者説信號分離。在寧靜的山村,人們早上醒來,聽到幾波雞叫,會記得有幾隻雞,它們在哪幾個方位。這裏做了現在稱為機器學習或學習理論的事情:識別與分類。把一些雞叫聲歸為一類,識別出這是同一只雞在叫,同時分辨出有幾隻雞。
又如,看了一個網頁,會記住一些關鍵詞,或者説提取了特徵統計量。在記錄圖片時,記住的不會是圖片每一個點的顏色(BMP文件),而主要是一種印象,或者説是印象派的圖像。印象派有兩種:一種是高更的,是導數、圖像邊緣突現;一種是莫奈的,模糊化的,可能是JPG文件或數學中稱為小波框架的圖像。這也就是壓縮感知,把數據進行降維、壓縮,記住想記住的東西,用盡量少的腦細胞記住一件事情。
數據處理的一個重要組成部分是數據的降維。譬如人臉識別,如果可以簡單刻畫(用簡單函數表示)這個人的相片所在的那個低維流形,那麼就把那個人容易地識別出來了。降維的主要數學方法是主成分分析,也就是提取特徵。統計中的均值方差都是數據的某種特徵。JPG圖像文件的壓縮邏輯是把一個大概印象放在高層,而將細節放在底層,可以逐漸細化地顯示。心理學家也做過實驗,讓許多人快速看一些圖片,然後讓其描述所看到的內容,也就是印象。發現人的印象也可以分為兩類:高更型的可以歸於邏輯思維型的,將圖像分片,每片用一種顏色表示;莫奈型的可以歸於形象思維型的,是細節圖像的模糊化結果。當然,更多的人是介於兩者之間,融合了這兩個壓縮感知的方法。
數據從數學上來説主要表現為點或高維空間的點,函數離散化以後還是點,算子離散化以後是矩陣或張量,仍然是高維空間的點。通俗地講,數據處理就是處理高維空間的點的關係。而點之間的關係是由距離(注意通常不是歐幾里得距離)或連接圖、連接路徑組成。數學上是用轉移矩陣表示的,或者説是複雜網絡的動力學問題。要找到點之間的關係,通常首先要給每個點或點簇、點雲一個地名,這個地名通常是模糊的,它由這個抽象的點或點簇所表示的具體對象的一些關鍵詞組成,這時學習理論的兩個根本問題又出現了:一個是模擬識別,就是尋找關鍵詞、特徵;一個是分類或聚類,把相近或相異的關鍵詞用數學表示出來。接下來是一個對數學而言還只算是進入皮毛的問題,就是用數學來研究詞典、語義學、句法分析、人物關係、段落大意及文章主題。
▍形——數據重構
通常認為,數據有三元的結構屬性:真實的存在、記錄的數據、人類的理解。人腦形成的對該事物的理解與採集的數據是有差別的,而採集的數據與該事物的真實存在也總是有差別的。人腦不可能採集事物的全部數據,而人腦對真實事物的理解又會比採集數據要全面。因此記錄的數據通常是有容餘的,同時又是不全面的。
譬如一個人不同環境下的大量相片。有些部分是重複的,通常臉部最多,但又不完全重複,因為角度、光照或表情可能不同。單詞“redandency”筆者想譯成容餘而不是冗餘,是想説明這些信息是有重複,但它對信息重構不是完全沒有用的。
當從真實存在的事件中採集了數據後,人腦會對之復原或重構,在人腦中形成對該事件的形象或理解——腦海中的世界。人們總是將獲得的信息或數據去噪、分類、解構後安裝、重構到自己已有的知識結構中。
對於信息有多個來源時,有相信誰的問題,這猶如許多軟件可以自動進行天氣預報,但結果一般不完全相同,醫生看病也是如此。最為簡單的是加權平均,比較地相信權威。但人們會得出更為聰敏的結論,知道在什麼問題上應該更相信誰,並且一定會以非常大的權重加入自己固有的思想。用數學的語言説,會將問題升維。克萊因瓶不能在三維空間用函數描述,但在四維空間可以數學描述。複數、四元數正是用來處理這樣的問題的。所以,為更好地處理數據,升維是數據處理的一個重要方法,在一個更高的思維層面上考慮問題,以便更好地看到主要矛盾之間的關係。
▍識——數據挖掘、預測、利用
識,即數據挖掘、預測、利用。海量數據總還是有限的,也就是説對於真實世界的描述人們可以獲得的數據還是太少,還都在瞎子摸象階段。當採集到的數據只有大象耳朵時,大象就像簸箕了。作為大數據,首先應通過其他途徑的經驗數據綜合認識到大象的耳朵像簸箕,然後還可以綜合採集其他部位的數據的結論,形成對整個大象的描述。
在數據重構中,人們應該得到比採集數據更多的東西,根據經驗恢復部分的缺省數據。譬如大樓,是物理真實存在的一些不完整信息在人腦中形成對大樓的瞭解。物理存在的內容是完整的事實,而可以看到或瞭解的只是其中很少一部分,如只是一張斜角包含大半個正面的照片,但由對稱性等經驗,在人腦中形成的影像會更全面。如果有高樓下面幾層的照片,其中窗户是清晰的,同時又有該高層建築的遠距離照片,窗户不怎麼清晰,那麼在人腦中形成的將是一張窗户清晰的整體相片。
人腦有非常強的數據解構、重建及根據經驗再融合重構的能力。大數據就是希望利用數學通過計算機來實現這個能力,並且希望比人類做得更好、更快,特別是大數據分析中,希望完成利用人力幾乎不可能完成的任務。看到半張臉、半幢大樓,那麼根據對稱性,人們對整體會有一個更加全面的形象概念。當下一次從另外的角度再見到時還會認識。
那麼半句話呢?前幾天筆者在某城市就看到一個被樹木遮住一半的城市公益廣告牌:“花一樣的……”。因為是市府公益廣告,第一反應是“花一樣的城市”,提醒保持環境衞生之類,後來看見邊上是一所小學,我想到了“花一樣的年華”,提醒要遵守交通規則,當然腦海中還出現了“花一樣笑容”“花一樣的美麗”等句子。走近一看是“花一樣的錢,辦更大的事”。
這是經驗數據在起作用,可見筆者的經驗比較浪漫主義,侷限在花朵的花,但與現實有一定的距離。當然要處理這樣的問題,數學的方法現在可以在譬如百度上鍵入“花一樣的”,然後就可以得到非常多的信息,聚類分類後,統計一下,就可以得到某種結果出現的概率。但要排除掉“這是市府的公益廣告”、“邊上有學校”之類只在具體事件發生地出現的非直接信息或採集的數據。這些信息通常是有用的,並且可能是決定性的。而在上面的例子,則也可能是誤導信息。大數據就是要處理併合理利用這樣的信息。
現在許多案件的破獲都利用攝像頭的視頻信息。譬如波士頓爆炸案,是由一系列的模糊信息導致的越來越清晰的結論:炸彈包裹是黑色手提包,有帶黑色棒球帽者提着黑色手提包,帶黑色棒球帽者經常與帶白色棒球帽者在一起,而帶白色棒球帽者有臉部清晰相片,對照警察局記錄該人有案底。但要處理這些相片需要多少工作量。這些工作有時只靠人力還不行。每個人只能處理一部分相片,而更為關鍵的是,將各相片中的模糊結論或模糊概念聯繫起來,能得到貌似還是模糊的、其實更為清晰的結論。
首先應該整理這些相片得到一些關鍵詞,最好在照片的拍攝過程中照相機就已經進行了自動處理(離線處理,預處理),放在照片附帶的説明文件中。而關鍵詞或者説標籤最好是標準化的,當然同時越是標準化越會流失一些可能有用的模糊信息。由於視角的不同與關心問題的角度不同,每個人選擇的關鍵詞或標籤也是不同的、個性化的。這樣又導致了個性化關鍵詞的語義模糊匹配問題。在數學上,對個體智能或底層數據處理的研究已經達到了很高的階段,並且可以説已經看到了基本解決此類問題的曙光。但對羣體智能,如何融合多個個體智能的高層數據結構處理、描述、傳輸、動力系統行為的研究還在一個剛起步和黑暗的階段。也就是説,大數據處理的高層雲模糊設計的數學描述,是大數據處理是否可以有所斬獲的關鍵。
具體的就是,如何整理非結構化的數據,使之成為擬結構化的、半結構化的、或者結構化的數據。同時又不能丟失可能有用的信息。
總的來説,大數據研究是用數學或數據來描述、理解現實世界,是完成“受想形識”,達到大智慧的唯一途徑。
——新書推薦——
本文原載於公眾號“科學雜誌1915”,原題為“大數據的受、想、形、識**”****。**圖片來源於網絡,如有侵權,敬請聯繫刪除。歡迎個人分享,媒體轉載請聯繫版權方。

打賞不設上限, 支持文化重建
長按下方二維碼打賞