當前統計學科的發展幾乎停滯,如何改變現狀?_風聞
返朴-返朴官方账号-关注返朴(ID:fanpu2019),阅读更多!1小时前
作者按:最近統計community在討論面對AI的衝擊下統計學(作為一門獨立學科)的identity,反思最近20年來的發展,以及展望了一下統計的未來。本人也有一些思考。現把這些思考整理如下。
首先我想先強調一下這篇文章主要説的是統計學科的未來,而不是統計的未來。私以為統計, 例如statistical thinking,永遠都會存在,並且會在多個領域持續發展。在強化學習聖地的阿爾伯塔大學的Statistical Machine Learning(SML)項目的官方網站上有如下陳述:
“90 percent of machine learning is based on statistical ideas. Statistical ideas and statistical thinking constitute the core of the subject.”
舉例説明:隨機森林在今天都是非常流行並且在業界非常成功的預測算法。
撰文 | 孫強、朱宏圖
當今統計學的問題是什麼?
我們首先來簡單地介紹統計學。統計學是通過探索數據的規律從而認識世界、解決問題和做出決策的一門學科。我認為統計學是inclusive的,並曾把統計學比作為數據的物理學:海納百川,有容乃大。這個在我之前的關於統計未來的研究方向的回答裏有所提及,並且在統計的核心這個問題下做了一些補充説明。
在上述的答案中,我認為統計的精髓在於statistical thinking,並且用這種thinking設計算法從而解決問題。消融實驗和統計理論為理解數據和算法提供了兩種不同的語言,並且進一步幫助改善算法或者為未來提供預測。
那麼語言重要嗎?當然重要。但是語言並不能脱離數據和算法單獨存在。不管是消融實驗還是統計理論,他們的主要作用都是為了加深數據理解支持統計方法。但是他們沒法作為一個獨立的學科而存在。這種互聯性強調了統計學的應用性質,實驗和理論可以幫助我們理解現實世界的現象。換句話説,我們認為理論和實際的關係如下:
“Theories are approximations to experiments (what happened in practice), but not the other way around.”
統計理論主要是為了支撐統計方法。統計學的根本目標是解決有意義的實際問題,這也是其作為一個獨立學科存在的理由。而統計理論則很難作為一個獨立的學科而存在。在統計學發展的歷史中, 許多因為數學優美而開發的統計方法論,最終都被實際應用所淘汰。舉例説明:經驗似然在最初引起了極大的興趣,但最後卻在實際應用中失寵,被從業者所拋棄。相反,一些在當代數據分析中非常有影響力的方法,如隨機森林、boosting和深度學習,尚未有足夠的理論理解。這似乎揭示着:統計學家需要優先考慮現實世界的數據和應用,而不是抽象的數學理論。由於統計理論最近幾十年在一些領域的高度發展(e.g., statistical inference, measure concentration),使得統計教育的重心更多地集中在統計理論。這也使得非常多的統計學家很少(有興趣)深入接觸數據和應用。這就像一位僅從教科書上學習醫學而從未治療過患者的醫生一樣。這種做法可能與統計學的立足根本相去甚遠。
最近10年,隨着AI的飛速發展,統計學的發展似乎停滯了。這種停滯表現在多個方面。在應用的層面上,隨着最近幾年大隊列研究(例如UKBiobank)以及互聯網數據的激增,統計人捉襟見肘的工程能力使得他們在這些大數據面前束手無策。
從理論的層面上來講,我們之前所建立的理論框架,例如統計推斷,顯然是遠遠不夠的。比如在深度學習的時代,在模型或者參數都不可識別(identifiable)的當下,討論參數的統計推斷似乎完全沒有意義。這個在我之前的關於統計未來的研究方向的回答裏也有所提及。新的理論框架看起來是迫在眉睫的。事實上,理解深度學習看起來是一個不可能完成的任務。
以上這些現實也凸顯了當前統計教育的嚴重缺陷。它強調了統計教育需要進行範式轉變的緊迫性,即更加重視數據和應用,更加重視工程能力和落地的能力。更加鼓勵不拘一格的創新,不管是數據集的、應用的、理論的、還是工程的。
當前的統計教育有哪些問題?
如果我們接受以上的觀點,那麼當前的統計教育格局展現出幾個關鍵的缺陷其實都因為統計教育和統計文化重心的極端不平衡。以下我們列舉一些缺陷。
綜合培訓的缺失:明顯缺乏將學生培養成為具備理論知識和實踐技能的全面統計學家的培訓。這種差距經常導致與應用機器學習(ML)環境中至關重要的工程思維脱節,使統計學家錯失機器學習從業者輕鬆抓住的機會。
過分強調推斷:傳統上對統計推斷的關注導致對數據科學中的整體流程,如數據收集、清理和註釋的重要性認識不足。這些基礎步驟對於現實世界的應用至關重要,然而在許多統計項目中,它們仍然被低估和教授不足。這種疏忽忽視了一個事實,在實踐中,數據的質量和相關性往往比應用於它的統計方法更重要。從應用的角度看,推斷方法不如數據收集/清理方法重要。
評估標準不足:評估該領域內學術貢獻的標準往往過於重視在著名統計期刊上發表,或者更近期的,在領先的人工智能會議上發表。這種對學術產出的強調可能會掩蓋實際應用和社會影響的重要性。如果這一趨勢持續下去,統計學有真正的風險被納入應用數學之下,從而減少其在跨學科研究和應用中的獨特價值和貢獻。
我們需要做些什麼?
為了解決這些問題,統計教育需要一場範式轉變。更加強調實際的、現實世界的應用,培養工程導向的思維方式,並拓寬學術貢獻的評價標準,可以幫助振興該領域,並確保其在人工智能和數據科學時代的相關性。我們同時也需要新的理論框架。多點開花,齊頭並進。
但我們應該避免像現在這樣過於重視理論的研究,以至於破壞對於問題和數據的基本關注。過於強調理論可能會造成以下後果:
1. 與實際應用脱節:強調缺乏與現實世界數據實際聯繫的理論猜想,可能會導致統計理論與其應用之間出現裂痕。這種脱節風險可能會使該學科與其旨在解決的實際問題疏遠,降低其在解決現實世界挑戰中的相關性和影響。
2. 過分強調抽象數學:雖然數學嚴謹性在統計學中是必不可少的,但過分強調抽象的理論猜想,可能會將重點從統計學的經驗和數據驅動本質轉移。這種轉變可能會導致統計方法變得更多關於數學的優雅,而不是關於分析和解釋數據的有效性。
3. 從業者的疏遠:依賴統計學進行各個領域應用工作的從業者可能會發現,如果該學科變得過於理論化,它變得不那麼易於訪問和相關。這種疏遠可能導致理論統計學家和從業者之間的分裂,後者可能會轉向數據科學或機器學習等更應用的領域尋找實際解決方案。
4. 方法論創新的扼殺:過分關注理論猜想可能會扼殺針對解決新型數據和分析挑戰的新統計方法的創新。該學科可能會變得停滯不前,對創建適應性強且創新的方法論的重視度下降,這些方法論可以跟上數據生成和分析快速發展的步伐。
5. 教育價值的減少:如果統計教育過於集中於理論猜想而犧牲了數據分析技能,畢業生可能會發現自己不適合數據科學和分析領域的職業。這可能導致統計教育與就業市場需求之間的脱節,降低統計學位的價值。
6. 跨學科合作的侵蝕:統計學在跨學科合作中蓬勃發展,將其方法應用於廣泛的科學探究。如果該領域變得過於孤立,專注於沒有明確適用性的理論猜想,它可能會失去作為跨學科研究中關鍵工具的角色,減少統計學家為不同領域做出貢獻的機會。
解決這些擔憂對於維持統計學作為一個基本以理解和解釋數據為中心,以通知各種領域決策的學科的活力和相關性至關重要。
新的curriculum?
我們需要新的curriculum。至於到底怎麼設計新的curriculum,可能需要一個過程。可以先從研究生開始在向下輻射到本科生。總體上希望可以更靈活和自由一些。比如多給系裏的年輕老師一些自由度和話語權,讓他們可以自主開一些topic courses。新人一般都在新的topics上比較active。慢慢積累一些新的課程,形成體系,在進行核心課程的改革。
學生也不一定什麼課都上。比如我覺得empirical ML的學生雖然也需要會一點點數學,要會formulate新的東西,比如怎麼把一個具體的科學或者工程問題轉化為數學公式。這一點似乎對於機制理解還是比較重要的。但是對於特別理論的,比如measure concentration/empirical processes theory,似乎就不是很有必要?當然這些課程其實也可以很容易設計個簡單版本出來。另外個人覺的統計系的學生似乎普遍工程能力比較欠缺。我們在這些方面是不是也可以開始多投入一些。就算是對於比較理論的學生,學一些coding/data structures/systems也會受益良多。
但是課程太多了,對學生來説似乎也是一種負擔,也不利於學生深入鑽研某一個領域。在統計學科內部劃分不同的tracks也許是一個可能的解決方案?當然也應該鼓勵某一個的track的學生去上感興趣的其他track的課程或者跟不同背景的學生合作,這樣可以增加研究和技能的diversity。我們覺得當今的science是大science,需要大家分工合作。已經不是以前小作坊一個人可以做科研的年代了。
另外一個想法就是可以考慮把很多以前的課程壓縮成modules。可以從歷史發展的角度去進行簡單的梳理。比如統計推斷這門課:簡單講講我們為什麼需要(比如sample size calculation for clinical trials, p-values for significance),遇到了什麼問題(Hodege’s estimator),為什麼需要建立foundations (LAN,asymptotic CR lower bound etc)。但是現在這個topic似乎不需要講的那麼詳細,比如optimal hypothesis testing講一個學期這種是不是太長了一些。
正如我之前回答寫的那樣,統計應該是inclusive的。跟數據相關的可以無所不包。那diversity就非常重要。有的學生想做science,有的學生想做理論,有的想做機制理解,有的想做工程落地。我們招學生和教職的時候如果僅僅是説這個candidate does not fit into stats是不是過於保守?僅從傳統(理論)統計的角度判斷是否有失偏頗?我們應該反省。統計作為一個學科,現在大多以department的方式存在,行政上是否也限制了文化的開放和包容性?我們是否應該考慮往更大的學院發展 。這在行政上是否可行?更大的整體意味着更多的資源,也意味着更容易產生包容性。還是説我們應該尋求跟其他學科合作,比如與information/optimization/ML合併,成為更大的學院。
至於大家究竟要做什麼?這個不可強求,每個人根據興趣和愛好做自己想做的即可,我們還是要把更多的東西(數據,應用,理論,工程)包進來,鼓勵統計的多元化發展。不管大家做什麼,其實都無所謂。個人覺得統計還是會一直存在。最差的情況無非就是換個名字(比如數據科學),或者成為一個更大的整體的組成部分。無論怎麼説統計還是會一直在多個領域持續發展。我舉個具體的例子:比如ResNet這篇文章的統計intuition不就是做了個residual learning?這些東西我們幾十年前就在做了。所以ResNet在我看來只是residual learning applied to neural networks (當然現在也有基於optimization的解釋,解決gradient vanishing issue etc)。所以大家不管在做什麼,其實多多少少都會用到統計或者統計的思考方式,one way or another。
新的課程?
我來拋磚引玉。説幾個研究生課程對應的新版本:
1.Theoretical stats: Classical asymptotics, nonasymptotics, and mean-field asymptotics.
2.Statistical computing: Dive into DL, optimization, and sampling.
3.Regression: Linear regression, kernels, and neural networks as universal approximators.
4.Online learning and reinforcement learning: Online algorithms, dynamic control, and RL.
5.Causal learning: Inference and leanring.
如何發展統計學科?
統計學科的發展無非就是兩條路:
1.一個是全部都包進來,做端到端的research,什麼都做;
2.另一個是走出去,到各個學科去,像Tukey説的那樣。
先説2。最近認識了很多有意思的人,見了一些學生和教職人員,背景是EECS或者ML。其實他們統計的sense也很好。所以感覺統計教育也確實不一定會發生在統計學科內。如果我們沒法包進來,那就可以走出去。
再説1。1似乎看起來特別簡單,其實是特別難的。做端到端的research?第一步就是怎麼定義實際有意義的問題?沒在業界摸爬滾打接觸實際數據怎麼做有意義的事情?去哪裏找數據?你可以自己跑實驗,比如clinical trials,收數據?怎麼做到閉環?怎麼落地?另外就是現在數據大而複雜了,確實是計算能力+統計的教育(比如工程能力的欠缺)+統計文化限制了我們學科本身的更新迭代。
我所認識到的非常多的年輕人其實都是非常願意更新迭代的,只是受到客觀條件限制,而無法得。總結一下就是:大家其實不是不願意,而是沒有辦法,沒有資源。所以其實也沒有辦法苛責大家,還是需要給年輕人更好更多的支持。未來是屬於年輕人的。
學科融合?
再説回到1。其實1還是有辦法能夠做到的,就像之前説的那樣跟各個與數據強相關的學科合併成為一個大學科,以學院的形式存在。扁平化管理,促進交流融合,各取所長。
其實不管上述有沒有辦法做到,實際上學科融合都是大勢所趨。最近常有ML的同事問我:統計和ML的區別是什麼?或者更尖鋭一點,有了ML之後我們為什麼還需要統計?其實就目前兩個學科的重點來説,還是有很大區別的。簡單來説,統計主要是處理noise,而ML主要在處理universisal approximation,各有所長吧。
不過説實話我覺得ML和現在的統計都是廣義的統計。我覺得這些都是統計思想在不同問題或者環境下的展現,也有很多重合,甚至很多時候只是語言不同。比如在統計裏叫model class,ML叫hypothesis,統計為了可解釋性和理解物理機制做模型,ML更多時候是為了做更容易generalize的預測做機制理解。典型的對比是invariant risk minimzation VS invariance, causality, robustness 這兩個文章。感覺ML和統計就應該是一個學科,或者站在我的角度來説,我覺得ML其實就是統計的一部分。或者,統計就應該是數據科學,是所有一切跟數據相關的東西,或者你可以取個別的什麼名字。
作者介紹
孫強博士目前是多倫多大學統計科學系的副教授,同時擔任StatsLE實驗室主任。在此之前, 孫強教授在普林斯頓大學(Princeton University)擔任Associate Scholar, 在北卡羅來納大學教堂山(UNC-CH)取得的博士學位,在中國科學技術大學取得的本科學位。孫強教授目前的研究領域包括集成學習、遷移學習、可信機器學習,以及科學和決策智能等。他已經以第一作者或通訊作者在統計和機器學習等國際頂級會議及期刊發表超過40篇論文,並多次擔任國際頂級學術會議及期刊的領域主席和副主編,並且多次受邀於國際頂級學術會議和學術機構做報告。孫強教授曾給與諾亞方舟傑出講座,並且是UNC-CH傑出校友。
朱宏圖博士是北卡羅來納大學教堂山分校生物統計學、統計學、計算機、放射學和生物遺傳學終身教授,曾任MD安德森癌症中心的診斷影像學Bao-Shan Jing講席教授和生物統計學終身教授,滴滴出行首席統計學家。2000年獲得香港中文大學統計學博士學位。主要研究領域為統計學習、醫療圖像處理、精準醫療、生物統計、人工智能和大數據分析。2011年當選美國統計學會和數理統計學會會士。2016年榮獲德克薩斯州癌症預防與研究中心傑出研究獎。2019年因強化學習在網約車出行中的應用榮獲Daniel Wagner傑出應用獎。在多個大型醫療研究項目中擔任統計分析師,並提供實驗設計、數據分析和新方法開發。現有高水平期刊論文320多篇,包括Nature, Science, Cell, Nature Genetics, Nature Communication, Nature Neuroscience, JAMA Psychiatry, NAS, JMLR, JASA, Biometrika, AOS以及JRSSB;高水平會議論文55篇,包括KDD, NIPS, ICDM, AAAI, MICCAI以及IPMI。擔任多個國際頂級會議的區域主席,包括Information Processing in Medical Imaging。擔任(過)多個國際頂級期刊的編委,包括Statistica Sinica, JRSSB, Biometrics, Annals of Statistics和Journal of American Statistical Association。
本文經授權轉載自微信公眾號“統計之都”,原標題《統計學科的未來》。
特 別 提 示
1. 進入『返樸』微信公眾號底部菜單“精品專欄“,可查閲不同主題系列科普文章。
2. 『返樸』提供按月檢索文章功能。關注公眾號,回覆四位數組成的年份+月份,如“1903”,可獲取2019年3月的文章索引,以此類推。