聽説高考數學全國卷三考了朵雲……_風聞
中科院物理所-中科院物理所官方账号-2019-06-09 16:37
原創:中科院物理所
按説每年高考的時候,最火的當屬全國各地的語文作文題,不管是躍躍欲試的段子手,還是幸災樂禍的朋友圈作文大賽選手們,都免不了俗要來上幾段。今年關於高考的熱搜倒是有點奇怪,據説高考數學全國卷三考了朵雲,考了朵雲……朵雲……雲……把很多考生都直接考懵了……
原題大概是在極座標中給出了三段圓弧的圓心和一些點的座標,求整個曲線的極座標方程和特定點的極座標。這都不是重點,不就是一朵雲嗎?你看它那麼可愛,人畜又無害,不如我們……(圖片來自網絡)
它那麼可愛,人畜都無害。它做錯了什麼,你們要這麼對它……
不過對於曲線擬合,物理學家們實在是見得多了。而且有些擬合,還會讓你懷疑人生……
最天馬行空的擬合
Most Unimaginable Fitting
二流的物理學家做合理的假設,一流的物理學家做不合理的假設。
這句話説的不是那麼大家們都在瞎猜啊,而是説他們的眼光更具有前瞻性,發現物理問題的真正矛盾所在。舉一個大家最耳熟能詳的例子,愛因斯坦提出狹義相對論時候假設光速不變——無論在哪種慣性參考系中觀察,光在真空中的傳播速度相對於該觀測者都是一個常數。在當時想到麥克斯韋的經典的電磁學理論和牛頓力學存在矛盾的人很多,但能把自己的平時的生活常識都給駁倒,讓自己去相信光速是不變的,只有愛因斯坦一個人。

可能你想象中高速運動的時候,你眼中的景色是這樣的,星光快速後退變成一條條的光帶。但實際上,因為狹義相對論預言的光行差效應,你眼中的光絕大部分都會集中到前進方向上,同時伴隨着強烈的多普勒效應。
在曲線擬合的時候,其實也是差不多的道理。在上個世紀初,也就是大概 100 年前的時候,天文學家們已經能夠通過望遠鏡測量遙遠的天體距離地球的距離以及它們相對地球運行的速度。**研究人員夜以繼夜地測量,終於得到了 40 個數據點。**不得不説天文觀測確實是一個苦差事,雖然大家一般都會説日以繼夜,但光學望遠鏡在白天看不到啊,只能一個晚上又接着一個晚上熬夜。
最後哈勃利用這 40 個數據發表了哈勃定律,論文原圖大概是這個樣子。
哈勃在1929年發表的星雲速度(縱座標)與距離(橫座標)關係圖。其中實心點、實線與空心點、虛線分別代表兩種不同計算方法的結果,二者相差不大。[1]
雖然在這幅圖裏面,大概能看出來距離和星雲速度大概是呈現線性關係的,但敢在這麼稀疏分佈地這麼散的數據點裏面描出來一條直線,最後這條直線還被別人證實可以向前不斷延伸,只能説大神的世界我們真的不懂了……
四個參數畫大象
Draw Elephant With 4 Parameters
在物理學的研究中,物理學家們經常建需要建立各種各樣的模型來幫助人們理解和計算物理量。在這其中免不了假設一些參數去擬合實驗數據得到的曲線。其中最著名的橋段,莫過於馮 · 諾依曼的**「四個參數畫大象」**。

歡快玩耍的大象。馮 · 諾依曼究竟有沒有説過這句話已經不得而知了……(圖片來自 Giphy)
故事大概是這樣的,彼時戴森是一個 26 歲的少年,但已經成為康奈爾大學的教授,帶領着一個由研究生和博士後組成的小團隊進行介子和質子散射理論的計算。在一次與費米的討論中,戴森因為其理論計算結果和費米的實驗數據符合地非常好,喜不自禁,但是卻被費米潑了一盆冷水:「理論物理的研究有兩種方式,其一,這是也我更喜歡的,對你所計算的物理圖像有清晰的認識,其二,使用的是簡潔且自洽的數學公式。你兩個都不是。」[2]
這句話對從事物理學研究的戴森而言無疑打擊巨大。打個不恰當的比方,發好人卡至少還説你是個好人了對吧。於是被打擊到的戴森決定問清楚為什麼,但費米卻反問道,「你們在計算過程中引入了多少個任意參數?」戴森回答説四個。於是費米講了一句日後很著名的話:「我記得我的朋友馮 · 諾依曼曾經説過,用四個參數我可以擬合出一頭大象,而用五個參數,我可以讓它的鼻子動起來。」
當然,關於馮 · 諾依曼到底有沒有説過這句話已經是未解之謎了,因為這個故事是被費米流傳出來,藉由戴森才廣為世人所知的。[3]
真的擬合出來了!
Real Fitting Of Elephant
馮 · 諾依曼的「四個參數畫大象」已經成為了一句名言。回到我們問題的主線上,那我們到底能不能利用參數擬合出一個大象來呢?在 1975 年,著名化學工程學家韋潛光(James Wei)在《化學工程》(Chemtech)上發表了題為「最小二乘法擬合大象(Least Square Fitting of an Elephant)」****[4]的論文具體地討論了這個問題,其中用到了傅里葉展開的方法。在選擇 5 個參數的時候,這種方式只能擬合出來一個蛋。要想較好地擬合出大象的形狀,需要多達 30 個左右的傅里葉展開項。[5]
論文 [4] 的封面圖,使用最小二乘法擬合大象曲線,但是效果並不算理想
這麼有趣的研究,也有很多後來者在一直不斷地嘗試。目前最近的結果為 2010 年,Mayer [6] 等人在韋潛光研究的基礎上更近一步,雖然同樣是利用傅里葉分析,但是**它們把傅里葉展開中較小的那幾項給扔掉了,最後保留了能夠用四個復變量描述的一隻可愛的大象。**雖然丟失了一些細節,比如尾巴之類的,但是説實話,是真的挺可愛的……
左圖為利用 Mayer 的方法擬合出來的大象曲線。雖然他們使用了復變量在參數的個數上取巧,但是畫出來的大象圖像還挺可愛的……網上有很多人根據論文復現了大象是怎麼畫出來的,左圖就是小編利用 Python 畫的,詳細代碼參見參考鏈接 [7]。右圖為改變參數以後鼻子的變動情況
當然這種方法有很強的泛用性,你甚至可以擬合一隻皮卡丘……[8]
機器學習中的過擬合
Overfitting In Machine Learning
讓我們把話題重新轉回到擬合上面來。擬合這件事情真的是無處不在,比如現在正火熱的機器學習中。在統計學和機器學習中,他們同樣需要擬合曲線來消除隨機誤差和噪聲帶來的影響。但是在系統中的參數過多,模型過於複雜的時候,機器學習的就不那麼好用了,它會糾結於系統中的誤差項,做出完全錯誤的預測。
幾種典型的擬合情況示意圖
最左邊的為欠擬合,系統並沒有很好地學習到數據的特徵,只是非常粗暴地把整個區域一分為二,誤差很大,預測性也很差。最右邊則為過擬合,其預測曲線彎彎曲曲地繞過所有邊界,把兩類數據完完全全分割開來,如果這是一個分隔的任務的話,你可以認為它完成地十分出色。但是實際上這條曲線把所有的噪聲都考慮進來,而且太過複雜,可預測性也非常差。
而中間的這種擬合恰是理想的狀態,基本完整地描述了數據的特徵,而且很好地在誤差和噪聲中間得到了平衡。機器學習中對數據進行分類的方式則更加多樣,上述各種擬合情況都存在,怎麼樣平衡誤差和噪聲,選取合適的模型,是機器學習核心的一個問題。
關於過擬合的一個笑話
結 語
Finally
為了防止大家説標題黨,我們就用一張會動的雲來結尾吧。至於怎麼擬合,那就當課後習題好了(手動狗頭保命)

圖片來自 Giphy,@ctrlplusc
參考資料:
[1] 宇宙膨脹背後的故事(之十):哈勃的“新”發現,科學網,程鶚
[2] Dyson, Freeman. “A meeting with Enrico Fermi.” Nature 427.6972 (2004): 297.
[3] 關於這部分故事,可以參考:有哪些數學系鄙視物理系的經典橋段? - qfzklm的回答 - 知乎
[4] Wei, J. “Least square fitting of an elephant.” Chemtech 5.2 (1975): 128-129.
[5] 費米與大象,科學網,邢志忠
[6] Mayer, Jürgen, Khaled Khairy, and Jonathon Howard. “Drawing an elephant with four complex parameters.” American Journal of Physics 78.6 (2010): 648-649.
[7] How to fit an elephant,John D. Cook
[8] https://mathematica.stackexchange.com/questions/17704/how-to-create-a-new-person-curve