深度強化學習的“叢林”大冒險_風聞
脑极体-脑极体官方账号-从技术协同到产业革命,从智能密钥到已知尽头2022-03-17 21:39
DeepMind在AI界是一家神奇的公司,在過去的幾年取得了許多令人矚目的成績,例如享譽世界的阿法狗打敗人類登頂圍棋的天花板,Deepmind AlphaStar打敗了星際爭霸人類高手等。
在生命科學領域,AIphaFold2模型,可以將人類98.5%的蛋白質結構全部預測一遍,深入生命信息的深處、解讀生命運行的密碼。
DeepMind在生物、數學、化學、物理等領域中撒下的種子,吸引了許多聰慧大腦紛紛前往,投身AI科學領域的探索。頂尖的專家聚集在DeepMind,誕生出許多突破性進展的工作,取得了許多人工智能里程碑級別的成績。在能源危機和環保壓力中,DeepMind也聚焦核聚變、核物理領域,將AI賦能在核聚變的複雜反應中,讓可控的核聚變反應又往前邁出了一大步。
核聚變的“暗黑叢林”
核聚變、核裂變,總讓人傻傻分不清楚,如果拿應用的場景來區分的話,就很容易辨別了。核裂變就是原子彈以及核電站主要應用的技術。核聚變在自然界中最常見的就是太陽了,太陽的核聚變已經持續了46億年。其原理是通過將氫元素的親戚氘和氚原子進行核聚合反應,釋放大量的能量。
相對於核裂變而言,核聚變反應不僅能夠產生大量的能量,也不會產生核廢料,是人類理想的終極能源。但實現核聚變的商業化還需要突破許多難關,包括等離子體反應的約束,氘與氚原料的提供,成本的控制等,其中最大的難題就是如何控制和約束核聚變反應,如果無法做到緩慢有序的能量釋放,瞬間的能量釋放跟炸彈沒什麼兩樣。
科學家們在核聚變反應中,通常通過三種物理方式約束核聚變反應:重力場約束,磁力場約束和慣性約束。
太陽上的核聚變就是靠其強大的萬有引力提供的重力場約束,這個方法我們在地球上無法復刻實現。使用託卡馬克裝置是磁力場約束核聚變的方法。目前世界各國的主攻可控核聚變的方式都是磁約束的方向,這也是最有希望實現可控核聚變的方式。
由於核聚變需要極高温度,一旦某一環節出現問題,燃料温度下降,聚變反應就會自動中止。託卡馬克裝置的作用就是可以長時的約束高温的等離子體,讓核聚變的反應可以持續並可控。不過隨着核聚變的反應堆增大,托克馬克裝置越來越複雜,對其內部配置的重複反覆運行設置要求越來越高。
為了優化等離子體的穩定性、封閉性和能量排放,需要在託卡馬克內設計反饋控制器以精確控制磁耦合的線圈來操縱磁場,以達到理想的等離子體電流、位置和形狀。這個問題也就是著名的“託卡馬克磁控制問題”。
但這個控制過程是非線性、實時變化、多變量的,非常複雜,需要花費大量的工程、設計和專業知識,同時還要進行復雜的平衡估計實時計算調控的電流。對於傳統的計算機模型和模擬方式來説,不一定能夠起到優化的作用,精確性無法保障。
而這也是AI所擅長的,深度強化學習可以作為全新的處理複雜核聚變方式,用來設計這個非線性的反饋控制器。將核試驗科學家們的大腦從如何設置的怪圈中解放。
融合蓄勢
DeepMind的團隊,花費了整整三年時間,來解決核聚變實驗中的可控問題。我們知道深度強化學習的運作原理是智能題與環境間的交互學習,通過目標設置和獎勵反饋來運行。
在核聚變實驗中,科學家們通過強化學習設計的磁性控制器,可以自主學習設計整個控制線圈的電流,既可以滿足苛刻的物理操作約束條件,也能夠實現穩定的輸出控制,大大減少研究者的設計工作量。
在託卡馬克磁約束控制器的設計中,主要的思路是先為核聚變實驗指定約束控制的目標,通過深度強化學習算法,找到滿足約束條件和目標的最優策略,零樣本的神經網絡控制策略最終在託卡馬克的硬件設備上運行。最終生成了一系列的不同等離子控制配置,深度強化學習系統可以對這些配置的位置、電流和形狀進行精確地跟蹤,並可以實現實時控制。
如果用一句話來概括AI賦予了核聚變實驗什麼優勢,那就是深度強化學習極大地減少了磁約束控制器的開發週期,加速了科研人員對替代性等離子體配置的研究。
在一些實時的動態變化中,所有的試驗操作結果都瞬息萬變,依賴人與機器的經驗並不能完全的實現最優解,深度強化學習是相較人類來説最完美的最佳武器。不過深度強化學習也存在一些侷限,也是未來值得去突破的方向,包括:
1.在很多實際應用中,目標並不是很明確,多元感知信息的處理存在侷限。例如在多輪對話系統中目標設置“表現得像人”,然而這個目標無法清楚地進行數學描述。
2. 獎勵函數係數,獎勵函數噪聲處理的侷限,難以探索到優質解。
3. 泛化能力與魯棒性在一些情境中比較差,很多結果處在過擬合的區域。從強化學習的算法策略角度來看,可能是算法存在估值偏差,也有可能是面對非靜態智能體時,存在判別不準確的侷限性。
而在核物理領域中,在人類智識界限的邊緣,隨着聚變反應堆的增大,對於託卡馬克裝置的複雜度要求也就越高。更多數量的等離子體控制需要更高的準確性和可靠性試驗,而這一切需要深度強化學習進一步的策略優化和更加嚴格的控制,才能突破。AI控制的核聚變反應加速了核聚變清潔能源規模化到來的一天。
觸碰極限的邊界
可控核聚變的終極目標,就是讓海水中大量存在的氘在高温條件下像太陽一樣發生核聚變,為人類提供源源不斷的清潔能源。
在AI的賦能下,我們可以探索一些原本依靠智識無法到達的領域突破界限。在漫長的科研領域中,AI加速我們到達彼岸的距離。
在自動駕駛研究的領域中,決策的系統也跟核物理一般,存在許多實時的變量,如:不同地方的限速不同,是否是可行駛區域,如何躲避障礙等問題。軌跡優化,運動規劃,動態路徑,最優控制,以及高速路中的情景學習策略等都可以與深度強化學習結合。
而在工業領域的研究中,基於強化學習的機器人智能體可以處理執行各種任務。不僅效率比人高,還可以擁有無比強大的安全性。
在科研中,無數約束條件的範圍內起舞,不會終止地向深處前行,需要深度強化學習帶來突破的力量,雖然現階段結果可能會受到網絡結構、獎賞比例、隨機種子、隨機實驗、環境、程序實現等的影響,但這也是未來攻堅克服的方向。
如何簡潔的概括深度強化學習帶給科研的力量,AI製藥和AIphaFold2模型解析蛋白質這兩個例子最能夠清晰闡釋價值所在。一個是效率的極大提升,另外就是研究疆域的開拓。這也加速了科研的進程,一方面給研究人員帶來極大的便利,另一方面也對研究人員的綜合能力提出了考驗:對於跨界領域的輸入與輸出學習,以及腦力在科研本身的延伸。
在科研、工業、交通、金融、生物等領域,深度強化學習的技術意義深遠,複雜多變的客觀因素與最優的價值排序之間,有了連接。AI架起了這座橋樑,通向未來的演繹朝着不可預測的方向駛進。
拿核聚變實驗來説,發展可控核聚變技術意義深遠,導向的是人類最大的困擾--能源問題。藉由AI賦能的可控規模化核聚變實現的可能性更大,所帶來的接近無限的清潔能源將會徹底解決能源問題。廉價的能源不僅加快經濟建設和工業生產,同時也會改善環境的治理。
更深一步的話,複雜的多變量問題如果得到規模化集中解決,將會釋放出巨大的能量,這也意味着人類將會進入一個新的紀元。
當所有的領域都經過AI技術的催化,深度與廣度得到極大的躍升,人類的智識到了進化的邊界,或者説是機器與人的協同達到了發展的頂峯,基礎的生存困擾解決了,精神的全面升階開始。束縛人類幾萬年的生存枷鎖脱落,誕生出的文明將會是什麼模樣?這樣的局面依託人類的智識去觸碰是龜速爬行,但藉由AI我們會如乘坐“火箭”的速度一般,探索到接近極限的邊界。