2024年圖靈獎公佈!授予兩位強化學習領域奠基人_風聞
返朴-返朴官方账号-关注返朴(ID:fanpu2019),阅读更多!1小时前
強化學習先驅安德魯·巴託與理查德·薩頓獲此殊榮。
編譯 | 返樸
當地時間3月5日,美國計算機協會(ACM)宣佈,安德魯·巴託(Andrew G. Barto)和理查德·薩頓(Richard S. Sutton)因開發強化學習的概念與算法基礎,榮獲 2024 年 ACM A.M. 圖靈獎。自 20 世紀 80 年代起,巴託和薩頓在一系列論文中提出了強化學習的核心思想、構建了數學基礎並開發了重要算法,使其成為創建智能系統的關鍵方法之一。
ACM A.M. 圖靈獎素有 “計算機界諾貝爾獎” 之稱,以英國數學家艾倫・圖靈(Alan Turing)命名,他奠定了計算的數學基礎,通常被認為是理論計算機科學和人工智能的創始人。該獎從1966年開始頒發,2014年起獎金為 100 萬美元,由谷歌公司提供。
安德魯·巴託(Andrew G. Barto,1948-),馬薩諸塞大學阿默斯特分校信息與計算機科學系榮譽退休教授。他於1977 年加入該校,先後擔任副教授、教授,曾任系主任。巴託擁有密歇根大學數學學士、計算機與通信科學碩士及博士學位,馬薩諸塞大學神經科學終身成就獎、IJCAI卓越研究獎和IEEE神經網絡學會先驅獎;電氣電子工程師協會(IEEE)會士、美國科學促進協會(AAAS)的會士。
理查德·薩頓(Richard S. Sutton),阿爾伯塔大學計算機科學教授、Keen Technologies 公司研究科學家及Amii(Alberta Machine Intelligence Institute)研究員。薩頓曾在 2017 年至 2023 年期間擔任 DeepMind 的傑出研究科學家。在加入阿爾伯塔大學之前,他於 1998 年至 2002 年在AT&T 香農實驗室人工智能部門擔任首席技術研究員。薩頓與安德魯·巴託的合作始於 1978 年,當時他在馬薩諸塞大學阿默斯特分校任職,而巴託則是薩頓的博士生導師和博士後導師。薩頓在斯坦福大學獲得了心理學學士學位,並在馬薩諸塞大學阿默斯特分校獲得了計算機與信息科學的碩士學位和博士學位。
Sutton 曾獲得國際人工智能聯合會議(IJCAI)卓越研究獎、加拿大人工智能協會終身成就獎,以及馬薩諸塞大學阿默斯特分校傑出研究成就獎。他是英國皇家學會會士、人工智能促進會(AAAI)會士及加拿大皇家學會會士。
什麼是強化學習?
人工智能(AI)領域關注構建智能體,即能感知與行動的實際存在,而更智能的智能體現在其能選擇更優的行動方案。因此,“某些行動優於其他”的概念是 AI 的核心。獎勵(reward,源於心理學與神經科學的術語)表示提供給智能體與其實際行為質量相關的信號。強化學習(RL) 則是通過獎勵信號學習更成功行為的過程。
“從獎勵中學習”的理念由來已久,可以追溯到千年以來的動物訓練,後來,圖靈 1950 年的論文《計算機器與智能》(Computing Machinery and Intelligence)提出“機器能思考嗎?”的問題,並提出了基於獎勵和懲罰的機器學習方法。
儘管圖靈報告了一些初步的相關實驗,以及亞瑟・塞繆爾(Arthur Samuel)在 20 世紀 50 年代開發了通過自我對弈學習的跳棋程序,但此後數十年,在人工智能這一方向進展甚微。20 世紀 80 年代初,受心理學啓發,巴託與博士生薩頓開始將強化學習定義為通用問題框架。
他們借鑑馬爾可夫決策過程(MDPs)的數學基礎,其中智能體在隨機環境中決策,每次狀態轉移後接收獎勵信號,以最大化長期累積獎勵為目標。與傳統 MDP 理論假設環境完全已知不同,強化學習框架允許環境與獎勵是未知的。這種最小化信息需求與 MDP 的通用性結合,使強化學習算法適用於廣泛問題。
巴託和薩頓與其他研究人員共同開發了強化學習的許多基本算法。他們的重要貢獻之一是——時序差分學習(Temporal Difference Learning),它在解決獎勵預測問題方面取得了重要進展;以及策略梯度方法(policy-gradient methods)和將神經網絡作為表示已學習功能的工具使用。他們還提出了結合學習和規劃的智能體設計,證明了將環境知識作為規劃基礎的價值。
此外,他們的經典教材《強化學習:導論》(Reinforcement Learning: An Introduction,1998)被引用超 7.5 萬次,至今仍是該領域標準參考資料。在這本書的影響下,成千上萬的研究者能夠理解並參與到這個新興領域,並繼續激發今天計算機科學領域的大量重要創新。
儘管巴託和薩頓的算法誕生於數十年前,但其與深度學習算法的結合(由2018年圖靈獎獲得者Bengio、Hinton和LeCun開創),從而導致了深度強化學習的出現,在過去 15 年取得多項重大突破。
最突出的例子是 AlphaGo 程序在 2016 年和 2017 年戰勝了最優秀的人類圍棋選手。最近一項重大成就則是聊天機器人 ChatGPT 的開發。ChatGPT 是一個經過兩階段訓練的大型語言模型(LLM),其中第二個階段採用了一種被稱為基於人類反饋的強化學習(RLHF)的技術,以獲取人類的期望。
此外,強化學習也在許多其他領域取得成功。一個引人注目的例子是在機器人操作和解決物理(三階魔方)問題中的運動技能學習,這表明有可能在模擬中進行所有強化學習,最終在截然不同的現實世界中取得成功。其他領域包括網絡擁塞控制、芯片設計、互聯網廣告、全球供應鏈優化、提升聊天機器人的行為和推理能力,甚至改進計算機科學中最古老的問題之一——矩陣乘法的算法。
最終,一項部分受神經科學啓發的技術也予以了回報。包括巴託在內的近期研究顯示,人工智能領域開發的特定強化學習算法為有關人類大腦多巴胺系統的大量發現提供了最佳解釋。
ACM 主席雅尼斯·約安尼迪斯(Yannis Ioannidis)表示:“巴託和薩頓的研究成果表明,將多學科方法應用於我們領域長期存在的挑戰具有巨大潛力。從認知科學、心理學到神經科學等研究領域啓發了強化學習的發展,這為人工智能的一些最重要進展奠定了基礎,並讓我們對大腦的工作原理有了更深入的瞭解。巴託和薩頓的工作並非我們已經跨越的墊腳石。強化學習仍在不斷發展,併為計算及其他眾多學科的更進一步提供了巨大潛力。授予他們本領域的最高榮譽,實至名歸。”
谷歌高級副總裁傑夫·迪恩(Jeff Dean)指出:“在 1947 年的一次演講中,艾倫·圖靈曾表示‘我們需要的是一台能夠從經驗中學習的機器’。由巴託和薩頓開創的強化學習直接回應了圖靈的這一挑戰。他們的工作在過去幾十年裏一直是人工智能領域取得進展的關鍵所在。他們開發的工具仍然是人工智能熱潮的核心支柱,並促成了重大進步,吸引了大批年輕研究人員,並帶來了數十億美元的投資。強化學習的影響還將持續到未來很長一段時間。谷歌很榮幸贊助圖靈獎,並向那些塑造了改善我們生活的技術的人士致敬。”
參考來源
https://www.acm.org/media-center/2025/march/turing-award-2024
特 別 提 示
1. 進入『返樸』微信公眾號底部菜單“精品專欄“,可查閲不同主題系列科普文章。
2. 『返樸』提供按月檢索文章功能。關注公眾號,回覆四位數組成的年份+月份,如“1903”,可獲取2019年3月的文章索引,以此類推。