越活越沒自信 人工智能開始用小霸王練腦
冒着暴露年齡的風險我也要説,我知道這東西對你意義非凡:

紅白機電視遊戲是一代人的回憶,也許是不甘心讓它們就此永遠沉寂,研究人工智能(AI)的專家們找到了機會讓它們煥發第二春——拿給AI玩。
Google在英國劍橋有個附屬機構DeepMind,他們給AI玩雅達利公司(Atari,美國最大的電視遊戲機公司)的遊戲,想讓它們在玩遊戲的過程中學會如何與真實世界互動。這些AI軟件非常喜歡電視遊戲,而且不斷練習會比人類玩的還好。
遊戲世界與真實世界似乎風馬牛不相及,但實際上,學習的過程和解決問題的邏輯都是一樣的:
觀察→狀態判斷→行動→反饋→觀察……
讓AI玩遊戲的,除了Google還有一家名為Osaro的公司。Osaro公司開發的AI基於神經網絡(neural networks)和增強學習(reinforcement learning)設計。AI的神經網絡類似於人類大腦的神經網絡,理論上講,如果給AI提供了足夠多的照片,它就能通過這些已知信息辨識出某一張照片中的所有東西。這種情況應用在遊戲中,能讓AI搞清楚目前的遊戲是什麼狀態。
除此之外,Osaro公司特別研發的循環神經網絡(recurrent neural networks)可以讓AI擁有類似於人類的短期記憶:將短暫的過去與現在進行比較,能夠更好地判斷出環境狀態的變化和未來發展趨勢。

觀察結束後,增強學習用於調整行動:如果行動結果是正向的,下次就還會這樣做,反之則摒棄這種做法。遊戲世界很單純,分數獎勵就像刺激人類大腦的多巴胺。如果一項行動能讓分數增加,AI下次就會更傾向於這樣做或者選擇類似的做法。
將這種學習方法應用到現實場景,才是Google和Osaro的最終目的:例如如果機器人成功把杯子放到指定位置就能得到獎勵,把杯子打碎了就會受到懲罰。如此一來,它就會懂得人類想要的是什麼結果,而不再是機械地執行命令。
其實AI就像小孩子,不斷在遊戲中試錯,最終就會找到所有通關技巧。雖然現實世界的複雜程度是遊戲所無法比擬的,但讓AI玩遊戲更像“授之以漁”——學會“如何學習”比“學到了什麼”更加重要。
現在回想起來,當年那個單純幼稚的你,是不是也曾在玩遊戲時悟出什麼朦朧的道理?
