蘋果在谷歌芯片上訓練AI，打響拋棄英偉達GPU第一槍？

李亚丽

2024-07-30

美東時間7月29日，蘋果公司發佈iPhone AI的首個預覽版，隨後發佈論文，稱其人工智能模型是在谷歌的TPU（張量處理模型）上訓練的。論文中介紹了為支持Apple Intelligence功能而開發的基礎語言模型，包括一個設計用於在設備上高效運行的約30億參數模型和一個基於私有云計算的雲側大模型。

蘋果基礎模型的建模概述蘋果官方發佈論文

蘋果發佈的論文稱，他們在8192塊TPU v4芯片上訓練雲側AFM（Apple Foundation Model），使用4096的序列長度和4096個序列的批量大小，進行了6.3萬億token訓練。端側AFM在2048塊TPU v5p芯片上進行訓練。

蘋果的決定表明，一些大型科技公司在人工智能訓練方面可能正在尋找英偉達圖形處理單元的替代品。

一些芯片行業媒體稱，這是蘋果打響了拋棄英偉達GPU的第一槍。

今年6月初，日本證券公司瑞穗證券估計，英偉達控制着用於訓練和部署OpenAI的GPT等模型的AI芯片市場的70%至95%。一些專家將英偉達在AI芯片市場的地位描述為護城河，其旗艦AI圖形處理單元GPU（例如H100）與該公司的CUDA軟件相結合，使其在競爭中佔據了先機。

包括谷歌、Meta、甲骨文和特斯拉在內的科技公司一直在努力構建自己的人工智能系統和產品。

心智觀察所研究員潘攻愚指出，蘋果宣佈其Apple Foundation Model（AFM）在谷歌自主開發的Tensor處理單元（TPU）進行訓練，而且還租用了谷歌的雲服務。蘋果在AI訓練方面的權衡折射出了英偉達通用型AI加速器和谷歌的ASIC定製化AI服務體系的競爭升級。

谷歌自2015年以來一直在使用自主設計的TPU來訓練和部署AI模型。不是設計通用處理器，而是將其設計為專門用於神經網絡工作負載的矩陣處理器，在整個大量計算和數據傳遞過程中，根本不需要訪問內存。

今年5月，谷歌宣佈推出了人工智能（AI）數據中心芯片Trillium，據稱該芯片的速度相比之前的版本提升了幾乎5倍。該公司表示，這款芯片將用於開發自己的模型，包括Gemini和Imagen。

谷歌稱，如果提前三年預訂，最新的TPU每小時使用成本不到2美元。谷歌於2015年首次推出TPU用於內部工作負載，並於2017年向公眾開放。它們現在是專為人工智能設計的最成熟的定製芯片之一。

儘管如此，谷歌仍是英偉達最大的客户之一。它使用英偉達的GPU和自己的TPU來訓練AI系統，並且還在其雲端出售英偉達技術的訪問權限。

“雖然英偉達目前控制着高達80%份額的高端AI芯片市場，但剩餘市場份額大多被大型雲服務供應商如谷歌、微軟、亞馬遜佔據。這一次蘋果採用的谷歌TPUv5雖然在通用性上較英偉達同生態位芯片遜色，但主打一個性價比，綜合總成本（TCO）要低英偉達四倍，而且拿貨週期短。目前谷歌TPUv5所在的市場大約有300億美元，英偉達一直覬覦這塊‘肥肉’，但考慮到和谷歌微妙的競合關係，英偉達目前還不會貿然大舉進入ASIC領域。”潘攻愚分析稱。

Meta首席執行官馬克·扎克伯格和Alphabet首席執行官桑達爾·皮查伊上週均發表評論稱，他們的公司和業內其他公司可能在AI基礎設施上投資過度，但他們也承認，不這樣做的商業風險太高。一旦落後，將無法掌握未來10到15年最重要的技術。

本文系觀察者網獨家稿件，未經授權，不得轉載。