訓練ChatGPT有多燒錢?國產大模型有機會嗎?_風聞
中国版大表姐-02-17 15:20
來源:澎湃新聞
GPT1.0和GPT2.0是開源的,目前很多國產大語言模型是用開源軟件,加上中文語料處理的,差距和GPT3.5可能並不只相差了一代。而現在GPT3.0沒有可靠的開源軟件。
“誠然很多國內廠商對ChatGPT有興趣,但是他們的興趣點也很多,跟風投機性強,無法像OpenAI那樣全力以赴,意志堅定。”
ChatGPT風靡全球后,科技巨頭們紛紛入局,各類初創公司也如雨後春筍。最近,原美團聯合創始人王慧文的一條“5000萬美元,帶資入組,不在意崗位、薪資和title,求組隊”的宣言更是引起諸多討論。
然而,訓練通用大模型非常“燒錢”。據國盛證券報告《ChatGPT需要多少算力》估算,GPT-3訓練一次的成本約為140萬美元,對於一些更大的LLM(大型語言模型),訓練成本介於200萬美元至1200萬美元之間。以ChatGPT在1月的獨立訪客平均數1300萬計算,其對應芯片需求為3萬多片英偉達A100
GPU,初始投入成本約為8億美元,每日電費在5萬美元左右。
更直觀地理解,如果將當前的ChatGPT部署到谷歌進行的每次搜索中,需要 512820.51台A100 HGX服務器和總共4102568個A100 GPU,這些服務器和網絡的總成本僅資本支出就超過1000億美元。
“大模型的訓練和推理成本一直以來是AI產業發展的瓶頸,因此具有大模型構建能力的企業往往是世界科技巨頭。這會形成強大的護城河,造成強者恆強的局面。”法國里昂商學院人工智能管理學院(AIM)院長、全球商業智能中心(BIC)主任龔業明接受澎湃科技(www.thepaper.cn)採訪時表示。
“的確成本很高,所以短期內大廠具有優勢。或者資本市場高度看好這一領域,重金投資出一些創業公司來做大模型。”IDC中國研究總監盧言霞對澎湃科技表示,“將來要麼是大廠作為最上游提供基礎模型,中小型企業作為下游開發出基於大模型的應用。要麼是也會誕生出一批做大模型的AI創企,即使如此,產業也將是大模型提供商為上游。還有可能大模型發展到一定階段,開源的越來越多,頭部行業用户基於開源模型開發自己的AI應用,提供給行業裏其他友商,也就是類似行業雲的形式。”
“國產大模型與ChatGPT基礎模型相差不止一代”
“ChatGPT本質上是一個由浮點數參數表示的深度神經網絡大模型,屬於深度學習的框架。ChatGPT的推出是深度學習提出後又一個里程碑式的技術革命,將為以自然語言處理為核心的認知智能技術發展提供新的‘歷史機遇期’。”科大訊飛副總裁、研究院執行院長劉聰對澎湃科技解釋道。
近期,除了驚豔於ChatGPT的表現之外,AI行業內對於中國能否做出類ChatGPT的產品也有諸多討論。國內大模型究竟與ChatGPT背後的GPT系列大模型相差多少?
“GPT1.0和GPT2.0是開源的,目前很多國產大語言模型是用開源軟件,加上中文語料處理的,差距和GPT3.5可能並不只相差了一代。”龔業明表示。
而現在GPT3.0沒有可靠的開源軟件了,龔業明説,“但是有理論論文發表,一些國產大語言模型正在根據GPT3.0論文和一些相關的情報開發系統,但是和OpenAI的原創模型會有較大差距。”
據龔業明分析,問題在於GPT3.0比很多目前國產大模型採用的GPT2.0要進化很多,而OpenAI正在一個從GPT3.5到GPT4.0的發展過程中。如果要徹底達到GPT3.5的水平,在短期內是不太可能的,語料庫的建立,人工標註,算法的訓練都需要時間。
很多國產大模型計劃用半年完成追趕,龔業明判斷,“半年後市場會出現一批這樣的所謂的GPT,但要達到真正實用需要2-3年,那時候OpenAI又進步了。”
差距的背後是什麼?
從技術角度來看,龔業明認為,國內的AI領域在基礎理論、算法研究、語料庫以及技術人才方面相對滯後。
第一,就語料庫而言,龔業明具體解釋道,“一個裝樣子的語料庫的構建和獲取也許不是特別費勁,但是語料的標註與理解工作比較繁複。目前有很多人工智能專家還認為中文語料質量會影響國產大模型的發展。語言學的長期研究告訴我們,語料庫的構建最好不能只侷限於簡體中文語料庫,要能理解多種語言,才能構建一流的中文語料庫。所以不要認為靠人海戰術和低人力成本建一個簡中語料庫就能解決語言學問題。”
第二是算法。“GPT對算法的要求特別高。算法要能容納和分析大數據,個別國產大語言模型出現了過載問題,就是算法處理不了更大的數據,或增加了數據後服務質量沒提高。”龔業明説。
第三是運算量。“GPT需要高端顯卡和高端芯片。在目前的國際環境中,並不是所有我國企業能獲取足量的高端顯卡和高端芯片。同時運算量也要求較高的投資。”龔業明也聊到當下的現狀,“誠然很多國內廠商對ChatGPT有興趣,但是他們的興趣點也很多,跟風投機性強,無法像openAI那樣全力以赴,意志堅定。”
最後,“短期內很不容易找到GPT的領軍人才,在這個領域領軍人才幾乎全在美國。”龔業明不無遺憾地總結道,“由於這些關鍵因素,我不認為能夠比較容易地在短期內實現追趕。”
另一方面,“國內缺乏明確的前瞻性生態與商業佈局。”龔業明從商業模式角度分析,“現在出現了ChatGPT這樣的產品,國內也會出現很多的公司、機構,但在技術路徑的複製上面,由於缺乏基礎模型積累和大量的訓練數據來源,所以複製難度較大。OpenAI在很多年前就理解了GPT的價值,我們到現在別人已經做出來,才知道該這樣發展,才理解其中的商業價值,就慢了點。”
ChatGPT商業價值幾何?“兵家必爭之地”
劉聰認為,這次ChatGPT所帶來的革命將會深刻地改變當今世界的生產和生活方式,重構產業格局,是人工智能領域推動工業乃至社會變革的重大戰略機遇,是未來發展兵家必爭之地。
具體而言,劉聰概括了四個方面的變革。
一是改變現有人機交互模式,未來人們可能用自然對話的方式與智能產品交互。二是改變信息分發獲取模式,基於認知智能技術可實現更高效的信息整合和知識推薦等。三是革新內容生產模式,提高生產力。“未來ChatGPT被集成到word、excel、ppt等工具軟件後,將提升內容生產效率與豐富度,變革人們的辦公方式,成為新的全行業生產力工具。”四是加速“AI
for
Science”的發展,“隨着其學習的科研數據越來越多,未來ChatGPT有可能提供專業的研究建議甚至主動探索發現新的理論,帶來整個科學研究範式的全新變化。”
盧言霞則認為,ChatGPT短期內不可能顛覆AI行業格局,其對市場真正的影響在於底層大模型對AI開發模式的轉變。
這句話包含了兩層判斷。
為何ChatGPT短期內不可能顛覆AI行業格局?盧言霞認為,基於GPT-3模型已讀取的數據,ChatGPT可以回答用户的問題,甚至可以為用户推薦適配的產品、服務。
其所提供的答案在準確性、廣泛性方面仍存在侷限,因此現階段無法直接用於企業特定的場景中以替代之前的AI應用,不可能徹底顛覆搜索市場,也不可能改變人工智能市場格局。”
龔業明則持截然相反的觀念,“由於內容可信度還不是特別高,交互成本高,很多市場分析人員認為ChatGPT對市場真正的影響有限,這種看法可能對這個技術的商業價值理解不是特別深刻。目前也只是處在ChatGPT發展的早期,內容可信度會隨着訓練與算法的提高,逐步解決。”
對於另一個AI開發模式轉變的判斷,盧言霞進一步解釋道,“以前很多AI應用都是直接使用通用AI軟件,或者通用AI公有云服務。ChatGPT基於大模型的效果被認知到並且重視以後,將會有越來越多的AI應用或是嵌入大模型,或是直接用基於大模型的AI軟件替代。也就是説,這會是已經部署的AI應用更新換代的機會。
”
“之前AI市場很分散,未來如果大模型發展起來,那麼產業鏈可能的分工是:大廠提供大模型,AI應用廠商基於大廠的大模型開發AI應用。這將是上下游的關係,不再是之前的競合關係。”盧言霞説。
歐科雲鏈研究院高級研究員蔣照生則對澎湃科技談到一個新的角度,ChatGPT將加速Web 3.0時代的到來。
“以ChatGPT為代表的生成式AI完全有潛力成為Web
3.0時代的生產力工具,通過從包括鏈上數據在內的新型生產要素中學習和分析,為Web
3.0創作者和貢獻者們提供更可靠和更便捷的生產力工具,解決數字世界的數據資產與內容生產難題,補齊Web 3.0發展中的生產力短板。”蔣照生表示。
龔業明也表達了相似的想法。他認為從長期來看,AIGC(人工智能生成內容)將成為元宇宙生產工具。“ChatGPT等AIGC應用程序將顯著提升數字人的製造效率,內容生成快、成本低且可定製。AIGC能顯著提高數字人多模態交互中的識別感知和分析決策能力,成為元宇宙世界重要的生產工具。AIGC有望成為元宇宙搭建的重要工具,並推動web
3.0的發展。”
在採訪的最後,盧言霞説,未來充滿想象,不可預測。