ChatGPT能耗比最初版本可能高20倍,幻覺與能耗是AI發展方向不對的明顯跡象_風聞
陈经-亚洲视觉科技研发总监-33分钟前
1. 汽車行業不停給出能耗與環保數據,甚至交碳税。人工智能行業已成耗能大户,但卻不給數據!OpenAI很久沒給能耗數據了,包括最新的GPT-5。《衞報》報道,伊利諾伊大學教授 Rakesh Kumar研究了AI的能源消耗,他説GPT-5能耗可能比ChatGPT最初版本多 20 倍。
2. 大模型的能力已經超過普通人,但有兩個嚴重弱點。一個是幻覺,很高明的樣子,忽然極不靠譜,人們不敢放心使用。一個是能耗,還不太引人關注,但趨勢不好。數據中心用電量暴增,搞得美國電網都出問題了。我來解釋下底層原理。
3. 現在的大模型和以前的簡單神經網絡,都是基於一個數學工具:矩陣。眾多矩陣相乘相加,人腦不是這樣運作。簡單神經網絡能識別字符,但已經出現了大模型的特性:幻覺。正常字符可以識別,但一些錯亂的東西會認錯成字符,因為神經網絡並未像人那樣抓住字符本質,而是計算統計模仿。計算也有“歸納”,如字符0的識別,真的有中間數據結構對應“特徵”(如中間一個洞),但這是訓練生成的,沒法控制、不好解釋。字符識別能滿足應用要求,但不如人靠譜,有幻覺,不是字的認成字,變形的字有時不認,人的最終確認更權威。簡單神經網絡矩陣不大數量不多,能耗問題小。
4. 大模型把神經網絡推向極致,上萬億個係數,矩陣很大很多,用整個互聯網的語料來訓練。大模型內部“歸納”出了結構,對應了“知識”,是訓練生成的,不是人編程的。如“媽媽的媽媽是奶奶”,可能就有專門的數據項記下這點。大模型建立了互相連接的知識結構,可以和人類交流了,無所不知,內部知識點數量遠超任何人。知識結構一開始錯誤多,但人類去“強化學習”,説你這個不對,給我改!大模型不知道為啥不對,也不知道如何改,但人類訓練命令必須滿足,就不停地改,碰巧改好了就行了。這樣輸出越來越讓人滿意。
5. 能看出,這個“學習”過程似是而非。類學習基於堅實理性邏輯,AI訓練是讓人對輸出滿意。人類滿意的,只是對測試素材的輸出,更多離譜輸出沒注意,知識結構錯誤也沒注意。使用時,就出“幻覺”了。幻覺就是大模型在知識結構中,自由推理輸出錯誤的東西。這個知識結構中有很多古怪、不正錯的東西,到處是坑。如何修正,非常困難,因為只有訓練這招。有些像邪派高手,什麼都學,會了不少,但根基不穩,內力不純,最後走火入魔沒救了,能力強但不靠譜會發神經。人類的理性高手,根基很穩,數學物理邏輯透徹理解,懂就是真懂,不懂的説不懂而非強行輸出。
6. 糟糕的是,大模型的邪派高手作風需要極多矩陣支持,走上了高能耗的路線。想要能力強,就要大矩陣、多連接、大算力。它不是把內部邏輯結構理順,而是加入了更多內部知識節點,去應對越來越苛刻的人類考核。最後,就卡住了。大模型考分是有進步,但有不可消除的嚴重幻覺,內部節點越多越不好理順。這種帶病運行的大模型,不像是能改變世界的大殺器。人們花了極多能源在做重複浪費的矩陣計算,如果最後得出結論,投入產出不划算,大模型就走下坡路了。需要低能耗,需要理順AI的知識結構,目前方向不對。
