GPT-4大模型硬核解讀!看完成半個專家(下)_風聞
PINK小白-04-01 21:42
04**.**
GPT-4的算力基座
4.1 GPT-4****計算服務器架構

▲計算服務器架構對比
針對GPT-4這類大模型的計算架構,按照計算芯片的組合方式,一般可以分為:“CPU+GPGPU”,“CPU+DSA”,和“CPU+DSA+GPGPU”三種類型。這三種類型目前都已在雲計算場景廣泛應用和部署。
DSA即領域專用加速器,是用於一些特定場景或算法族計算的芯片級加速。最早的GPU也屬於DSA,也就是圖形加速的DSA。隨着GPU逐漸演化,將非常小的CPU核心加入GPU形成GPGPU架構後,才具備了通用化的計算能力。
1)CPU+GPGPU是較早且部署眾多的一種。由於這種架構的計算靈活度高,也可用於模型訓練和非AI類計算。適合任務種類繁多且差異化大的雲計算場景。
2)CPU+DSA是目前Google雲計算(GCP)應用較多的方式。例如Google去年發佈的Pathways****計算系統(包含6144塊TPU)就是這類架構的典型代表。這類架構計算靈活性稍低一點,但是計算性能和成本都非常明顯優於CPU+GPGPU模式,非常用於GPT-4或其他算法部署場景。例如早些年的AlphaGo的性能突破很大程度上來自於Google自研的TPU。當時如果用GPU,估計超過人類棋手的集羣成本恐是當年的Google也難以承受的。

▲Google Pathways “CPU+DSA”訓練集羣基礎架構(來源:Google)
3)CPU+DSA+GPGPU介於前兩者之間,充分提高了靈活性又明顯降低了計算成本。這類架構需要算法設計/部署人員有豐富的異構架構部署經驗。
計算卡間的高速互連對GPT-4計算的影響排在單卡算力之後。對於多數GPU來説,由於一般需要多卡才能放下一個模型,因此整體的計算效率受限於互連帶寬和單卡有效算力密度。(算力密度大可以減少互連交互的總數據量)

▲AI服務器內部的卡間互連
以英偉達為例,HGX平台上有六個NVSwitch。每個NVSwitch連接2塊GPU,總共有12個最短數據通道直連,形成接近立方體式的數據交互網。這裏之所以説接近,是因為0123和4567平面之間的連接還不是兩兩互連,這一結構會限制GPU所能運行的模型的規模效率。
計算服務器之間的高速互連通過Infiniband實現。每個NVIDIA A100/H100可以訪問服務器Infiniband結構,通過Infiniband提升服務器間的數據交互帶寬,而大帶寬的Infiniband一般通過光纖連接(使用SerDes技術)來減少損耗。Infiniband網絡基於“以應用程序為中心”的觀點,目標是讓應用程序訪問其他應用程序以及存儲儘可能的簡單、高效和直接,避免網絡分層帶來的延****遲。這種結構大大提高了GPT-4訓練的速度。
4.2 GPT-4****計算相關芯片
對於GPT-4這類大模型來説,其部署需要大量的大算力計算、存儲和數據交互芯片,包括:
AI計算:算力>100TFLOPS的GPGPU或大算力AI芯片
CPU:核數>8的CPU
存儲:內存/GDDR/HBM/NVMe
數據交互:Infiniband卡
在Transformer技術興起之後,傳統CUDA核心的算力支持能力已表現出劣勢,英偉達便在其GPU中添加Tensor Core這類DSA單元,以適應算力需求的變化。考慮到GPU這類通用架構芯片在計算效率和算力上已經暫時落後於GPT-4/ChatGPT這類大模型的發展速度,從芯片/半導體的歷史發展規律看,預計近幾年可能會有新的專用架構大發展來填補這一需求。這類新架構也許是針對大模型的****DSA,或者是更接近於DSA的****GPGPU。

▲CPU、GPU和存算一體芯片的架構對比
從目前GPT-4的部署需求來看,GPT-4大模型具有數據量大、數據帶寬要求高、算力要求高的計算特點,且算法相對單一。如果要提高計算效率和性價比,就應該像超算那樣選擇更高計算密度的算力芯片。從這個角度上看,具備存算一體結構的DSA可以很好的滿足這些要求,並且具備比GPGPU更高的計算性能,未來很有可能與CPU或GPU組合,形成GPT-4這類算法的主要部署芯片。
在GPT-4這類大模型訓練中,一般需要使用Infiniband進行大算力芯片間的協同工作,整合海量芯片的算力。Infiniband摒棄了傳統網絡和應用程序之間消息傳遞的復****雜結構,使應用程序之間直接進行通信,繞過了操作系統,大大提高了效率。
05**.**
GPT-4的侷限與未來改進方向
5.1 GPT-4****侷限
儘管GPT-4表現出出色的上下文對話能力甚至編程能力,以及能看懂圖梗和分析數據圖。我們也要看到,GPT-4技術仍然有一些侷限性,還在不斷的進步。
1)GPT-4在其未經大量語料訓練的某些領域缺乏“人類常識”和引申能力”。GPT-4在很多領域可以“創造答案”,但當用户尋求正確答案時,GPT-4也有可能給出有誤導的回答。大預言模型的安全性問題仍是橫亙在其大規模商用上的拉路虎。如果遇到關係重大利益的抉擇時,我們是該相信GPT-4的結果還是不相信呢?

▲大語言模型的SWOT分析(來源:互聯網)
2)GPT-4需要非常大量的算力(芯片)來支持其訓練和部署。拋開需要大量語料數據訓練模型不説,在目前,GPT-4在應用時仍然需要大算力的服務器支持,而這些服務器的成本是普通企業在大流量服務時無法承受。對於私有化部署來説,還需等待更輕量型的模型或更高性價比的算力平台。
3)GPT-4還沒法在線的把新知識納入其中,而出現一些新知識就去重新預訓練GPT模型也是不現實的,無論是訓練時間或訓練成本,都是普通訓練者難以接受的。
如果對於新知識採取在線訓練的模式,看上去可行且語料成本相對較低,但是很容易由於新數據的引入而導致對原有知識的災難性遺忘的問題。另一方面,缺乏檢查的新的不良知識也可能導致模型本身的安全性問題。特別是GPT-4可能會繼承從新數據中學到的偏見和不平等性。如果數據集中存在種族、性別、地理位置等方面的偏見,GPT-4也可能會在生成文本時出現類似的偏見。
4)GPT-4仍然是黑盒模型。目前還未能對GPT-4的內在算法邏輯進行分解,因此並不能保證GPT-4不會產生攻擊甚至傷害用户的表述。OpenAI提供的文檔報告稱,GPT-4-launch的錯誤行為率為0.02%,遠低於GPT-3.5的0.07%和GPT-3的0.11%1。這意味着GPT-4-launch生成的文本在10000次完成中只有2次違反OpenAI的內容政策或用户偏好。但即便這2次違反依然可能導致OpenAI受到嚴重的法律訴訟。
5)GPT-4仍存在社會和道德風險。由於GPT-4這類大型語言模型仍然存在根本性的黑盒特徵。GPT-4仍然可以生成有偏見的、虛假的和仇恨的文本;仍然可以被黑客攻擊(例如Prompt越獄)以繞過它的安全防護牆。儘管OpenAI提出了多項措施來減輕其模型的風險和挑戰,但GPT-4仍然可能被濫用於創建假新聞、宣傳、垃圾郵件或有害內容,還可能產生可能誤導或傷害用户的事實錯誤或偏見。OpenAI的研究表明,GPT-4可以在許多領域與人類宣傳員相媲美。
6)GPT-4仍存在幻覺和推理錯誤。儘管OpenAI聲稱GPT-4相對於以前的模型可以顯着減少幻覺(在其內部評估中得分比GPT-3.5高40%)。GPT-4仍然可能會產生有害的建議(儘管GPT-4更有可能拒絕回答)、錯誤代碼或不準確的信息,因此,GPT-4暫不應該用於錯誤成本高的區域(比如醫學手術?)。
7)GPT-4存在泄露隱私可能。GPT-4可從各種內部許可和公開可用的數據源中學習,其中可能包括大量公開有效的個人信息。包括互聯網上學習到有重要影響力人物(例如名人和公眾人物)的大量隱私信息。GPT-4還可以聚合不同信息,將大量隱含信息關聯挖掘出來形成有效的隱私信息。
5.2****未來改進方向
5.2.1減少人類反饋的RLAIF
2020年底,OpenAI前研究副總裁Dario Amodei帶着10名員工創辦了一個人工智能公司Anthropic。Anthropic的創始團隊成員,大多為OpenAI的早期及核心員工,並在2022年12月,發表論文《Constitutional AI: Harmlessness from AI Feedback》介紹人工智能模型Claude。

▲CAI模型訓練過程(來源:Anthropic)
Claude和GPT-4都依賴於強化學習(RL)來訓練偏好(Preference)模型。CAI(Constitutional AI)也是建立在RLHF的基礎之上,不同之處在於,Claude的CAI的排序過程使用模型(而非人類)對所有生成的輸出結果提供一個初始排序結果。這種模式的好處是節約了大量人工標註的時間和資源,可以加速大模型的訓練進程,並降低成本。
CAI用人工智能反饋來代替人類對錶達無害性的偏好,即RLAIF,人工智能根據一套法規(Constitution)原則來評價回覆內容。

▲CAI與RLHF技術對比(來源:Anthropic)
5.2.2****數理能力的增強
GPT-4雖然已經具備解物理題的能力,但畢竟不是專門的解題算法,一些複雜的數理問題對話中仍會出現一本正經胡説八道的情況。
計算機學家Stephen Wolfram為這一問題提出瞭解決方案。Stephen Wolfram創造了的Wolfram語言和計算知識搜索引擎Wolfram|Alpha,其後台通過Mathematica實現。

▲ChatGPT與Wolfram|Alpha結合處理梳理問題(來源:Wolfram)
目前Woflframe已經可以通過ChatGPT調用(通過插件),未來也會實現GPT-4的集成。在這一結合體系中,GPT-4可以像人類使用Wolfram|Alpha一樣,與Wolfram|Alpha“對話”,Wolfram|Alpha則會用其符號翻譯能力將從GPT-4獲得的自然語言表達“翻譯”為對應的符號化計算語言。在過去,學術界在GPT-4使用的這類“統計方法”和Wolfram|Alpha的“符號方法”上一直存在路線分歧。但如今GPT-4和Wolfram|Alpha的互補,給NLP領域提供了更上一層樓的可能。

▲ChatGPT調用Wolfram(來源:Wolfram)
GPT-4不必生成這樣的計算代碼,只需生成常規自然語言,然後使用Wolfram|Alpha翻譯成精確的Wolfram Language,再由底層的Mathematica進行計算。
5.2.3 GPT-4****的本地化與小型化
雖然GPT-4很強大,但其模型大小和使用成本也讓很多人望而卻步。
有三類模型壓縮(model compression)技術可以降低模型的大小和成本。
第一種方法是量化(quantization),即降低單個權重的數值表示的精度。比如Transformer從FP32降到INT8對其精度影響不大,但是會顯著提升計算效率。筆者團隊已研發出INT4量級的Transformer高精度量化算法,無需再次訓練或更改模型,即可部署到GPT-4算力平台上,大大提升計算效率並降低成本。
第二種模型壓縮方法是剪枝(pruning),即刪除GPT-4的網絡元素,包括從單個權重(非結構化剪枝)到更高粒度的組件如權重矩陣的通道。這種方法在視覺和較小規模的語言模型中有效,也是很多框架(Framework)上自帶的功能。
第三種模型壓縮方法是稀疏化。例如奧地利科學技術研究所(ISTA)提出的SparseGPT可以將GPT系列模型單次剪枝到50%的稀疏性,而無需任何重新訓練。當然這種稀疏結構目前還僅僅是基於GPU架構實現的,在其他硬件平台上並不兼容,而且GPT-4的稀疏化是否在綜合成本上優於壓縮還有待觀察。

▲SparseGPT壓縮流程(來源:ISTA)
06**.**
GPT-4的產業未來與投資機會
6.1****大模型的技術棧
GPT-4這類大模型的用户量巨大,算力需求巨大,連接的設備和軟件眾多。其技術棧具有更多組件,可包括用於容器化、性能監控、商業智能、事件處理、雲服務、微服務和分析的工具。
GPT-4/ChatGPT等大模型的技術棧可以分為5層:
1)應用層:將生成的AI模型(可通過接口)集成到面向用户的應用程序,運行私有模型或通過第三方接口運行模型。這一層的應用企業最多。大量企業無需研發自有的大模型,即可使用GPT-4帶來的人工智能協作能力和生成能力,形成各類應用。
2)接口層:包括各種調用API和數據中心調用工具,同時提供對應的提示工程接口和模型精調接口。接口層將應用層和模型層銜接,方便應用層調用,使得開發者和用户能夠以編程方式與模型進行交互。這可以簡化GPT-4在實際應用中的部署和調用,從而降低使用門檻。
3)模型層:包括各類開源或非開源模型,以及各種模型的共享平台。這一層提供了不同的模型數據和功能,通過接口層為應用層提供大模型的功能支持。
4)框架層:提供訓練或雲部署的深度學習框架和中間件等,包括PyTorch、TensorFlow等知名深度學習框架和中間件。
5)計算層:為模型層提供模型計算和調度的各種算力支持,為訓練AI模型運行訓練和運行推理任務提供基礎設施。計算層包括了各種雲計算平台和計算芯片。在這一層,AI芯片會是核心瓶頸。

▲GPT-4等大模型的技術棧
目前GPT-4的幾乎所有內容都通過雲計算GPU或TPU來運行,使用者包括運行訓練工作的模型提供商/研究實驗室、進行模型部署或精調的應用企業。在GPU替代CPU成為主要的AI算力芯片之後,AI界10多年來再一次受到大規模計算能力的限制。
截至目前,GPT-4這個領域目前還未看到非常明確的技術或產品護城河。由於使用相似的模型,應用層企業在早期可能會缺乏很強的產品差異化;由於大部分雲服務提供方目前只能使用同一FAB生產的GPU作為主力算力芯片,普通雲提供商實質上也難以提供成本或性價比的差異化。
GPT-4等大模型目前以同質化的模式進行構建,具備統一的“圖像+自然語言”接口,因此短期內,除了模型參數本身不易訓練好的壁壘外,暫時還未明確通過軟件生態或數據管道建立自家獨有競爭壁壘的路線。
就目前來説,我們還無法判斷GPT-4這類多模態大模型領域是否會像互聯網那樣出現少數幾家獨大的情況。也許大模型的時代會是一個無中心的狀態,每個團隊都有可能成為英雄。
6.2 GPT-4****的產業應用
AIGC即利用人工智能技術來生成內容。與此前Web1.0、Web2.0時代的UGC(用户生產內容)和PGC(專業生產內容)相比,代表人工智能構思內容的AIGC,是新一輪內容生產方式變革,而且AIGC內容在Web3.0時代也將出現指數級增長。
GPT-4模型的出現對於圖像/文字/語音多模態的AIGC應用具有重要意義,會對AI產業上下游產生重大影響。

▲GPT-4的應用領域(修改自OpenAI)
GPT-4對依賴人類智能處理和生成的各個領域和行業具有許多潛在的應用和影響。與其考慮哪些細分領域可以使用GPT-4這類技術輔助人工,不如考****慮哪些領域還不能用GPT-4輔助,後者的名單或許更短一些。
可以快速使用GPT-4的一些行業包括(可視為會快速變革的行業的預測):
1)教育行業:GPT-4可以作為想要學習新技能或學科的學生的輔導員或指導者。GPT-4還可以根據學生的學習目標和進度,為他們提供個性化的反饋和指導。
2)文娛行業:GPT-4作為講故事的人或作曲家,為觀眾和平台輸出原創且引人入勝的內容。GPT-4還可以用作遊戲設計師或角色,為遊戲玩家創造身臨其境的互動體驗。
3)商業:GPT-4可用作營銷人員或銷售人員,為顧客和客户創建有效且有説服力的話術。GPT-4還可以用作客户服務代理或聊天機器人,以快速準確地響應查詢和投訴。
4)新聞:GPT-4可用作記者或編輯,以生成有關各種主題和事件的高質量和真實的新聞文章。GPT-4還可以用作新聞檢查器或驗證器,用於檢測和糾正錯誤信息和假新聞。
5)醫療大健康:醫生或護士可以使用GPT-4作為助手診斷和治療患有各種疾病的患者。GPT-4也可以用作治療師或健康顧問,提供心理健康支持和建議。
6)法律:GPT-4可以作為律師或法官助理起草和審查法律文件和合同。
7)生命科學:GPT-4及其模型的生物分支可用於從用於臨牀試驗的合成數據創建到基於蛋白質摺疊模型的生成式蛋白質設計以加速藥物發現,再到學術論文的研究總結。雖然採用還處於早期階段,但加速藥物發現和批准、改善患者療效和節省醫療成本的潛力是巨大的。
8)供應鏈和物流:藉助GPT-4的思維鏈能力來進行自動化產品開發,包括設計和組件替換,從而以更低的成本生產出具有更高性能和可持續性的新產品。GPT-4還可支持文檔自動化和合同生成,以更好的簡化工作流程。
隨着算法技術和算力技術的不斷進步,GPT-4也會進一步走向更先進功能更強的版本,在越來越多的領域進行應用,為人類生成更多更美好的對話和內容。
6.3 GPT-4****對我們和未來的影響
GPT-4這類多模態大模型技術會對我們每個人的生活和工作產生一系列的影響。例如:
1)GPT-4會極大的影響宣傳和社交。以後GPT-4這類技術會在互聯網上橫行,我們會很難分辨到底是“大眾的聲音”還是“中心服務器的聲音”,大量沒有主見的人可能會盲從於GPT-4這類技術生成的觀點,人類會變成機器的復讀機。同時GPT-4工具會大量滲透入普通人的社交,“唯有套路得人心”的場景會遍地開花。
2)AI大量替代低端重複性溝通和多模態工作。GPT-4會與機器人技術結合,從雲滲透到端,進入每個人的日常生活。操作系統和辦公軟件的交互UI會大量被大模型主宰化。也許開始會有很多人因為AI技術的替代而失業,逐漸更多的人藉助GPT-4這類技術獲得更高的效率併成為自然語言程序員,人類開始剝削機器,創造力和自然情感成為人類能堅守的寶貴特質。
3)各種考核將從知識型考核轉向綜合能力考核。知道多少或者會什麼外語已經不重要,工作經驗或技術經驗也只是看是否擁有更先進的GPT模型或算力。一些曾經的熱門專業可能會逐漸凋落。人類下一代從人類“內卷”過渡到“人機互卷”,高層次能力競爭會更加激烈。
GPT-4這類多模態大模型到底會給我們每個人帶來什麼樣的具體影響,也許是現在的我們還不能完全想象的。但這影響一定是巨大和深遠的。畢竟“聖盃”的語義不僅僅代表貴重,也代表了神奇和不可思議,甚至是獨一無二。
(本文系網易新聞•網易號特色內容激勵計劃簽約賬號【智東西】原創內容,未經賬號授權,禁止隨意轉載。)