發佈會後Sam Altman首次採訪，揭秘GPT-4o怎樣煉成？_風聞

乌鸦智能说-59分钟前

2024-05-16

近日，OpenAI發佈了全新大模型GPT-4o，GPT-4o中的“o”不只是一個字母，它代表的是“omni”，意味着這款模型擁有多模態的能力，能夠靈活處理文本、圖像和音頻等多種類型的數據。

這款大模型集成了多模態交互能力，實現在320毫秒內實時響應，並具備增強的智能與情感理解能力，不管是與它閒聊，還是向它諮詢問題、交代任務，都像與真人交互一樣絲滑。這款模型將在未來幾周內逐步向廣大開發者和消費者推出，並且，它將面向免費客户開放。

在與Logan Bartlett的深度訪談中，OpenAI首席執行官Sam Altman透露了這一突破性產品誕生的關鍵內情。

Altman坦言，GPT-4o的出現並非一蹴而就，而是過去幾年OpenAI在音頻、視覺模型及模型結合研究方面努力的最佳力作。他認為GPT-4o關鍵不僅在於性能，更在於其高效運行狀態，以至於這一當今全球最佳模型之一甚至可供免費用户使用，令人歎為觀止。

在談及模型未來發展時，他表示AGI（通用人工智能）只是智能連續發展過程中的一個節點，很可能會以過去10年的瘋狂速度持續向前，讓我們有機會親歷更多不可思議的時刻。他大膽預測，在不遠的將來，編程或將成為最重要的應用領域；同時，具備泛化推理能力的通用模型將扮演比眾多專業化模型更為關鍵的角色，成為驅動科技進步的中流砥柱。

以下為本期內容目錄：

01GPT-4o新品發佈

02AI發展預測

03AI創業機會

04通往AGI之路

05OpenAI內部運營

06Sam的個人思考

/ 01 / GPT-4o新品發佈

Logan Bartlett：你今天早些時候宣佈了GPT-4o的消息。它可以同時處理文本、語音和視覺信息。你能談談這為什麼重要嗎？

Sam Altman：我認為這是一種令人難以置信的人機交互方式。一直以來，我們都有語音控制計算機的想法，比如Siri之類的東西。但對我來説，它們從來沒有真正讓人感覺自然好用。**GPT-4o則完全不同，因為它可以實現很多事情，比如速度快、可以理解多種模態、語調自然，還可以根據你的指令改變説話速度和語氣。**它的流暢性和靈活性讓我着實着迷。

Logan Bartlett：你有沒有發現一些讓你印象深刻的用例呢？

Sam Altman：目前我只用了一個星期左右，但讓我驚訝的一個用例是在我全神貫注工作的時候，我可以把手機放在桌子上，不用再切換窗口，而是直接用GPT-4o作為另一個信息通道。比如説，我正在處理某件事，以前我可能不得不停下來，切換到另一個標籤頁，然後用谷歌搜索一些東西，點擊來回瀏覽等等。但是現在，我只需要問它問題，它就可以立即給我答案，而我仍然可以專注於電腦屏幕上的內容，這太酷了。

Logan Bartlett：促成GPT-4o誕生的是架構上的轉變還是計算能力的提升？

Sam Altman：**這應該是過去幾年我們所學到的一切的共同作用。我們一直在研究音頻模型、視覺模型，以及如何將它們結合起來，同時也在努力提高模型的訓練效率。**並不是説我們突然解鎖了一項瘋狂的新技術，而是將許多部分整合到了一起。

Logan Bartlett：你們是否還需要開發類似於設備模型的東西，以便降低延遲到可用水平？

Sam Altman：對於視頻處理來説，也許是這樣。網絡延遲在某些情況下會帶來麻煩。比如説，我一直認為最酷的事情之一是，未來我們可以戴上AR眼鏡之類的設備，然後實時用語音與世界交互，看着事物隨之改變。而網絡延遲可能會成為這種應用的障礙。不過就目前而言，2300毫秒的延遲感覺上已經非常快了，甚至比人類的響應速度還要快。

Logan Bartlett：關於後續的ChatGPT版本，人們猜測下一個重大發布可能不會是GPT-5，而是會採取一種迭代的開發方式。你們公司似乎也的確是這樣做的。這種理解方式正確嗎？以後不會再有盛大的發佈活動推出全新版本GPT-5，而是會採用另一種方式？

Sam Altman：我們老實説還不知道。我認為我學到的一件事是，人工智能和驚喜並不總是相輔相成的。儘管科技公司通常會以發佈會的方式推出產品，我們或許應該嘗試不同的方式。也許我們仍然可以把它命名為GPT-5，但以不同的方式發佈，或者換個名字。

但就目前而言，我並不認為我們已經找到給這些產品命名和打造品牌的方法。從GPT-1到GPT-4的發佈似乎還算合理。現在，GPT-4顯然還在不斷改進。我們還有一個想法，那就是可能存在某種“虛擬大腦”，它可以在某些情況下比其他模型產品思考得更深入。也許這會是不同的模型，但用户可能並不關心它們是否相同。因此，我們還沒有想清楚如何將這些產品推向市場。

/ 02 / AI發展預測

Logan Bartlett：這是否意味着隨着模型的不斷增量改進，對計算能力的需求可能比歷史上要少？

Sam Altman：我想我們總會盡可能利用可獲得的計算力。現在我們正在取得令人難以置信的效率提升，這非常重要。今天發佈的語音模式顯然是一個很酷的功能。但也許更重要的是，我們能夠以如此高的效率運行它，甚至可以將其提供給免費用户。可以説，這是目前世界上最好的模型之一。任何想要免費下載ChatGPT的人都可以使用它，這比GPT-4和GPT-4Turbo有着顯著的效率提升，而且我們還有很大的改進空間。

Logan Bartlett：你説ChatGPT本身並沒有改變世界，而只是改變了人們對世界的期望？

Sam Altman：是的，如果你想用經濟指標來衡量，可能找不到ChatGPT發佈後生產力或其他方面的顯著提升。

Logan Bartlett：在未來12個月裏，你認為哪些應用或領域最具前景？

Sam Altman：雖然這可能會因為我所處的位置而讓我產生偏見，但我認為編程是一個非常重要的領域。

Logan Bartlett：這有點類似於你最近提到的一個深刻教訓，你談到了針對特定數據和特定目的訓練的深度專業化模型與能夠進行真正推理的泛化模型之間的區別。

Sam Altman：**我認為具有泛化能力的模型更重要。如果模型能夠進行泛化推理，能夠自己弄清楚新的東西，那麼當它需要處理新的數據類型時，你可以把它輸入進去，它就可以完成任務。**但反之則不然，一堆特化模型組合在一起，在我看來，是無法進行泛化推理的。

Logan Bartlett：你認為在未來兩年內，人類和人工智能之間主要的溝通方式是什麼？

Sam Altman：自然語言似乎是一個非常好的選擇。我對這樣一個總體想法很感興趣，即我們應該規劃一種未來，讓人類和人工智能能夠使用相同的方式進行交流。**因此，比起其他形式的機器人，我更傾向於人形機器人。因為我認為現在世界的一切基本上都是為人類設計的，我並不希望為了某種更有效的東西而改變這一切。我喜歡這樣一種想法，即我們與人工智能的交流可以使用經過優化非常適合人類的語言，甚至它們彼此之間也用這種方式交流。**也許我的想法並不成熟，但總的來説，我認為這是一個值得探索的方向。

Logan Bartlett：對於C端用户來説，商業交互頁面和易用性才是重頭戲？

Sam Altman：這些當然很重要。它們一如既往地很重要。你知道，我可以設想還有其他情況，比如一種市場或網絡效應，在那裏我們的agents能夠互相溝通。當然，也可能有不同的公司和應用商店，但我傾向於認為一般的商業規則在這裏仍然適用。每當有新技術出現時，人們就會認為它們不適用，但這通常是假新聞。一切傳統的創造價值方式在這裏依然重要。

Logan Bartlett：有報道説你打算募集大量資金投資晶圓廠和半導體行業等。我想《華爾街日報》是比較可信的報道來源。英偉達也在加緊滿足對AI基礎設施的需求預期。你最近説過，你認為世界需要更多的AI基礎設施。你是否看到了需求方面的一些情況，需要比目前英偉達和台積電等提供的AI基礎設施多得多？

Sam Altman：首先，我確信我們將找到辦法大幅降低交付當前系統的成本。其次，我確信在做到這一點後，需求將大幅增加。第三，我確信通過構建更大更好的系統，將會有更多需求。

我們都應該希望擁有一個智能太廉價以至於無需計量的世界。它無處不在，豐富無比。人們可以將其用於各種用途，甚至不會考慮是否使用，比如説:“哦，我是否需要這個來幫我閲讀所有郵件並回復？”或者是“我是否要用它來治癒癌症？”你當然會選擇治癒癌症。但答案是，你希望它能把這些事都做了。我只是想確保我們有足夠的資源。

Logan Bartlett：像Humane和Limitless這樣的不同實體設備助理而言，你認為它們做錯了什麼？或者你認為它們的採用率可能還沒有達到用户的期望？

Compaq TC1000，發佈於2003年

Treo 90，發佈於2002年

Sam Altman：我認為這只是一個早期階段。我一直是各種計算設備的早期使用者。我在大學一年級時就擁有並非常喜歡Compaq TC1000平板電腦。我覺得它太酷了，儘管它離iPad還有很長的距離。然後我買了Treo（於2002年首發的一系列智能手機），那時候孩子們是沒有這個的。它離iPhone還有一段距離，但我們最終還是走到那一步了。而且，你知道，這些東西給人一種很有前景的方向，只是需要一些迭代。

/ 03 / AI創業機會

Logan Bartlett：你最近提到，許多建立在GPT-4之上的企業將被未來的GPT“碾壓”。你能詳細闡述一下這一點嗎？此外，你認為哪些AI企業能夠在GPT不斷進步的情況下生存下來？

Sam Altman：**我發現唯一有效的框架是，你要麼建立一個業務，賭下一代模型在這個業務上表現不會太出色，要麼建立一個可以從下一代模型的出色表現中獲益的業務。**有時你為了使一個GPT-4無法解決的使用場景能夠成功運作而做了大量工作，最終你讓它勉強可以工作了。然而隨後GPT-5出現，它可以非常好地完成這個用例以及所有其他事情，你就會為之前那種將這個用例勉強實現感到遺憾。但如果你有一個總體來説還不錯，人們可以用於各種用途的產品，而你並沒有為了讓某個用例勉強工作而投入大量工作，然後GPT-5或無論我們將其命名為什麼出現，它的表現遠遠更出色，你原有的一切事物都將隨之受益。

**我建議的是，在大多數情況下，你並不是在創建一個AI企業，而是在創建一個利用AI技術的企業。**在App Store早期，我認為確實存在着填補一些明顯空白的應用，但最終蘋果修復了這些問題，你就不再需要從App Store下載手電筒之類的應用了，它已成為操作系統的一部分，這是必然會發生的事情。然後還有一些像Uber這樣，是受益於智能手機的出現而存在，但確實建立了一個非常有護城河的長期業務。我認為你就應該瞄準後一種類型。

Logan Bartlett：你能舉一些新穎的概念作為例子嗎？可以是真實的公司，也可以是一個有趣的想法。

Sam Altman：**實際上我會賭注在新公司身上。人們經常舉的一個常見例子是試圖打造類似AI醫生或AI診斷師的東西。**人們會説，我不想在這裏創業，因為Mayo Clinic（美國老牌頂級醫院）或其他人會做這件事。但我會賭是一家新公司做這種事情。

Logan Bartlett：對於那些希望投身於此的CEO，你有何建議？

Sam Altman：**智能作為一種服務將會每年變得更好、更便宜，但這只是你取勝的必要非充分條件。因此，你仍然必須找出你的業務的長期防禦性是什麼。**如今這個賽場比很長一段時間以來都要開放。有令人難以置信的新事物可做。但即使你現在有更多的手段去實現，你也不能免於建立持久價值的艱苦工作。

Logan Bartlett：你能想象在5年內，由於AI的發展而出現或變得主流的職位或工作職責嗎？也許現在這種工作還很小眾或不存在。

Sam Altman：我正嘗試着找到未來將有1億或5000萬人從事的工作是什麼，應該是新型藝術、娛樂的寬泛領域，有點像是人與人之間的相互連接。我不知道這個職位會叫什麼。我不知道5年內我們是否能實現這一點，但我認為以人為本、現場的具身體驗將會備受推崇。我不知道我們會怎麼稱呼它，但我可以看到這將成為一個全新的、非常龐大的類別。

Logan Bartlett：OpenAI最近一輪融資的估值約為900億美元左右。在實現AGI之前，有一兩件事情你認為將讓OpenAI成為萬億美元公司嗎？

Sam Altman：我認為，如果我們能夠保持目前的改進速度，並找到繼續利用這項技術製作出良好產品的方法，而且收入持續像現在這樣增長，我不知道具體的數字，但我認為我們會很好。

Logan Bartlett：目前的商業模式能否創造出萬億美元的公司估值？

Sam Altman：是的，ChatGPT的訂閲模式對我們來説真的很管用。出乎意料的是，我原本不會賭注於此，沒有足夠的信心認為它會像現在這樣成功，但結果確實不錯。

Logan Bartlett：我想我們都聽你談過有關盈利模式等問題。手工勞動顯然是第一步，然後是白領工作，再接下來是創作。不過實際情況在某種程度上卻恰恰相反。還有其他一些你曾經預設了某種觀點，但事實證明完全相反的事情嗎？

Sam Altman：這絕對是我最大的意外之處，就是你提到的那一點。有其他一些，比如我沒想到它這麼早就能如此擅長法律工作，因為我認為那是一件非常精確、複雜的事情。但沒錯，最大的驚喜就是你所説的那一點，體力勞動、腦力勞動和創作勞動的順序顛倒過來了。

/ 04 / 通往AGI之路

Logan Bartlett：在通往AGI的道路上，你認為最大的障礙是什麼？聽起來你認為目前的規模化趨勢或許還能在未來幾年內持續？

Sam Altman：我認為最大的障礙是新的研究。你知道，我從互聯網軟件轉向人工智能時必須學會的一件事是，研究並不像工程那樣按照相同的時間表進行，這通常意味着需要更長的時間，有時候也意味着進展速度比任何人預測的都快得多。

Logan Bartlett：什麼意思？你能詳細解釋一下，為什麼説它不是線性進展的？

Sam Altman：最好的解釋方式是舉一些歷史例子。我可能會搞錯數字，但我想中子（neutron）首次被提出概念是在20世紀初期，可能是在10年代或20年代被首次探測到。關於後來的原子彈的工作始於30年代，40年代就實現了。從完全沒有中子這個概念，到能夠製造原子彈，徹底打破我們對物理學的所有直覺，這一切發生得太快了。還有一些不那麼純粹的科學例子，比如著名的關於萊特兄弟的引語。我也會搞錯數字，但假設是在1906年，他們説飛行還需要50年時間，但在1908年他們就做到了，大致如此。科學和工程史上還有許多其他類似的例子。當然，也有我們提出理論但從未實現的事情，或是耗時幾十年甚至幾個世紀才實現的情況。但有時事情確實會進展得非常迅速。

Logan Bartlett：在可解釋性方面我們處於什麼位置？長遠來看，它對AI有多重要？

Sam Altman：可解釋性有幾種不同類型。一種是我是否理解神經網絡中每一個機械層面上的每一個細節；另一種是我能否審視輸出結果，指出其中的邏輯缺陷等等。我對OpenAI和其他機構在這方面正在進行的工作感到興奮。我認為可解釋性作為一個更廣義的領域，看起來很有前景且令人興奮。

Logan Bartlett：人們既對AGI發展感到興奮，又擔心由你或OpenAI這樣的人單方面掌控並做出決定。這讓人們覺得需要一個類似政府的結構，由選舉出來的領導者而不是你們來做決定。

Sam Altman：我認為對現有能力的模型進行嚴格監管可能是一個錯誤，但當模型確實對世界構成重大災難風險時，就應該有某種監管。現在的問題是，在何處設置門檻，以及如何進行測試。

Logan Bartlett：那些被指控可能會遭受監管約束的風投人士，你認為他們沒有看到AI潛在風險的哪些方面？

Sam Altman：我認為他們根本就沒有認真思考過AGI的問題。事實上，那些最大聲疾呼監管會成為阻礙的人，不久前還在完全否認AI的可能性。我理解他們的立場，監管確實沒有為科技帶來什麼好處，看看歐洲的科技行業就知道了。但我認為，我們正在走向一個門檻，超過這個門檻後，我們所有人的想法都可能會有所不同。

Logan Bartlett：你認為開源模型本身存在一些固有的危險嗎？

Sam Altman：目前還沒有，但我可以想象未來可能會出現這種情況。

Logan Bartlett：我聽你説過，所謂的“安全”在某些方面是一種錯誤的表述，因為這更像是一種關於我們明確接受什麼程度的風險的討論，就像航空業一樣。

Sam Altman：對，安全不是一個非黑即白的事物。你之所以願意乘坐飛機，是因為你認為它們相當安全，儘管你知道偶爾也會出現墜機事故。至於稱一家航空公司為“安全的”需要達到何種程度，這就需要討論了，人們會有不同意見。這是一個極具典型意義的説法。就目前而言，整個航空業的安全性已經令人難以置信地提高了，可以説是一個巨大的成就。但“安全”並不意味着飛機絕對不會出事故，有人會在飛機上喪生。

Logan Bartlett：我很好奇，有很多不同的快速爆發場景。而我們今天所面臨的一個制約因素就是缺乏AI基礎設施，對嗎？我猜，如果有研究人員開發出一種對當前的transformer架構的修改，可以大幅減少所需的數據和硬件規模，更像人腦那樣。我們是否有可能看到一種快速爆發的情況？

Sam Altman：這是可能的，當然可能。而且甚至可能不需要任何修改。但這不是我認為最有可能的路徑，不過我也不會完全排除這種可能性。我們有必要將它列入可能發生的情況加以考慮。我認為事情可能會更加連續，即使是加速發展。我們不太可能在一夜之間就擁有真正的超級智能。但即便爆發過程持續一年或幾年，在某種程度上也算是快速的。

Logan Bartlett：當你思考模型會變得越來越智能時，你之前稍微提到了創造力這個元素，那麼你認為人類仍然獨特的是什麼呢？當模型開始能夠做我們曾經認為它們做不到的事情時。

Sam Altman：我認為，**即使是多年以後，人類仍然會關心其他人類。**你知道，我在網上看到有人説，現在每個人都會愛上ChatGPT了，每個人都會把ChatGPT當作女朋友之類的。我不這麼認為。我們如此渴望長期關心其他人，以各種方式。這種對他人的痴迷將會持續下去。

/ 05 / OpenAI內部運營

Logan Bartlett：在經營OpenAI這家公司時，你在YC構建了很多如何經營業務的規則或框架。然後你也打破了其中的一些規則。對於這家公司，你是否僱傭了與你創辦消費互聯網公司或B2B軟件公司時不同類型的人，尤其是在高管層？

Sam Altman：研究人員和產品工程師大多數情況下是非常不同的。而且，我大多數情況下並沒有外聘高管。

Logan Bartlett：在OpenAI的運營過程中，你做出過哪些決定感覺最重要？當時你是如何做出這些決定的？

Sam Altman：**很難只指出一個，但我們決定採取所謂的迭代部署策略，而不是秘密地構建AGI，**然後一次性推向世界，後者是當時普遍的智慧，也是一些其他公司的計劃。我認為這是我們做出的一個非常重要的決定，當時也覺得它很重要。押注於語言模型也是一個重要的決定，當時也覺得很重要。

Logan Bartlett：實際上我不太瞭解你們當初押注於語言模型的故事。這是怎麼開始的呢？

Sam Altman：嗯，我們當時有其他一些項目，正在從事機器人和視頻遊戲方面的工作。然後有一個非常小的努力開始關注語言建模，伊利亞（Ilya Sutskever）真的相信這個方向，相信即將到來的語言模型時代。我們做出了GPT-1，GPT-2，開始研究規模化定律，擴展到GPT-3，然後我們做出了一個重大押注，決定把語言模型作為我們要做的事情。當時的情況看起來並不那麼顯而易見，我當時的感覺並非如此。

/ 06 /

Sam的個人思考

Logan Bartlett：你最近還提到了兩種使用AI的方法，一種是複製自己，另一種是最聰明的員工方式。

Sam Altman：這不是指AI本身，而是關於你想如何使用它。就像你想象與你的個人AI助手互動時的情況。

Logan Bartlett：當時你做出這種區分時，似乎有很深的見解，但你能再解釋一下嗎？因為這似乎體現了你對AI未來使用場景的獨特看法。

Sam Altman：如果你在未來的5年給我發短信，我認為你需要明確是在給我發短信還是給我的AI助手。然後，如果是我的AI助手要把信息打包在一起，稍後再答覆。我認為將這些事情分開並保持獨立是有價值的，而不是AI僅僅是Sam的延伸。我不知道我在和Sam還是Sam的AI幽靈交談，但沒問題，因為它們是一回事。這是一個合併的實體。我認為會有像我和我的AI助手這樣的存在，這個東西並非只是和我的延伸聯繫在一起，而是一個我可以越過屏障與之交流的獨立實體。它會替我回復消息，我會把它看作是一個非常出色的合作伙伴，我可以對他説：“嘿，你能做這件事嗎？完成後你再告訴我”。但我不會把它當成我自己。

Logan Bartlett：當你思考教育體系時，比如説2030年或2035年的大學生，將來的某個羣體，你認為應該在大學教育體系中做出哪些具體的改變，以使人們為未來做好準備？

Sam Altman：最大的一點是，我認為人們不僅應該被允許，而且應該被要求使用這些工具。當然，在某些情況下，我們希望人們用老式方法，因為那有助於理解。你知道的，就像我記得有時在數學課上，有些題你不能用計算器。但總的來説，在現實生活中，你可以使用計算器。你需要理解它，但你也必須熟練使用計算器。如果你上數學課從不用計算器，那你將來做工作時就會技能不足。你知道，如果OpenAI的所有研究人員從未使用過計算器，OpenAI可能就不會存在了。至少在教授電腦知識時，我們沒有試圖讓人們不使用計算器和電腦。我認為，我們也不應該培養人們不使用AI。它將成為未來從事有價值工作的一個重要組成部分。

Logan Bartlett：在談及AGI及其未來發展時，您曾提及AGI只是智能連續發展過程中的一個節點，進展很可能會持續下去，維持過去十年中所見進展的速度很長一段時間。您有沒有親自停下來思考或想象未來會是什麼樣子？或者説這個問題太抽象了無法思考。

Sam Altman：我一直在思考。我並不像科幻電影那樣憧憬着天空中飛馳的汽車和充滿未來感的城市，但當我想到一個人可以完成數百甚至數千人協作才能做到的事情，這讓我着實興奮。同樣的，雖然我們或許無法窮盡所有科學領域的知識，但這種感覺就像——如果我們真的可以發現所有科學奧秘，那麼世界會變成什麼樣子呢？這是我一直在思考且為之興奮的。