微軟、谷歌和Meta押注虛假數據來訓練AI模型 - 彭博社

Shirin Ghaffary

2024-05-03

攝影師：Gabby Jones/Bloomberg喬·拜登的政策得到了股票投資者的認可。

攝影師：Ting Shen/Bloomberg

模糊的參與規則。

攝影師：Kena Betancur/AFP/Getty Images

你好！我是Shirin，本週從東京報道。頂尖人工智能公司正在嘗試一種替代方法來滿足他們對高質量數據的無盡需求。但首先…

三件事值得知道：

• 微軟對谷歌的領先地位感到擔憂，因此投資了OpenAI• 頂尖風投和政治人物齊聚華盛頓參加了一次關於人工智能和國家安全的峯會• OpenAI的競爭對手Anthropic推出了一款iPhone應用程序供其Claude聊天機器人使用

對數據的無盡需求

每個聊天機器人的聰明回答背後都是一大批數據 — 有時是來自文章、書籍和在線評論的數萬億字詞，用來教導人工智能系統理解用户的查詢。行業內的共識是，為了打造下一代人工智能產品，將需要越來越多的信息。然而，這個計劃存在一個大問題：互聯網上只有有限的高質量數據。為了獲取這些數據，人工智能公司通常要麼向出版商支付數百萬美元以授權其內容，要麼從網站上抓取數據，從而使自己暴露於版權之爭之中。越來越多的頂尖人工智能公司正在探索另一種方法，這種方法在人工智能社區中引起了分歧：使用合成數據，或者説基本上是虛假數據。它的運作方式如下：科技公司可以利用自己的人工智能系統生成文字和其他媒體。這些人造數據隨後可以用來訓練未來版本的同一系統，正如Anthropic首席執行官Dario Amodei所稱的，這是一個潛在的“無限數據生成引擎”。這樣，人工智能公司可以避免引起太多的法律、倫理和隱私問題。在計算機領域，合成數據的概念並不新鮮 — 這是一個幾十年來一直被用來的技術，用於從去匿名化個人信息到模擬自動駕駛技術的道路狀況。但生成式人工智能的興起使得更容易以規模創建更高質量的合成數據 — 同時也增加了迫切性。Anthropic告訴彭博社，他們使用合成數據構建了驅動其聊天機器人Claude的最新模型。Meta和Google已經使用它開發了最近的開源模型。Google DeepMind最近表示，他們依賴這種方法來訓練一個模型，可以解決奧林匹克級別的幾何問題。許多人猜測OpenAI是否正在使用這樣的數據來訓練其文本到視頻圖像生成器Sora。（OpenAI告訴彭博社，他們正在探索使用合成數據，但不願透需更多細節。）

Anthropic CEO Dario Amodei表示，使用合成數據可以讓AI公司創建一個“無限數據生成引擎”。攝影師：Valerie Plesch/Bloomberg在微軟，生成式AI研究團隊最近在一個項目中轉向使用合成數據。他們想要構建一個更小、資源消耗更少的AI模型，但仍具有有效的語言和推理能力。為此，他們嘗試模仿孩子通過閲讀故事學習語言的方式。團隊沒有向AI模型輸入大量的兒童圖書，而是列出了一個四歲孩子能理解的3,000個單詞的清單。然後，他們要求一個AI模型使用清單中的一個名詞、一個動詞和一個形容詞創作一個兒童故事。研究人員在幾天內重複了這個提示數百萬次，生成了數百萬個短篇故事，最終幫助開發了另一個更有能力的語言模型。微軟已經將這個新的“小”語言模型系列，Phi-3，開源並提供給公眾使用。微軟生成式AI副總裁Sébastien Bubeck表示：“突然之間，你有了更多的控制權。你可以在更細微的層面上決定你希望你的模型學習什麼。”Bubeck表示，使用合成數據，你還可以通過向數據添加更多解釋來更好地引導AI系統進行學習過程，否則這些數據對機器來説可能會令人困惑。但一些AI專家對這種技術的風險表示擔憂。牛津、劍橋等幾所重要大學的一組研究人員去年發表了一篇論文，解釋了使用ChatGPT生成的合成數據構建新的AI模型可能導致他們所稱的“模型崩潰”。在他們的實驗中，基於ChatGPT輸出構建的AI模型開始顯示“不可逆缺陷”，似乎忘記了最初接受訓練的內容。在一個例子中，研究人員用有關歷史英國建築的文本提示一個大型語言AI模型。在研究人員多次使用合成數據重新訓練模型後，該模型開始生成關於丹頂鶴的無意義胡言亂語。研究人員還提出了合成數據可能放大數據集中的偏見和有毒性的擔憂。一些合成數據的支持者則表示，通過採取適當的措施，以這種方式開發的模型可以與或優於基於真實數據構建的模型。劍橋大學的博士生Zakhar Shumaylov在一封電子郵件中表示：“如果做得對，合成數據是有用的。然而，如何正確做還沒有明確的答案；一些偏見對人類來説可能非常不明顯。”還有一個更為哲學性的爭論：如果大型語言模型陷入無休止地訓練自己內容的循環中，AI最終會變得不再是機器模仿人類智能，而更多地是模仿其他機器的語言嗎？斯坦福大學計算機科學教授Percy Liang表示，要生成有用的合成數據，公司仍需要人類智慧的真實作品，如書籍、文章和代碼。“合成數據並非真實數據，就像夢到自己爬上珠穆朗瑪峯並不等同於真正爬上珠穆朗瑪峯一樣，”Liang在一封電子郵件中説。合成數據和AI領域的先驅們一致認為，不能將人類排除在外。真實的人仍然需要創建和完善人工數據集。“合成數據不是按下按鈕説‘嘿，為我生成一些數據’。這是一個非常複雜的流程，”Bubeck説。“在創建大規模合成數據時需要大量人力。”

**有關人工智能的問題？**給我發電子郵件，Shirin Ghaffary，我會盡力在未來的新聞簡報中回答您的問題。

一個神秘的機器人

本週，一個神秘的新聊天機器人在一個基準網站上出現，似乎在一些測試中與業界領先的OpenAI的GPT-4性能相媲美，引起了人工智能社區的轟動。然後，就像出現一樣迅速地消失了。本週早些時候，一個名為gpt2-chatbot的新產品出現在LMSYS Chatbot Arena上，這是一個用於比較大型語言模型的平台。賓夕法尼亞大學沃頓商學院的教授Ethan Mollick經常測試聊天機器人，説 gpt2-chatbot“在某些方面似乎與GPT-4的大致能力水平相當，甚至在某些方面更好。”聊天機器人的開發者沒有出現在基準網站上，但鑑於其出色的表現，一些人迅速猜測它可能來自OpenAI。OpenAI的首席執行官Sam Altman通過一條神秘的推文週一加劇了這種猜測：“我對gpt2有好感。”OpenAI拒絕置評。在一條推文中，LMSYS週二表示，他們以前曾與“幾家”人工智能模型開發者合作，“為預覽測試提供社區訪問未發佈的模型/檢查點。” LMSYS表示，他們不得不“暫時”將gpt2-chatbot下線“由於意外的高流量和容量限制。”“請繼續關注它的更廣泛發佈，”LMSYS説，並加上一個微笑的表情符號。

學校中的人工智能

ChatGPT問世以來的第一個完整學年即將結束，彭博記者們渴望聽取學生和教師關於生成式人工智能在課堂上產生的影響。告訴我們你的經歷這裏。

本週人物語錄

“我認為沒什麼可説的。他對人工智能的大部分了解都來自這些年與我一起工作。”

Demis Hassabis

Google DeepMind CEO

在一次採訪中，Hassabis似乎在批評他的朋友兼競爭對手Mustafa Suleyman。Suleyman與Hassabis共同創立了DeepMind，最近被任命為微軟人工智能CEO。### 值得關注的人

克里斯·米勒，“芯片戰爭”作者和塔夫茨大學國際歷史教授，每天加入“華爾街週刊”談論對人工智能芯片需求的增長。彭博### 深度學習

起訴OpenAI和微軟侵犯版權
達成協議使用ChatGPT中來自《金融時報》的內容
押注280億美元將俄亥俄打造成全球芯片之都
最可怕的工作之一
開發一個深度偽造視頻與粉絲互動

彭博社更多內容

獲取科技日報以及更多彭博科技週刊內容，請訂閲：

網絡公告涵蓋黑客和網絡間諜的陰影世界
遊戲進行中報道視頻遊戲業務
開機提供蘋果獨家新聞、消費者科技新聞等
屏幕時間報道好萊塢和硅谷的碰撞
聲音片段報道播客、音樂行業和音頻趨勢

傑米·戴蒙最近被問到：“如果你必須描述美國經濟，它有多具有韌性？” 他的回答毫不含糊：“基本上，它正在蓬勃發展。” 這是自他近20年前成為全球最大銀行——摩根大通公司的董事長兼首席執行官以來，第一次他説出這樣的讚美之詞。

“如果你看看疫情爆發前的經濟情況，過去20年增長非常緩慢，” 他在4月23日對紐約經濟俱樂部表示。“但是如果你看看此後的經濟情況，它一直在蓬勃發展。失業率達到歷史最低水平；在過去兩三年裏，失業率一直低於4%。” 這是自現年68歲的戴蒙上小學以來未曾見過的持續失業率。“即使我們陷入衰退，美國消費者比以前富裕得多，” 他説。“債務服務比率非常低……他們的房價上漲；他們的股價上漲。”

彭博觀點北京在南中國海玩弄危險遊戲習近平的歐洲之行是一次挽救任務即使是埃隆·馬斯克也無法毀掉電動汽車充電網絡死亡賭注如何賺錢？無論身在何處，對美國的樂觀情緒都得到了投資者的共鳴。根據彭博編制的數據，摩根大通是全球市值排名前20的20家美國公司之一，這種情況並非一直如此：在過去三年中，由微軟、蘋果、英偉達和谷歌母公司領導的美國企業表現優異，超過了自1970年以來未曾見過的全球其他上市股票，彭博編制的數據顯示。

所有這些都可以另一種方式表達對美國的信心從未如此之高，這體現在自2021年以來投資者願意為美國股票支付的平均溢價創下紀錄的26%。根據彭博編制的數據，這比他們在2017年支付的12%溢價高出一倍多。要了解世界對美國科技的重視程度，可以考慮一下，在MSCI發達國家世界指數中，從事該行業的美國公司佔187家公司中的112家，佔全球科技行業市值的創紀錄85%。

擴大的溢價

投資者在拜登時代給予美國股票遠高於外國股票的市盈率，這顯示了美國的特殊性

來源：彭博社

注：措施為12個月前瞻性市盈率

這一切都不是偶然的。股市，至少可以説是經濟學家約翰·梅納德·凱恩斯可能稱之為對喬·拜登總統經濟政策的心理公投，被稱為拜登經濟學。投資者在對美國企業的熱情中，默許其主要成就——美國救援計劃法案、基礎設施投資和就業法案、通脹削減法案和芯片與科學法案——對美國經濟有益。正是最後一項立法，該立法資助在美國境內製造半導體，這讓戴蒙對接下來會發生的事情感到興奮。他告訴紐約經濟俱樂部説：“技術是改變世界的東西。”“人工智能將是其中之一。”

戴蒙在曼哈頓中城齊格菲爾德宴會廳討論時沒有提到的是，拜登於2022年簽署的芯片與科學法案導致美國近1500億美元投資於半導體研究、開發和生產。就在上週，宣佈美國計劃向美光科技公司授予多達136億美元的補助和貸款，以幫助這家存儲芯片製造商建設新的美國工廠。根據彭博社彙編的分析師估計，112家美國上市科技公司中的20家半導體企業預計2024年銷售額將增長52%，2025年將增長19%。

利潤所在

美國公司的每股收益增長速度被認為比外國公司快得多

來源：彭博社

注：預測的收益為未來12個月

不要被誤導以為這只是科技問題。世界前20大公司中包括了企業集團伯克希爾·哈撒韋公司、製藥公司禮來公司、零售商沃爾瑪公司、醫療保健公司聯合健康集團、能源公司埃克森美孚公司和萬事達卡公司。

換句話説，這是對美國的一個很好的代表。所有這些都解釋了為什麼商業圓桌會長和杜克大學首席財務官調查都顯示在拜登首個任期的最後一年，對未來的信心正在上升。相同的調查在他的前任唐納德·特朗普任期內一直在穩步下降，從2018年初到2019年（不包括2020年的新冠疫情）。最新的CEO報告值得注意，因為它顯示了對更強銷售、更大資本支出和更多招聘的期望。

“我對未來感到非常興奮，”迪蒙説。世界的投資者也是如此。

更多來自彭博觀點：

美國的例外主義在債券市場中清晰可見：莫哈默德·埃爾-埃裏安
不要擔心美聯儲，工資增長是淨正面：喬恩·萊文
美元比貨幣更有護甲：丹尼爾·莫斯

想要更多彭博觀點嗎？OPIN <GO>。或訂閲我們的每日新聞簡報。

對於任何正在尋找大學或學院校長工作的人來説，只需耐心等待 — 當困擾美國高等教育的抗議結束時，很可能會有更多職位空缺。

誠然，大學校長這一備受關注的角色在過去幾週中失去了很多吸引力，因為親巴勒斯坦的學生抗議在大學校園內爆發，迫使管理人員公開應對各種擁有截然不同觀點和利益的利益相關者。

但在某些情況下，那些坐在象牙塔最頂端、想要保住自己工作的人並沒有給自己帶來任何好處。我不會假裝知道從我的象牙塔內部發生的事情的每一個細節。但根據校長辦公室發佈的通訊，許多人留下的印象是，高等教育領域急需更多的危機管理培訓 — 這是一個令人驚訝的發現，考慮到大學校長的首要責任是監督一羣充滿激情的青年成年人，他們的前額葉皮層仍在發育，使他們容易產生冒險行為。

彭博觀點北京在南中國海玩弄危險遊戲習近平的歐洲之行是一次挽救任務甚至連埃隆·馬斯克也無法毀掉電動汽車充電網絡死亡賭注如何賺錢？一切都始於哥倫比亞大學，週二晚上發生了令人震驚的場面，警方將自己圍困在校園建築物內的學生驅逐出去。（完整披露：我曾就讀於該大學的新聞學研究生院。）這是抗議活動的最新升級，大學校長內馬特·沙菲克首次嘗試在上個月她國會證詞後的第二天試圖關閉。

在她4月18日的請求中，沙菲克向紐約市警察局尋求幫助，以關閉校園中心的抗議者營地，她以安全為由提到了四次，安全和危險各提到了一次。這種措辭旨在引起警惕。但它也很模糊，沙菲克從未定義她所使用的術語，也沒有舉出具體例子説明為什麼情況升級到需要警方介入的程度。如果安全、安全和危險是您召集執法人員的紅線，那麼在您援引它們時應該非常清楚您的意思。

缺乏清晰度使沙菲克遭受批評，認為這一決定是表演性的，旨在安撫她在國會的批評者。毫不奇怪，警方的存在只加劇了局勢，併成為週二晚上事件的前兆。它還為學生們隨後在全國範圍內建立的營地設立了緊張的基調。

模糊的修辭和交戰規則目前在學術界普遍存在。正如我的彭博觀點同事傑西卡·卡爾週一所指出的，她的母校印第安納大學布盧明頓校區在最後一刻修改了一項長達55年的校園政策，以便逮捕學生。回到哥倫比亞大學，沙菲克似乎違反了該校1968年學生抗議活動後建立的協議；她授權紐約警察局對該校的行動進行了最初的掃蕩，而這是在該校參議院執行委員會一致反對的情況下進行的。

“整個學年的問題在於管理層一直在隨意制定規則，而且通常甚至不宣佈這些變化，”哥倫比亞大學和巴納德人類學教授納迪亞·阿布·艾爾-哈吉最近在《紐約書評》的採訪中説。

哥倫比亞的情況本不必走到這一步。例如，布朗大學的管理層已經與學生示威者達成了協議，而沒有達到我們在其他大學校園看到的動盪程度。抗議者表示他們將拆除他們的營地，而大學領導表示他們將討論並投票決定是否從與以色列軍事行動有關的公司撤資。

大學願意與學生進行談判並做出實質性讓步，但也有自己的底線。布朗大學校長克里斯蒂娜·帕克森明確表示不會撤銷去年12月在大學靜坐抗議中被捕的41名學生的指控。

“我尊重學生們去年12月做出被捕的明智選擇所表現出的信念和激情，”帕克森在一封致抗議者的信件中寫道。但“公民抗命的實踐意味着接受對良心問題決策的後果。” 這可能不是學生們想聽到的，但她在自己的立場和支撐其立場的邏輯上非常明確。

芝加哥大學也以同樣清晰的方式運作。這可能是校園尚未陷入混亂的原因之一。在數百名學生在校園內建立親巴勒斯坦人的營地後，該校校長保羅·阿利維薩託斯發佈了一則信息，闡明瞭該機構的價值觀（“儘可能給予言論自由最大的空間”）。他提供了現實生活中的例子，涉及到底線兩側的情況：獲得覆蓋部分廣場的巨大巴勒斯坦國旗的許可，可以；佔領建築物，干擾學習和大學的運作，不可以。“當言論變成干擾時，我們會果斷採取行動，保護學生的學習環境和大學的運作免受真正具有破壞性的抗議者的影響，”他寫道。

芝加哥大學在這一時刻中可能有助於其應對的是其明確定義的原則，根據這些原則，該大學在“觀點中立”的立場下運作。該機構不發表任何政治或社會性質的聲明，認為這樣做會扼殺言論自由。我不會對是否在所有事情上保持中立是正確的政策或方法進行評判，但我認為擁有一個強大的運作框架是重要的。當事情達到臨界點時，它可以實現快速和明確的決策。這使得每個人都遵守相同的規則，在危機期間，這確實是保持每個人安全、穩定和遠離危險所需的。

更多來自彭博觀點：

以色列，哈馬斯現在可以結束他們的永恆戰爭：馬克·張伯倫
學生抗議者能實現他們的目標嗎？斯蒂芬·卡特
大學需要定義反猶太主義。這就是如何做的：諾亞·費爾德曼

想要更多彭博觀點嗎？ OPIN <GO>****。 或訂閲 我們的每日新聞簡報。