字節OpenAI賬號被封禁，這事兒到底誰錯了？_風聞

差评-差评官方账号-15小时前

2023-12-21

本文原創於微信公眾號：差評作者：世超

不知道各位差友聽説沒，字節的 OpenAI 賬號，被封了。。。

根據 OpenAI 的説法，就在上週五，他們暫停了字節的賬號，具體發生了啥，現在也還在進一步調查中。

世超也去查了查，發現事情，是由外媒 The Verge 的一則報道引起的。

據報道，字節跳動正在悄咪咪地用 OpenAI 的 API ，做一些 “ 不太光彩 ” 的事兒。

和大夥們用 AI 水週報，糊弄領導不一樣，按照 The Verge 的説法，字節直接在用 OpenAI 訓練自家的大模型。

一般遇到類似傳言，世超不會太在意，畢竟套殼大模型、用別家大模型訓練自家大模型等等，相關的消息隔三岔五就會來那麼一次。

而且都是一些風言風語，沒啥實錘，也沒啥後續。

但這次不一樣了，報道里的內部消息，至少看起來都賊真。

他們説是弄到了字節內部泄露的一份文件。

裏面主要講了字節的大模型項目—— “ 種子計劃 ” 的開發過程，幾乎在每個階段，包括訓練還有評估，字節的大模型都用了 OpenAI 的 API 。

另外，像是怎麼 “ 通過數據脱敏，不被人抓到小尾巴 ” 這類的內部飛書聊天記錄，也都給曝出了。

再加上 OpenAI 的直接封號，還真有點坐實了報道里內容的味道。

反正一時間，網友們都紛紛出來吃瓜，各種陰陽國產大模型的言論都出來了——

“ 怪不得國產大模型們一個個都開發得這麼快，原來是在偷師 GPT 啊？ ” “ 國內的大模型都一股 GPT 味兒，原來問題出在這兒。 ”

國內媒體們都一股腦兒地轉載報道，話題還一度飆上了知乎熱榜。

而大夥們也應該發現了，爭議的中心在於，字節可能調用 OpenAI API 給自家大模型生成訓練數據。

説實話，相較與簡單粗暴，甚至有些無底線的套殼，這手段，其實文明瞭不少了。。。

在大模型領域裏，我們一般叫它大模型的知識蒸餾。

從名字來看，估計各位差友也能猜出來個一二三，就是用已經訓練得差不多的先進大模型，生成一些優質語料，然後再把生成的這些語料餵給更小模型。

説好聽點，大模型的知識蒸餾，是幫大家省了前期標註數據、提取優質語料庫的功夫，説難聽點，這就是在吃別人已經嚼爛的食物，好偷懶省力。

看到這兒，肯定有人會説了，大模型做出來，不就是讓人用的麼，用户愛咋用咋用，這波字節沒做錯啥啊？

話是這麼説，但是 OpenAI 早就料到了這一手，為了防止自己的數據被薅、被蒸餾， OpenAI 在自家的服務協議早就埋伏上了。

不只有企業，包括個人開發者在內， OpenAI 都禁止他們用 OpenAI 的大模型，去開發競品。

在普通用户那兒， OpenAI 也沒放過。

它給 ChatGPT 和 DALL·E 都套上了枷鎖，同樣也不讓用輸出的內容，訓練與 OpenAI 競爭的模型。

只要你違反上面那些規定了，按照官方的説法，就只是提前知會一聲，隨時終止服務。

這些條例就跟唐僧念符之下的緊箍咒一樣，越來越緊。。。咱明眼人也都能看出 OpenAI 在自家 “ 數據安全 ” 這塊是下狠招了。

雖説字節用的 API 不是從 OpenAI 這邊直接買的，而是買的微軟 Azure 上的雲服務 Azure OpenAI 。

但從微軟那邊買，同樣也是受這個協議約束。

或許是因為這些原因，才有了開頭先封號處理，再進一步調查字節的局面。

看着這一盆盆 “ 髒水 ” 潑過來，字節也沒乾坐着，在週末加班一一給出了回應。

首先，他們稱在開發大模型的時候，只是在初期探索階段用了 GPT 的 API 服務，並且探索階段的模型還只是測試，沒有上線對外使用。

並且根據字節的説法，今年四月份他們內部就明確規定，不能用 GPT 生成的數據訓練自己的大模型。

更重要的是，他們説九月份內部還搞了個檢查，主要的任務就是看他們的訓練數據和 GPT 的相似程度。

未來幾天裏，他們還準備再來一次全面檢查，以確保嚴格遵守相關服務的使用條款。

到現在為止，反正各方的回應是一籮筐，至於字節到底有沒有違反 OpenAI 的服務協議，從現在的信息來看我們也做不出啥判斷，只能等後續雙方溝通的結果。

不過，在訓練大語言模型這塊，數據來源的爭議其實一直都蠻大。

OpenAI 訓練大模型的時候，也曾在數據上栽了不少跟頭。

就比如 ChatGPT ，它主要就是爬取一些社交媒體網站、或者論壇、貼吧上的數據。

剛開始，這些數據他們都是免費爬的，但後來 OpenAI 的 ChatGPT 還有 DALL·E 慢慢出圈，一些問題就連帶着浮出水面了。

這兩個大模型爆火的那段時間， OpenAI 吃的官司是一個接一個。

文生圖大模型被各種圖片網站、藝術家們起訴，大語言模型被社交平台上的博主索賠。。。

與此同時，各大平台也都開始注重數據價值，像是美版貼吧 Reddit ，還有程序員問答網站 StackOverflow 等等這種優質語料多的網站，都開始設置付費門檻，交錢才能爬取數據。

但在此時 OpenAI 的大模型已經發育起來了，過去網絡上的數據該爬的也都爬了。

這下就苦了那些後來者，前期還不僅要做一些標註語料庫的重複勞動，還得付費再爬一遍數據。

不過世超覺得，這次真如 The Verge 報道中説的，那這個 “ 鍋 ” 鐵定還是要字節來背，畢竟相關的條例，早就寫在協議裏了，拿人家的手短，人家還真有理。

最後，世超想説的是，自從大模型流行以來，業內類似的爭議也好、醜聞也好，其實基本就沒斷過。

就比如前不久，李開復的大模型 Yi 被扒出是 “ 套殼 ” Meta 的 LLaMA ，雖説後者也是開源的，但要用也得註明。

但李開復還是在網上輿論發酵之後，才不痛不癢地回應了句命名疏忽。。。

更離譜的是，大模型內部還和機圈兒一樣，流行起了跑分熱。

有的企業為了讓自己的模型分數更好看一點，直接搞起了小動作。

前段時間谷歌的 Gemini ，為了讓自家模型的分數比 GPT-4 好看，在測試方法上就動了些手腳。

國內某團隊也曾發佈過技術報告，裏面明晃晃地指出了大模型刷榜的亂象。

他們直接把測評的題目，先餵給了自家大模型。

相當於是開卷刷榜，讓自家的大模型在一羣**“ 做題家 ”**中脱穎而出。

當然，新興領域一開始都是亂象叢生，有這些醜聞也不是啥新鮮事兒。

世超也希望，未來，大模型廠商們能主打一個誠實，別今天暴打 GPT-4 ，明天又暴打 OpenAI 的了。

還有用了誰誰誰的數據，用了哪些開源資源，也大大方方承認，作為一個追趕者、學習者，其實沒啥丟臉的。。

再回到字節和 OpenAI 這檔子事兒，要是真相水落石出，字節確實是被冤枉，世超也希望 OpenAI 和媒體們能立馬化身牆頭草，還字節一個清白。

少一些套路，多一些真誠，大模型可以有幻覺，人嘛，還是實誠點好。

圖片、資料來源：

網絡

TheVerge，ByteDance is secretly using OpenAI’s tech to build a competitor