斯坦福AI團隊被質疑抄襲國產大模型
贺喜格[email protected] 来撩

一個由斯坦福學生組成的AI團隊,近日被曝出了抄襲行為,疑似抄襲了中國的大模型成果。6月3日,團隊成員之一在社交媒體發文道歉,但在不久之後又刪除了博文。
5月29日,一個研究團隊發佈了一個名為“Llama3-V”的模型,聲稱只需要500美元(約合人民幣3625元)就能訓練出一個SOTA(State of the Art,即最先進的)多模態大模型,效果比肩 GPT4-V、Gemini Ultra 、 Claude Opus ,但模型小100倍。
公開信息顯示,Llama3-V團隊的其中兩位作者 Siddharth Sharma 與 Aksh Garg 是斯坦福大學計算機系的本科生,曾發表過數篇機器學習相關的論文。名校背景,特斯拉、SpaceX等大廠經歷的成員,再加上號稱足以“改變現狀”的研究成果,Llama3-V受到了相當程度的關注。Llama3-V不僅在社交媒體上迅速躥紅,還一度衝上了HuggingFace趨勢榜首頁(機器學習領域中較有影響力的平台,其趨勢榜一定程度反映出模型的流行度)。
但很快,便出現了對Llama3-V的質疑。有網友爆料Llama3-V套殼國內大模型初創企業“面壁智能”和清華大學自然語言處理實驗室聯合推出的MiniCPM-Llama3-V 2.5,並在面壁智能GitHub的項目下放出了證據。
這些證據包括:Llama3-V的模型架構和代碼與MiniCPM-Llama3-V 2.5幾乎完全相同,僅有一些變量名和格式化的差異;Llama3-V使用了MiniCPM-Llama3-V 2.5的分詞器(tokenizer),並且連同MiniCPM-Llama3-V 2.5定義的特殊符號也出現在了Llama3-V中;將從HuggingFace下載的Llama3-V模型權重中的變量名改成MiniCPM-Llama3-V 2.5的,模型可以用MiniCPM-V代碼成功運行。

兩個模型的代碼對比
網友為什麼不直接質疑Llama3-V,而是在面壁智能GitHub的項目下進行爆料?事實上,網友此前於6月2日在Llama3-V頁面上提出的質疑,不過很快便被Llama3-V的作者已經刪除了。
在MiniCPM-Llama3-V 2.5團隊收到提醒後也迅速作出反應,於是一個新的證據出現。Llama3-V模型居然可以識別“清華簡”。
公開資料顯示,清華簡是清華大學於2008年7月收藏的一批戰國竹簡,為戰國中晚期文物。MiniCPM-Llama3-V 2.5團隊透露,識別清華簡是MiniCPM-Llama3-V 2.5的一項實驗功能,訓練圖像是最近從出土文物中掃描並由MiniCPM-Llama3-V 2.5團隊標註,且尚未公開發布。
而兩個模型在識別的表現上,正確的結果上基本一致,錯誤的情況也頗為相似。

識別結果對比
鑑於這些結果,MiniCPM-Llama3-V 2.5團隊表示,很難用巧合來解釋這種不尋常的相似性,希望Llama3-V的作者能夠對這個問題給出官方解釋。相信這對開源社區的共同利益很重要。
而在受到質疑後,目前Llama3-V 的 GitHub 項目主頁已顯示為“404”,HuggingFace上Llama3-V項目也已經不可見,在作者社交媒體賬號上也找不到此前宣傳 Llama3-V 的內容。
6月3日,Llama3-V團隊成員Aksh Garg在社交媒體上發文回應了質疑。但隨後不久這條回應便被刪除。

網友截圖,目前這條動態已不可見
另據媒體消息,面壁智能CEO李大海也對此做出回應,他表示,“技術創新不易,每一項工作都是團隊夜以繼日的奮鬥結果,也是以有限算力對全世界技術進步與創新發展作出的真誠奉獻。 我們希望團隊的好工作被更多人關注與認可,但不是以這種方式。我們對這件事深表遺憾!一方面感概這也是一種受到國際團隊認可的方式,另一方面也呼籲大家共建開放、合作、有信任的社區環境。一起加油合作,讓世界因AGI的到來變得更好!”
本文系觀察者網獨家稿件,未經授權,不得轉載。