靠Kimi新模型K2,我花17塊錢做出了有4個遊戲的4399_風聞
知危-知危官方账号-24分钟前
近日,月之暗面開源了其旗艦大模型 Kimi K2,這是一個基於 MoE 架構、擁有 1 萬億參數、單輪激活 32 B 參數的超級模型,專門優化了代碼生成和 agentic 能力( 代理式能力 )。
社區實測表明,K2 在許多一次性生成複雜前端項目( 如 3D HTML 場景、交互式數據展示網頁等 )中表現不輸甚至優於 Claude 4、Gemini 2.5 Pro 等商用模型。
在專注 Agentic Coding 的 SWE-bench Verified 測試集中,K2 取得了達到了 65.8% 的準確率( 單次嘗試 ),多次嘗試提升至 71.6%,可與 Claude 4 Sonnet、Claude 4 Opus 相比肩。
知危也順手在 X 裏借用了一些案例的提示詞,初步體驗了 K2 的代碼生成能力,發現一次性編程的成功率還是很高的。
比如讓 K2 用 HTML 構建一個網站,展示太陽系的 3D 模擬。K2 不是深度思考模型,直接一句廢話沒説就開始寫代碼。

並且,一次就成功。

接下來,知危還讓 K2 幫忙模擬小行星撞擊地球、製作數據儀表盤組件,雖然有些小 Bug,但也一次成功了。


不過僅僅是這樣,還不能展現 K2 的優勢。在 K2 本次強調的兩大優勢中,agentic 能力其實更為重要。
它關注的是模型在結構化的編程環境下,如何從零到一完成任務,交付工作的能力,並在深度的、多步驟的執行過程中始終保持邏輯一致性。只有具備了這樣的能力,K2 才能在實踐中發揮最大的作用。
所以,知危選擇了這樣的場景,將 K2 的 API 接入 Claude Code,並在 Cursor 提供的編程環境下,通過終端命令從零到一寫 4 個網頁小遊戲,併合並搭建出一個 “ 類 4399 ” 的小遊戲網站。
雖然在網頁端和 Cursor 端,都是寫 HTML/CSS/JavaScript,但網頁端偏重一次性的快速實驗,不具備自主規劃、細緻的代碼修復、文件生成與操作、shell 命令執行和調試、調用 Claude Code 工具集( 專為編程設置 )等能力,更別提多層次的項目合併操作,只是幾個本地文件夾操作的事情,對於網頁端卻極其困難,而這些通過上述方案就能實現。雖然編碼能力和響應速度相比 Claude 自己的模型還是差一些,但 K2 便宜啊!( 搭建方法已放在文末參考資料裏 )
在搭建完環境之後,知危的 “ 類 4399 ” 項目就要開幹了。
知危從編碼難度的維度,分別選了 4 個經典的小遊戲,從易到難分別是《 Flappy Bird 》、《 Dino Run 》、《 2048 》、《 植物大戰殭屍 》。
令人驚訝的是,前面 3 個小遊戲,K2 都一次性把基礎邏輯實現了。
《 Flappy Bird 》大概花了 5 分鐘的時間開發。開發期間,K2 會利用 Claude Code 的工具集進行自主規劃,列出一個 todo list:
創建具備基礎結構的HTML文件;
為遊戲元素實現CSS風格化;
創建JavaScript遊戲邏輯;
測試遊戲功能;
然後按順序一步一步實現這個 todo list,每實現一步就更新一下 todo list 的狀態,算是 agentic coding 的基操了。最後,K2 會使用 Bash 腳本對遊戲進行測試。

來看看成果如何。包括小鳥的行為邏輯、關卡的設置、得分的邏輯、遊戲結束的邏輯,可以説基本符合原作,更不用説小鳥自由落體給小白玩家、手殘黨帶來的極大難度。

在文件操作方面,Cursor 也幫知危在本地生成了相應的 HTML、CSS、JavaScript 文件,一個不落下,後續想玩只需要本地打開 index.html 文件即可。

《 Dino Run 》因為關卡設置更為複雜( 加入了仙人掌、飛鳥等障礙元素 ),開發上也稍微更難一些,大概花費了 15 分鐘來開發。
開發到最後測試成功後,K2 還貼心地進行了遊戲體驗的優化,比如基於幀變化來增加分數,使分數增長更平滑,並增加了移動的地平線效果。

來看看成果如何。雖然恐龍像個偷跑的垃圾桶,但飛鳥、仙人掌以及背景的視覺還是設計的不錯的,而且恐龍得分的基本邏輯、環境陷阱的基本邏輯、遊戲結束的邏輯,都是沒有問題的。

《 2048 》的開發相對更困難一些,涉及到更復雜的鍵盤操作和狀態變化,所以規劃的執行步驟也更多,大概也花費了 15 分鐘的時間,和《 Dino Run 》接近。

來看看成果如何。最重要的方塊移動後的數字合併邏輯實現了,連配色都和經典版本幾乎是一樣的,也提供了最高分展示來激勵玩家,並能隨時重置。

然後,終於來到了真正的重頭戲,開發《 植物大戰殭屍 》。
前面只是測試了 K2 在 agentic coding 上的單次嘗試能力,並且這三個遊戲都是比較經典的,被測試過很多次。真正能考驗 agentic coding 的,還是在較複雜場景中,多次嘗試、多次探索,並保持邏輯一致性的能力。
《 植物大戰殭屍 》因為遊戲元素和交互邏輯較為複雜多樣,所以難度大得多。
我們先提一個簡單的命令:
你是一個經驗豐富的前端遊戲開發專家,請從零為我構建一個可在瀏覽器運行的《 植物大戰殭屍 》網頁小遊戲。
K2 構建了下圖中的 todo list,從中可以看出 K2 強調了基本元素的構建比如植物類和殭屍類,以及交互系統比如子彈、碰撞檢測等,以及元素收集系統,是其中的重點。

第一版寫的挺快的,還不到 15 分鐘,大概 13 分鐘左右就寫完了。K2 設置了三種經典植物( 向日葵、豌豆射手、堅果牆 )和一種經典殭屍,與原作的配置是一致的。

但可惜的是,這次 K2 沒有一次成功,而是出現了很嚴重的 Bug。遊戲剛開始,還沒見到殭屍,很快就判定遊戲結束:你的花園被殭屍入侵了。但我連殭屍的影子都沒見到,難道是殭屍飛得太快了?還是殭屍掘地三尺挖過去的?

為了修復這個問題,我向 K2 提了以下問題:

修復後能看到殭屍了,結果發現殭屍速度真的飛快,並且重置遊戲後植物能消失,但殭屍不會消失。遊戲結束判定邏輯也有問題。

所以我繼續向K2提修改需求:

修復中有一個很重要的參數修改,就是殭屍的移動速度。其實 K2 幫我找到這些參數之後,後續手動調試也會變得容易。

K2 還補充了大量代碼用於遊戲重置。

並修復了遊戲結束判定邏輯。

你以為這樣就結束了嗎?殭屍速度還是飛快。從右上角也可以看到有一個數值在不正常地增長,就是“第X波”這個數值,在殭屍速度設置中,這個數值的增加能使得殭屍的速度也增加。

我先手動取消了這個關聯,然後嘗試修復 “ 第X波 ” 的邏輯錯誤。
這中間出現了一個很有趣的提示,Claude Code 提示我已經花費了 5 美元,但實際上這是 Claude Code 假設我使用的是 Claude 的模型計算出來的,我這時查看了 Moonshot AI 開放平台的計費統計,發現實際花費還不到 5 人民幣。

嘗試修復 “ 第X波 ” 多次沒有成功,包括考慮交互歷史太長可能超出 K2 上下文長度,所以嘗試重啓對話,也告失敗。
最後我索性簡化了 “ 第X波 ” 的邏輯,改成了 “ 就1波 ”,遊戲開始後就直接出現 30 個殭屍,全部擊殺完就勝利。這期間也順便讓 K2 修復了殭屍位置沒有跟網格對齊的問題,堅果牆不能阻擋殭屍前進的問題,殭屍攻擊的距離判定問題,豌豆射手的豌豆顏色問題等等。
可以説,這個版本已經是較為完善的遊戲了。
但這個版本測試下來發現,目前的遊戲數值設計是非常不平衡的,過於簡單。具體來説就是,向日葵陽光更新太快,豌豆射手攻擊力太強,而殭屍移動太慢,血也不夠厚,基本上能快速湊齊每排一個豌豆射手就是穩贏的,堅果牆都沒有發揮的餘地。

藉着這個機會,我又測試了 K2 的遊戲數值設計能力,因為這個能力其實需要深度結合人類玩家的真實體驗,而且不同經驗、偏好、級別的玩家,看法都不同,所以是有較大難度的。
K2 確實發現了殭屍過於 “ 脆皮 ” 的問題,並認為殭屍移動速度過慢會使得遊戲進程太長,只是時長超過 10 分鐘這個預估太離譜,通常殭屍走完全程大概 2-4 分鐘,遊戲時長也會在這個範圍內。而且,K2 還認為向日葵產出過低,這個估計也與我的真實體驗相悖。
其它方面,包括植物成本、堅果牆生命力、碰撞檢測閾值等方面的評估還是比較合理的。



我基於個人經驗和 K2 的建議,最終隻手動修改了兩處,一是將殭屍速度提高為原來的 2 倍,一是將殭屍的生命值提升為原來的 4 倍。因為其實只要打殭屍難度增大了,植物太強的問題就能解決。
測試下來發現,一頓手忙腳亂操作之後,即便能順利種滿一列向日葵,一列豌豆射手,並隨時補充堅果牆,還是扛不住殭屍大軍壓境。
個人覺得,這個難度剛剛好,有再次挑戰的價值。
好了,《 植物大戰殭屍 》就開發到這裏,接下來是收尾工作 —— 將四個小遊戲整合到一個網站裏,為避免上下文過長,需要重啓一個對話。
K2 給文件結構加了一個層級。

它還貼心地增加了一個 README 文檔,為項目開源都給鋪平了道路。


遊戲網站也設計出來了,來看看網頁效果。基本遊戲展示功能是沒有問題的,甚至有一些動效,也能正常點進遊戲和遊玩,就是遊戲畫面不能顯示完全。

針對這個問題,跟 K2 對話了好多輪都沒解決,甚至問 Claude 4 Sonnet 也沒解決,最後作罷。
但從某種程度上,K2 確實幫我搭建好了一個 “ 類 4399 ” 網站。
測評結束!
總體而言,Kimi K2 模型在一次代碼生成和單次嘗試的 agentic coding 方面,不僅基本功紮實,也帶來了很多驚喜,實用性是很強的。
而在深度交互的 agentic coding 方面,K2 成功的例子和失敗的例子都不少,但總體來説還是能帶來較大收益的。
實際上,要在 AI 輔助下的編程中提高項目的成功率,用户自己的思考和判斷也是必不可少的。
比如什麼時候應該讓模型解決,什麼時候應該手動解決,什麼時候只讓模型分析而不動手修改,什麼時候簡化方案,甚至去外部詢問其它大模型等等。而且,項目後續推進很大程度是卡在細節上,這種情況下,用户自己的編碼專業水平越高,能從 K2 得到的收益就越高。知危由於幾乎全程都是 vibe coding,所以項目完成度並不高。
即便是 agentic coding,AI 扮演的最佳角色仍然是輔助工具和效率利器,而不是完全的主導者。
最後,知危不得不驚歎於 Kimi K2 的成本優勢,在用 Cursor 做了 5 個網頁之後,耗費的成本只有不到 17 元人民幣,要知道這其中還包括了新用户贈送的 15 元人民幣,也就是説實際真正要花的錢只有 2 元。
Kimi K2 如此低成本,除了模型本身的 token 便宜,可能有一部分要歸功於Context Caching 的能力,在下圖中可以看到,在消耗成本的組成中,Context Caching 的佔比比模型推理大多了。

最後的最後,知危覺得 K2 使用 emoji 符號來表現殭屍和豌豆射手有些太醜了,也少了那麼一點感覺,所以就找了殭屍和豌豆射手的 png 圖,放到項目文件夾裏,讓 K2 幫忙修改一下邏輯。
結果,一次成了。

總之,很強,無需再多言。