靠Kimi新模型K2，我花17塊錢做出了有4個遊戲的4399_風聞

知危-知危官方账号-24分钟前

2025-07-15

近日，月之暗面開源了其旗艦大模型 Kimi K2，這是一個基於 MoE 架構、擁有 1 萬億參數、單輪激活 32 B 參數的超級模型，專門優化了代碼生成和 agentic 能力（代理式能力）。

社區實測表明，K2 在許多一次性生成複雜前端項目（如 3D HTML 場景、交互式數據展示網頁等）中表現不輸甚至優於 Claude 4、Gemini 2.5 Pro 等商用模型。

在專注 Agentic Coding 的 SWE-bench Verified 測試集中，K2 取得了達到了 65.8% 的準確率（單次嘗試），多次嘗試提升至 71.6%，可與 Claude 4 Sonnet、Claude 4 Opus 相比肩。

知危也順手在 X 裏借用了一些案例的提示詞，初步體驗了 K2 的代碼生成能力，發現一次性編程的成功率還是很高的。

比如讓 K2 用 HTML 構建一個網站，展示太陽系的 3D 模擬。K2 不是深度思考模型，直接一句廢話沒説就開始寫代碼。

並且，一次就成功。

接下來，知危還讓 K2 幫忙模擬小行星撞擊地球、製作數據儀表盤組件，雖然有些小 Bug，但也一次成功了。

不過僅僅是這樣，還不能展現 K2 的優勢。在 K2 本次強調的兩大優勢中，agentic 能力其實更為重要。

它關注的是模型在結構化的編程環境下，如何從零到一完成任務，交付工作的能力，並在深度的、多步驟的執行過程中始終保持邏輯一致性。只有具備了這樣的能力，K2 才能在實踐中發揮最大的作用。

所以，知危選擇了這樣的場景，將 K2 的 API 接入 Claude Code，並在 Cursor 提供的編程環境下，通過終端命令從零到一寫 4 個網頁小遊戲，併合並搭建出一個 “ 類 4399 ” 的小遊戲網站。

雖然在網頁端和 Cursor 端，都是寫 HTML/CSS/JavaScript，但網頁端偏重一次性的快速實驗，不具備自主規劃、細緻的代碼修復、文件生成與操作、shell 命令執行和調試、調用 Claude Code 工具集（專為編程設置）等能力，更別提多層次的項目合併操作，只是幾個本地文件夾操作的事情，對於網頁端卻極其困難，而這些通過上述方案就能實現。雖然編碼能力和響應速度相比 Claude 自己的模型還是差一些，但 K2 便宜啊！（搭建方法已放在文末參考資料裏）

在搭建完環境之後，知危的 “ 類 4399 ” 項目就要開幹了。

知危從編碼難度的維度，分別選了 4 個經典的小遊戲，從易到難分別是《 Flappy Bird 》、《 Dino Run 》、《 2048 》、《植物大戰殭屍》。

令人驚訝的是，前面 3 個小遊戲，K2 都一次性把基礎邏輯實現了。

《 Flappy Bird 》大概花了 5 分鐘的時間開發。開發期間，K2 會利用 Claude Code 的工具集進行自主規劃，列出一個 todo list：

創建具備基礎結構的HTML文件；

為遊戲元素實現CSS風格化；

創建JavaScript遊戲邏輯；

測試遊戲功能；

然後按順序一步一步實現這個 todo list，每實現一步就更新一下 todo list 的狀態，算是 agentic coding 的基操了。最後，K2 會使用 Bash 腳本對遊戲進行測試。

來看看成果如何。包括小鳥的行為邏輯、關卡的設置、得分的邏輯、遊戲結束的邏輯，可以説基本符合原作，更不用説小鳥自由落體給小白玩家、手殘黨帶來的極大難度。

在文件操作方面，Cursor 也幫知危在本地生成了相應的 HTML、CSS、JavaScript 文件，一個不落下，後續想玩只需要本地打開 index.html 文件即可。

《 Dino Run 》因為關卡設置更為複雜（加入了仙人掌、飛鳥等障礙元素），開發上也稍微更難一些，大概花費了 15 分鐘來開發。

開發到最後測試成功後，K2 還貼心地進行了遊戲體驗的優化，比如基於幀變化來增加分數，使分數增長更平滑，並增加了移動的地平線效果。

來看看成果如何。雖然恐龍像個偷跑的垃圾桶，但飛鳥、仙人掌以及背景的視覺還是設計的不錯的，而且恐龍得分的基本邏輯、環境陷阱的基本邏輯、遊戲結束的邏輯，都是沒有問題的。

《 2048 》的開發相對更困難一些，涉及到更復雜的鍵盤操作和狀態變化，所以規劃的執行步驟也更多，大概也花費了 15 分鐘的時間，和《 Dino Run 》接近。

來看看成果如何。最重要的方塊移動後的數字合併邏輯實現了，連配色都和經典版本幾乎是一樣的，也提供了最高分展示來激勵玩家，並能隨時重置。

然後，終於來到了真正的重頭戲，開發《植物大戰殭屍》。

前面只是測試了 K2 在 agentic coding 上的單次嘗試能力，並且這三個遊戲都是比較經典的，被測試過很多次。真正能考驗 agentic coding 的，還是在較複雜場景中，多次嘗試、多次探索，並保持邏輯一致性的能力。

《植物大戰殭屍》因為遊戲元素和交互邏輯較為複雜多樣，所以難度大得多。

我們先提一個簡單的命令：

你是一個經驗豐富的前端遊戲開發專家，請從零為我構建一個可在瀏覽器運行的《植物大戰殭屍》網頁小遊戲。

K2 構建了下圖中的 todo list，從中可以看出 K2 強調了基本元素的構建比如植物類和殭屍類，以及交互系統比如子彈、碰撞檢測等，以及元素收集系統，是其中的重點。

第一版寫的挺快的，還不到 15 分鐘，大概 13 分鐘左右就寫完了。K2 設置了三種經典植物（向日葵、豌豆射手、堅果牆）和一種經典殭屍，與原作的配置是一致的。

但可惜的是，這次 K2 沒有一次成功，而是出現了很嚴重的 Bug。遊戲剛開始，還沒見到殭屍，很快就判定遊戲結束：你的花園被殭屍入侵了。但我連殭屍的影子都沒見到，難道是殭屍飛得太快了？還是殭屍掘地三尺挖過去的？

為了修復這個問題，我向 K2 提了以下問題：

修復後能看到殭屍了，結果發現殭屍速度真的飛快，並且重置遊戲後植物能消失，但殭屍不會消失。遊戲結束判定邏輯也有問題。

所以我繼續向K2提修改需求：

修復中有一個很重要的參數修改，就是殭屍的移動速度。其實 K2 幫我找到這些參數之後，後續手動調試也會變得容易。

K2 還補充了大量代碼用於遊戲重置。

並修復了遊戲結束判定邏輯。

你以為這樣就結束了嗎？殭屍速度還是飛快。從右上角也可以看到有一個數值在不正常地增長，就是“第X波”這個數值，在殭屍速度設置中，這個數值的增加能使得殭屍的速度也增加。

我先手動取消了這個關聯，然後嘗試修復 “ 第X波 ” 的邏輯錯誤。

這中間出現了一個很有趣的提示，Claude Code 提示我已經花費了 5 美元，但實際上這是 Claude Code 假設我使用的是 Claude 的模型計算出來的，我這時查看了 Moonshot AI 開放平台的計費統計，發現實際花費還不到 5 人民幣。

嘗試修復 “ 第X波 ” 多次沒有成功，包括考慮交互歷史太長可能超出 K2 上下文長度，所以嘗試重啓對話，也告失敗。

最後我索性簡化了 “ 第X波 ” 的邏輯，改成了 “ 就1波 ”，遊戲開始後就直接出現 30 個殭屍，全部擊殺完就勝利。這期間也順便讓 K2 修復了殭屍位置沒有跟網格對齊的問題，堅果牆不能阻擋殭屍前進的問題，殭屍攻擊的距離判定問題，豌豆射手的豌豆顏色問題等等。

可以説，這個版本已經是較為完善的遊戲了。

但這個版本測試下來發現，目前的遊戲數值設計是非常不平衡的，過於簡單。具體來説就是，向日葵陽光更新太快，豌豆射手攻擊力太強，而殭屍移動太慢，血也不夠厚，基本上能快速湊齊每排一個豌豆射手就是穩贏的，堅果牆都沒有發揮的餘地。

藉着這個機會，我又測試了 K2 的遊戲數值設計能力，因為這個能力其實需要深度結合人類玩家的真實體驗，而且不同經驗、偏好、級別的玩家，看法都不同，所以是有較大難度的。

K2 確實發現了殭屍過於 “ 脆皮 ” 的問題，並認為殭屍移動速度過慢會使得遊戲進程太長，只是時長超過 10 分鐘這個預估太離譜，通常殭屍走完全程大概 2-4 分鐘，遊戲時長也會在這個範圍內。而且，K2 還認為向日葵產出過低，這個估計也與我的真實體驗相悖。

其它方面，包括植物成本、堅果牆生命力、碰撞檢測閾值等方面的評估還是比較合理的。

我基於個人經驗和 K2 的建議，最終隻手動修改了兩處，一是將殭屍速度提高為原來的 2 倍，一是將殭屍的生命值提升為原來的 4 倍。因為其實只要打殭屍難度增大了，植物太強的問題就能解決。

測試下來發現，一頓手忙腳亂操作之後，即便能順利種滿一列向日葵，一列豌豆射手，並隨時補充堅果牆，還是扛不住殭屍大軍壓境。

個人覺得，這個難度剛剛好，有再次挑戰的價值。

好了，《植物大戰殭屍》就開發到這裏，接下來是收尾工作 —— 將四個小遊戲整合到一個網站裏，為避免上下文過長，需要重啓一個對話。

K2 給文件結構加了一個層級。

它還貼心地增加了一個 README 文檔，為項目開源都給鋪平了道路。

遊戲網站也設計出來了，來看看網頁效果。基本遊戲展示功能是沒有問題的，甚至有一些動效，也能正常點進遊戲和遊玩，就是遊戲畫面不能顯示完全。

針對這個問題，跟 K2 對話了好多輪都沒解決，甚至問 Claude 4 Sonnet 也沒解決，最後作罷。

但從某種程度上，K2 確實幫我搭建好了一個 “ 類 4399 ” 網站。

測評結束！

總體而言，Kimi K2 模型在一次代碼生成和單次嘗試的 agentic coding 方面，不僅基本功紮實，也帶來了很多驚喜，實用性是很強的。

而在深度交互的 agentic coding 方面，K2 成功的例子和失敗的例子都不少，但總體來説還是能帶來較大收益的。

實際上，要在 AI 輔助下的編程中提高項目的成功率，用户自己的思考和判斷也是必不可少的。

比如什麼時候應該讓模型解決，什麼時候應該手動解決，什麼時候只讓模型分析而不動手修改，什麼時候簡化方案，甚至去外部詢問其它大模型等等。而且，項目後續推進很大程度是卡在細節上，這種情況下，用户自己的編碼專業水平越高，能從 K2 得到的收益就越高。知危由於幾乎全程都是 vibe coding，所以項目完成度並不高。

即便是 agentic coding，AI 扮演的最佳角色仍然是輔助工具和效率利器，而不是完全的主導者。

最後，知危不得不驚歎於 Kimi K2 的成本優勢，在用 Cursor 做了 5 個網頁之後，耗費的成本只有不到 17 元人民幣，要知道這其中還包括了新用户贈送的 15 元人民幣，也就是説實際真正要花的錢只有 2 元。

Kimi K2 如此低成本，除了模型本身的 token 便宜，可能有一部分要歸功於Context Caching 的能力，在下圖中可以看到，在消耗成本的組成中，Context Caching 的佔比比模型推理大多了。

最後的最後，知危覺得 K2 使用 emoji 符號來表現殭屍和豌豆射手有些太醜了，也少了那麼一點感覺，所以就找了殭屍和豌豆射手的 png 圖，放到項目文件夾裏，讓 K2 幫忙修改一下邏輯。

結果，一次成了。

總之，很強，無需再多言。