衝破馮·諾伊曼瓶頸,存內計算終爆發?_風聞
半导体行业观察-半导体行业观察官方账号-专注观察全球半导体最新资讯、技术前沿、发展趋势。2021-12-23 14:17
來源:內容由半導體行業觀察(ID:icbank)編譯自IEEE,謝謝。
過去多年裏,邏輯和內存分別獨立的馮·諾依曼 (JOHN VON NEUMANN) 的原始計算機架構運行良好。但一些公司認為現在是改變的時候了。
近年來,向更多並行處理的轉變以及神經網絡規模的大幅增加意味着處理器需要更快地從內存中訪問更多數據。然而,“DRAM 和處理器之間的性能差距比以往任何時候都大,”韓國先進科學技術研究所 3D 存儲芯片專家、IEEE Fellow Joungho Kim説。馮諾依曼架構成為馮諾依曼瓶頸。
相反,如果至少有一些處理發生在內存中呢?則意味着需要在芯片之間移動的數據更少,而且您也可以節省能源。這不是一個新想法。但它的時刻可能終於到來了。
去年,全球最大的動態隨機存取存儲器 (DRAM) 製造商三星開始推出內存處理 (PIM) 技術。其首個 PIM 產品於 2021 年 2 月推出,在其Aquabolt-XL高帶寬內存中集成了專注於 AI 的計算內核 。HBM 是一種圍繞一些頂級 AI 加速器芯片的專用 DRAM。時任三星內存業務部高級副總裁的 IEEE 院士Nam Sung Kim表示,新內存旨在作為普通 HBM 芯片的“直接替代品” 。
去年 8 月,三星公佈了在合作伙伴系統中的測試結果。當與 Xilinx Virtex Ultrascale + (Alveo) AI 加速器一起使用時,PIM 技術為語音識別神經網絡提供了近 2.5 倍的性能提升和 62% 的能耗降低。三星一直在提供集成到當前一代高帶寬 DRAM HBM2 中的技術樣本。它還為下一代 HBM3 和移動設備中使用的低功耗 DRAM 開發 PIM。它預計將在 2022 年上半年與JEDEC一起完成後者的標準。
有很多方法可以將計算智能添加到存儲芯片中。三星選擇了一種快速而簡單的設計。HBM 由一堆 DRAM 芯片組成,這些芯片通過稱為硅通孔 (TSV) 的互連垂直連接。存儲器芯片堆棧位於作為處理器接口的邏輯芯片之上。
一些內存中處理項目美光科技
這家第三大 DRAM 製造商表示,它沒有內存處理產品。然而,在2019 年,它收購了人工智能技術初創公司 Fwdnxt,目標是開發“讓內存和計算更緊密結合的創新”。
NeuroBlade
這家以色列初創公司開發了具有集成處理核心的內存,旨在加速數據分析中的查詢。
Rambus
DRAM 接口技術公司的工程師對內存處理 DRAM 進行了探索性設計,重點是降低高帶寬內存 (HBM) 的功耗。
三星
全球最大的 DRAM 製造商正在提供具有集成 AI 計算核心的 Aquabolt-XL。它還開發了用於內存模塊的 AI 加速器,並致力於標準化 AI 加速的 DRAM。
SK海力士
第二大 DRAM 製造商和普渡大學的工程師在2020 年公佈了 Newton(一種AI 加速 HBM DRAM)的結果,但該公司決定不將其商業化,而是為標準 DRAM 尋求 PIM。
堆棧中最高的數據帶寬位於每個芯片內,其次是 TSV,最後是與處理器的連接。因此三星選擇將處理放在 DRAM 芯片上,以利用那裏的高帶寬。計算單元旨在執行最常見的神經網絡計算,稱為乘法和累加,除此之外別無他物。 其他設計已將 AI 邏輯放在接口芯片上或使用更復雜的處理核心。
三星最大的兩個競爭對手, SK海力士與美光科技,還沒有準備好要為HBM上PIM,雖然他們已經實現每對其他類型的存內處理。
位於韓國利川的第二大 DRAM 供應商 SK 海力士正在從多個角度探索 PIM ,該公司副總裁兼內存解決方案產品開發主管Il Park表示 ,目前他們正在標準 DRAM 芯片中尋求 PIM,而不是 HBM,後者可能更容易被客户採用。
對於 SK 海力士來説,HBM PIM 更像是一種中長期的可能性。目前,客户已經在處理足夠多的問題,因為他們試圖將 HBMDRAM 從物理上移到更靠近處理器的位置。“該領域的許多專家不想在涉及 HBM 的已經很繁忙的情況之上增加更多且相當重要的複雜性,”Park 説。
也就是説,SK 海力士的研究人員在 2019 年與普渡大學的計算機科學家合作,對一種名為 Newton的HBM-PIM 產品進行了全面設計。 與三星的 Aquabolt-XL 一樣,它在存儲庫中放置了乘法和累加單元,以利用芯片本身的高帶寬。
此同時,Rambus 研究員和傑出發明家Steven Woo表示,由於功耗問題,位於加利福尼亞州聖何塞的 Rambus 有動力探索 PIM 。該公司設計了處理器和內存之間的接口,片上系統及其 HBM 內存消耗的三分之二的功率用於在兩個芯片之間水平傳輸數據。在 HBM 內垂直傳輸數據使用的能量要少得多,因為距離要短得多。“你可能需要水平移動 10 到 15 毫米才能將數據傳回 SoC,”Woo 説。“但從垂直方向看,你説的是幾百微米的數量級。”
Rambus 的實驗性 PIM 設計在 HBM 堆棧的頂部添加了一個額外的硅層來進行 AI 計算。為了避免 HBM 中央硅通孔的潛在帶寬瓶頸,該設計添加了 TSV 以將存儲庫與 AI 層連接起來。Woo 認為,在每個內存芯片中都有一個專用的 AI 層可以讓內存製造商為不同的應用定製內存。
採用 PIM 的速度將取決於 AI 加速器的製造商對其提供的內存帶寬緩解的絕望程度。Technalysis Research 的首席分析師 Bob O’Donnell 表示:“三星已經投入了 大量資金。” “[PIM] 能否取得商業成功還有待觀察。