通用處理器走向衰亡?_風聞
半导体行业观察-半导体行业观察官方账号-专注观察全球半导体最新资讯、技术前沿、发展趋势。2021-03-15 08:27
來源:內容來自半導體行業觀察(ID:icbank)編譯,作者:ACM,謝謝!
計算機的興起不僅源於技術上的成功,也歸功於經濟力量為其提供的支持。Bresnahan和Trajtenberg創造了通用技術(general purpose technology, GPT)一詞用於諸如計算機這類的產品,這些產品具有廣泛的技術適用性,並且在數十年間其產品改進和市場增長可以相互促進。但是,他們還預測到GPT可能會在其生命週期的後期遭遇挑戰:隨着進展放緩,在一些特定的市場定位上,其他技術可以取代GPT並破壞了這一經濟持續增長的週期。今天,我們能夠觀察到這樣的轉變:由於中央處理器(CPU)的改進速度減慢,諸多應用程序轉而使用專用處理器,例如圖形處理器(GPU),雖然它能夠完成的工作比傳統的通用處理器要少,但是在實現特定功能的時候表現出了更高的性能。包括深度學習(一種機器學習類型)和比特幣挖掘在內的許多備受關注的應用已經在跟隨這一趨勢。
在這種背景下,我們現在可以更加明確這篇文章的主題:“The Decline of Computers as a General Purpose Technology”。我們並不是説計算機將失去技術能力從而“忘記”如何進行一些計算,我們的觀點是,在快速改進通用處理器的基礎上,零散的經濟週期正在逐步取代使用通用計算平台的經濟週期,而在這種零散的週期中,經濟學將用户推向由專用處理器驅動的多樣化計算平台。
這種碎片化意味着部分計算將以不同的速度進行,這對於在“快車道”中運行的應用來説是一件好事情,在這種情況下,更新迭代保持迅速的狀態,但是對於那些不再受益計算能力提升的應用來説,他們也因此被分配為“慢車道”。這種轉變也可能減慢計算機改進的總體步伐,從而危及這一重要領域的經濟貢獻。
通用與專用計算
早期-從專用到通用。早期的電子產品並不是可以執行許多不同計算的通用計算機,而是專用於完成一項任務且僅有一項任務的專用設備,例如收音機或電視機。這種專用的設備具有以下優點:設計複雜度可控、處理器高效、工作更快、功耗更低,而缺點就在於專用處理器的應用範圍也更窄。
早期的電子計算機,甚至那些被設計為“通用”的計算機,實際上都是為特定算法量身定製的,很難適應其他算法。例如,1946 ENIAC雖然在理論上是通用計算機,但它主要用於計算artillery range tables,哪怕需要略微不同的計算,都必須重新手動連接計算機來改變硬件設計。解決此問題的關鍵在於需要設計出可以存儲指令的新計算機體系結構,這種體系結構使計算機更加靈活,能夠在通用硬件而非專用硬件上執行許多不同的算法。這種“馮·諾依曼架構”非常成功,目前,它依然是幾乎所有通用處理器的基礎。
通用處理器的崛起。許多技術引入市場時便經歷了可以幫助它們發展的良性循環(圖1a)。最初,使用者購買該產品,從而為產品升級更新提供了資金支持。隨着產品的改進,越來越多的消費者會去購買它,這為下一輪的改進提供了資金,依此類推。然而對於許多產品而言,由於產品改進變得過於困難或市場增長停滯,這種循環從中短期來看在逐漸減弱。
圖1. 歷史上通用處理器的良性循環(a)正在轉變為fragmentation cycle(b)
在通用處理器發展的幾十年裏,GPT一直能夠繼續受益於這一良性經濟週期。其市場已經從軍事、航天等領域發展到全球使用的20多億台PC,這種市場增長推動了越來越多的投資來實現處理器的改進。例如,英特爾過去十年在研發和製造設備上花費了1830億美元,這部分的投資已經帶來了巨大的回報:據估計,自1971年以來處理器性能已經提高了約40萬倍。
另一種選擇:專用處理器。通用處理器必須能夠很好地進行多種不同的計算,這導致設計上不得不做出折衷,雖然有許多運算可以快速完成,但並沒有哪一個達到最優。對於那些適合專用處理器的應用,這樣的折衷方案會導致很高的性能損失。這些應用的運行具有一些特徵:
l 大量計算可以並行化。
l 要進行的計算是穩定的,並且很規則地更替(規則性)。
l 給定計算量需要相對較少的內存訪問(局部性)。
l 計算可以用較少的有效數字進行。
在上述的情況下,專用處理器(例如,ASIC)或異構芯片的專用部件(例如,I.P. block)可以更好地執行運算,因為這些硬件可以根據應用量身定製。
在對典型CPU(主要的通用處理器)和典型GPU(最常見的專用處理器)進行比較時,可以看出專用性在某種程度上改變了處理器設計變化程度(見附表)。
表. CPU和GPU的技術規格比較
GPU的運行速度較慢,約為CPU的三分之一,但在每個時鐘週期中,它可以並行執行比CPU多100倍的計算。這使得對於並行性很強的任務,它的運算比CPU快得多,反之,對於那些並行性很小的任務,GPU的運行速度則會慢於CPU。
GPU的內存帶寬通常是GPU的5-10倍(帶寬決定一次可以傳輸多少數據),但訪問這些數據的時間延遲卻要長得多(至少是最近內存時鐘週期的6倍),這使得GPU在可預測的計算(從內存中所需的數據可以被預測並在適當的時間傳輸到處理器)方面做得更好,而在不可預測的計算上表現不佳。
對於與專用硬件非常匹配的應用程序,GPU在性能上的提高可能是巨大的。例如,2017年,GPU的領先製造商NVIDIA估計,深度學習(AlexNet與Caffe合作)在GPU上的運行速度較CPU提高了35倍以上,現今,該速度甚至更高。
專用處理器的另一個重要優點是,在進行相同的計算時它的能耗更低。這對於受電池壽命限制的應用(如手機、物聯網設備)和需要大規模計算的應用(雲計算/數據中心、超級計算)尤為重要。
截至2019年,十大最省電超級計算機中有九台使用了NVIDIA的GPU。
專用處理器也有致命的缺點:它們能運行的程序範圍非常有限,也很難編程,並且通常需要一個運行操作系統的通用處理器來控制它們中的一個或多個。設計生產專用硬件也可能十分昂貴。對於通用處理器,其固定成本(也稱為非經常性工程成本(NRE))會均攤到大量芯片上。相比之下,專用處理器的市場通常要小得多,因此每個芯片的固定成本更高。截至2018年,使用先進技術製造帶有專用處理器的芯片的總成本約為8000萬美元,而使用老一代的技術可以將成本降低到3000萬美元左右。
儘管專用處理器有很多優點,但是它們的缺點依然非常致命,在過去的幾十年中,出GPU以外,其他專用處理器幾乎沒有被採用。專用處理器的技術僅僅採用在那些性能提升非常關鍵的領域,包括軍事應用、遊戲和加密貨幣挖掘領域。但這種情況正在開始改變。
專用處理器的現狀。包括PC、移動設備、物聯網(IoT)和雲計算/超級計算在內的所有主要計算平台的專用性都變得越來越強。其中,PC仍然是通用性最強的。相比之下,由於電池壽命,能源效率在移動和物聯網中更為重要,因此,智能手機芯片上的許多電路(例如RFID)和傳感器均使用專用處理器。
雲計算/超級計算也變得更趨向於專用性。例如,2018年,最大的500台超級計算機的新增產品首次從專用處理器獲得了比通用處理器更高的性能。
國際半導體技術藍圖(ITRS)的行業專家協調了保持摩爾定律發展所需的技術改進,他們在最終報告中隱含地表達了這種向專用性的轉變。他們承認,不應再用傳統的“一刀切”的方法去確定設計要求,相反,應針對特定應用量身定製。
下一部分將探討所有主要計算平台向專用處理器的轉變,將對生產通用處理器的經濟性產生的影響。
通用技術的碎片化
支持GPT的良性循環來自一系列相輔相成的技術和經濟力量。但不幸的是,它同樣也會帶來反作用:如果這個週期中的某個部分中的改進進程變慢,那麼其他部分的改進也會相應變慢。我們將此對立點稱為“fragmenting cycle”,因為它有可能將計算碎片化為一系列鬆散相關的部分,這些部分以不同的速度推進。
如圖1(b)所示,fragmenting cycle分為三個部分:
l 技術進步緩慢。
l 新用户減少
l 更難為創新籌集資金
這個週期背後的原理很簡單:如果技術進步緩慢,那麼新用户的人數就會減少,但如果沒有這些新用户提供的市場增長,那麼改進該技術所需的不斷上漲的成本可能變得令人望而卻步,從而減緩了進展。因此,在這種協同反應之下,每個部分都會進一步增強碎片化。
下面,我們將詳細分析該循環三個部分中每一個的狀態,從而得到“碎片化已經開始”已然開始的結論。
技術進步緩慢。我們用兩個關鍵指標來衡量處理器的改進速度:“性能“”和“每美元性能”。從長期數據看,這兩個指標均迅速提高,主要是因為晶體管的小型化致使每個芯片的晶體管擁有更高的密度(摩爾定律)和更快的晶體管開關速度(Dennard縮放比例定律)。不幸的是,由於技術原因,製造商已經達到了現有材料和設計所能做的物理極限,Dennard 縮放比例定律於2004/2005年終結,摩爾定律也越來越難維持,這些技術極限需要付出極大的努力才能克服。在這個過程中,可以明顯看到小型化所帶來的“性能”和“每美元性能”的提升正在放緩。
從Hennessy和Patterson對SPECInt進度的描述(圖2 a)以及美國勞工統計局的生產者價格指數(圖2 b)可以看出,通用計算機性能的提升顯著放緩。從這些角度來看,如果“每美元性能”每年以48%的速度提高,那麼10年後它的效率將提高50倍。相比之下,如果每年僅以8%的速度提高,那麼在10年內,它只會提高2倍。
圖2.微處理器的改進率,根據以下標準衡量:(a)SPECint基準上的年度性能改進,(b)質量調整後的年度價格下降。
新用户減少。 隨着通用處理器的提升的步伐放慢,新功能的開發也會減少,從而導致客户沒有更換計算設備的醫院。英特爾首席執行官Krzanich在2016年證實了這一點,稱PC的更換率已從每4年一次提高到每5-6年一次。有時,用户甚至會跳過很多代處理器的升級,因為覺得它們不值得更新。在其它平台上也是如此,例如2014年美國智能手機平均每23個月進行一次升級,但到2018年則延長到31個月。
在通用處理器發展的幾十年裏,GPT一直能夠持續受益於這一良性經濟週期。
用户從通用處理器向專用處理器的轉移是我們關於計算碎片化的論點的核心,因此我們將對其進行詳細討論。假設現在有一個用户,他既可以使用通用處理器也可以使用專用處理器,但希望以最低的成本得到最佳性能。圖3(a)和圖3(b)給我們提供了直觀的分析,兩幅圖都顯示了通用處理器和專用處理器隨時間的性能提升情況,但是通用處理器的改進速度在兩幅圖中卻有所不同。在所有情況下,我們都假設選擇了時間T,那麼專用處理器的高價格將由一系列經過改進的通用處理器的成本所平衡,這意味着兩條曲線在成本上是相等的,因此,優良的“性能”也意味着同樣優越的“每美元性能”,這也是我們認為專用處理器在這段時間內具有穩定的性能的原因。(在專用處理器升級這一點上,它也將獲益於通用處理器受益的改進,並且用户將再次重複相同的決策過程。)
圖3. 最佳處理器的選擇取決於專用處理器帶來的性能提升以及通用技術的提高速度。
如果專用處理器可以提供更大的性能初始收益,那麼它會更具吸引力。但是,如果通用處理器的改進從圖3(a)中的快速發展變成圖3(b)中的緩慢發展,專用處理器也變得更具吸引力。我們通過考慮兩條時間路徑中的哪一條可提供更多收益來進行建模。也就是説,如果:
式中,通用處理器和專用處理器在時間T上可提供性能分別為Pu和Ps,通用處理器的性能提升速率為r。我們在在線附錄(https://doi.org/10.1145/3430936)中展示了該模型的完整推導。該推導幫助我們從數學上估算專用處理器抵消高成本所需要的優勢的量(圖3 c 中顯示,CPU的年改進率從48%降低到8%)。
毫無疑問,專用處理器在提供更大的加速比或將其成本均攤到更大的數量時將會更具吸引力。但是,隨着通用處理器改進的步伐,當專用性變得有吸引力時,這些臨界值將發生變化。重要的是,因為我們假設總體上專用處理器與通用處理器之間的進度有所不同,即假定所有處理器都能夠使用當前最先進的製造技術,所以將不會產生上述的影響。相反,它的出現是因為必須分攤專用處理器高昂的每單位NRE(一次性工程費用),以及在此期間與升級通用處理器相比之下的優越性。
一個數據清楚地表明瞭這一變化的重要性。在摩爾定律的頂峯時期,當每年的改進速度為48%時,即使專用處理器的速度比通用處理器快100倍,也就是
(這是一個巨大的差距),為了獲得投資回報,還需要大約8.3萬的生產量。在另一個極端,如果性能優勢僅為2倍,則需要生產數量要達到約1,000,000才能使專用性處理器更具吸引力。這些結果清楚地説明了為什麼在摩爾定律的鼎盛時期,專用處理器的生產商很難進入市場。
但是,如果我們使用8%(2008-2013年的增長率)重複處理器選擇計算,那麼這些結果將發生顯着變化:對於速度提高100倍的應用,所需的處理器數量從83,000降至15,000,對於那些提速2倍的應用,數量則從1,000,000下降到81,000。因此,在通用處理器的更新進度變慢之後,更多的應用就會轉向專用處理器。
更難為創新籌集資金。2017年,半導體行業協會估計,為下一代芯片建造和配備製造設施(“ fab”)的成本約為70億美元。“下一代”是指芯片進一步小型化(或稱進程“節點”)。
用於芯片製造設施的成本的投資必須由它們產生的營收來平衡。2016年,該行業3430億美元的年收入中,多達30%來自尖端芯片,雖然收入十分可觀的,但是成本也在增長。在過去的25年中,受到光刻成本的影響,建造領先的晶圓廠的投資(如圖4a所示)每年增長11%。將過程開發成本包括在此估算中,將進一步使成本每年增長至13%(根據Santhanam等在2001年至2014年間進行的測算)。諷刺“摩爾第二定律”的芯片製造商都知道:芯片廠的成本每四年翻一番。
圖4.芯片製造的經濟惡化。
長期來看,如此快速的固定成本增長對單位成本的影響僅有部分能被強勁的整體半導體市場增長所抵消(1996-2016m年複合增長率為5%),這使半導體製造商能夠在更大的數量上分攤固定成本。固定成本每年增長13%與市場每年增長5%之間的巨大缺口中的剩餘部分,可能將導致競爭力較弱的參與者退出市場,而其餘參與者則通過大量籌碼來攤銷其固定成本。
如圖4(b)所示,該行業確實存在着巨大的整合,生產領先芯片的公司越來越少。從2002/2003到2014/2015/2016,擁有領先晶圓廠的半導體製造商數量已從25家減少到只有4家:英特爾、TSMC、三星和格羅方德。而格羅方德近期宣佈,他們將不會繼續下一個技術節點的開發。
我們發現這種合併很有可能是由於固定成本快速上升且市場規模僅適度增長帶來的經濟惡化所致。通過一些計算,可以看出市場整合在多大程度上改善了半導體行業額經濟性。如果將市場平均分配給不同公司,則意味着平均市場份額將從2002/2003年的
增長到2014/2015/2016年的
。以複合年增長率表示,這將是14%。這意味着生產商可以通過市場增長並佔有現有工廠的市場份額(13%<5%+ 14%)來彌補晶圓廠建設日益惡化的經濟狀況。
實際上,市場不是平均分配的。英特爾在市場上佔有主導地位,結果,英特爾也無法以這種方式抵消固定成本的增長。實際上,在過去十年中,英特爾固定成本與其可變成本的比率已從60%上升到100%以上,這一點尤為引人注目,因為近年來,英特爾放慢了發佈新節點大小的步伐,預計這將降低他們進行固定成本投資的步伐。
市場整合抵消固定成本增長的能力只能持續一定時間。如果我們預測當前趨勢,那麼到2026年至2032年(取決於市場增長率),領先的半導體制造將只能支持單個壟斷製造商,並且每年為新工藝節點建造新設施的固定成本將等於年度行業收入。需要説明的是,我們的論斷並不是説這要在2020年代末成為現實,而是強調當前的趨勢會無法持續,並且在大約10年內製造商將被迫大大放慢新工藝節點的發佈速度,並尋找其他控制成本的方法,這兩者都會進一步減緩通用處理器的提升進度。
碎片化循環。碎片化循環週期的三個部分中,在每個部分之間都會相互增強的情況下,我們希望看到越來越多的用户能看到通用處理器的及其微小的改進,從而轉為關注專用處理器。對於那些有極高需求和非常適合專業化計算(例如深度學習)的人,這將意味着性能上巨大的提高。對於其他人來説,專用化將不是一個合適的選擇,它們將會留在通用處理器上,並且發展速度會越來越慢。
啓示
誰會去做專用處理器。如圖3(c)所示,專用處理器將用於更換後獲得大幅度提速的應用場景,並且需要足夠的需求量才能證明這一開銷是合理的。據此標準,大型科技公司成為最早一批投資專門處理器的公司也並不奇怪,例如谷歌、微軟、百度和阿里巴巴。與仍可受益於廣泛應用程序的GPU專業化或對大多數用户有價值的加密電路中的專業化不同,我們期望未來的專業化會更窄,因為僅需少量處理器即可使收益更可觀。
我們還期望大量使用這些專用處理器的人,並非是專用處理器的設計者,而是像將GPU用於深度學習運算的人一樣,用新的硬件來設計算法。
小型化的最終好處將是價格溢價,並且可能僅由重要的商業應用來支付。
誰不會用。不遷移到專用處理器的應用場景可能因為:
l 性能提升少
l 沒有足夠大的市場來證明前期固定成本合理
l 無法協調需求。
先前,我們描述了四個特徵,這些特徵使得使用專用處理器可以加快計算速度。如果沒有這些特性,那麼專門化只能帶來最小的性能提升(如果有的話)。一個重要的例子是數據庫。正如我們採訪的一位專家告訴我們的那樣:在過去的幾十年中,很明顯,專用於數據庫的處理器可能非常有用,但是數據庫所需的計算不適合採用專用處理器。
第二類將無法用專用處理器的是那些需求不足以證明前期固定成本合理的處理器。 正如我們通過模型得出的那樣,需要數以千計的處理器市場來證明專用化的合理性。這可能會影響那些在小範圍內進行密集計算的人(例如,研究科學家進行罕見的計算)或那些計算隨時間而快速變化並因此需求迅速消失的人。
可能不會用專用處理器的第三組是那些沒有單個用户具有足夠需求且協調困難的羣體。 例如,即使成千上萬的小用户共同擁有足夠的需求,也很難使他們共同為生產專門的處理器做出貢獻。雲計算公司可以通過資助創建專用處理器,然後將其租出來來解決這一問題。
技術進步會幫助我們擺脱困境嗎?為了使我們回到一個收斂的週期,在該週期中,用户將切換回通用處理器,這需要性能和/或每美元性能的快速提高。但是技術趨勢卻指向相反的方向。例如,在性能方面,預計微型化的最終好處將是價格溢價,並且僅可能由重要的商業應用來支付。甚至存在一個疑問——是否將完成所有剩餘的、在技術上可行的小型化。Gartner預測,到2026年5nm量產時將會有更多的小型化,而台積電(TSMC)最近宣佈了一項投資195億的 2022年達到3nm的計劃,但我們在本研究中採訪的許多受訪者對進一步的小型化是否值得持懷疑態度。
其他技術改進是否可以恢復通用處理器改進的步伐?當然,有關此類技術的討論很多:量子計算,碳納米管,光學計算。不幸的是,專家們預計,至少要再過十年,工業界才能設計出一種範圍更廣的量子計算機,進而有可能替代傳統的通用計算機。可能具有更廣闊前景的其他技術仍將需要大量資金來開發並投放到市場。
結論
傳統意義上,計算的經濟性是由通用技術模型驅動的,通用處理器的提升越好,那麼市場增長就會加大對其投資,從而進一步推動它們的改進。幾十年來,GPT的這種良性循環使計算成為經濟增長的最重要驅動力之一。
本文提供的證據表明,這種GPT週期已被碎片化的週期所取代,這些碎片化的週期導致了計算速度的增長緩慢和用户的分裂。我們展示了fragmenting cycle的三個部分,它們中的每一個都已經在進行中:通用處理器的改進率已經出現了急劇且不斷增長的放緩;購買通用處理器和專用處理器之間的經濟權衡已急劇轉向專用處理器;而且製造更好的處理器的固定成本不斷上升,將無法再由市場增長率來彌補。
總而言之,這些發現清楚地表明,處理器的經濟狀況已經發生了巨大變化,將計算推入了截然不同的專門領域,並且彼此之間提供的利益也越來越少。而且,由於此循環是自我增強的,因此它將永久存在,從而進一步碎片化通用計算。最終,將會拆分出更多的專用的應用,通用處理器的改進速度將進一步放慢。
本文強調了經濟學推動計算方向的重大轉變,並對那些想要抵制計算碎片化的人們提出了挑戰。