GPU歷史系列(四):通用GPU的來臨_風聞
半导体行业观察-半导体行业观察官方账号-专注观察全球半导体最新资讯、技术前沿、发展趋势。2020-05-07 11:14
來源:內容由半導體行業觀察(ID:icbank)編譯自「techspot」,謝謝。
隨着DX10的到來,頂點和像素着色器保持了很大程度的通用功能,因此移動到統一的着色器拱門消除了許多不必要的重複處理塊。第一個使用這種架構的GPU是Nvidia的標誌性G80。
四年的研發和4.75億美元的投入,生產出了6.81億個晶體管,484mm² 的龐然大物——在11月8日首次成為8800 GTX旗艦和8800 GTS640MB。一款超頻的GTX,即8800 Ultra,代表了G80的頂峯,夾在兩款較小產品的發佈之間:2月份發佈的320MB GTS和2007年11月19日限量生產的GTS 640MB/112 Core。
在新的Coverage Sample anti-aliasing(CSAA)算法的幫助下,Nvidia滿意地看到其GTX徹底摧毀了所有單顯卡和雙顯卡競爭對手。儘管取得了成功,但該公司在第四季度在獨立顯卡市場的份額下降了三個百分點-AMD憑藉原始設備製造商(OEM)合同的優勢獲得了增長。
MSI版本的GeForce 8800 GTX
2007年2月和6月,英偉達關於G80的商業戰略的其餘部分成為現實。基於c語言的CUDA平台SDK(軟件開發工具包)以beta形式發佈,目的是利用GPU高度並行化的特性實現一個生態系統。Nvidia的PhysX物理引擎以及它的分佈式計算項目、專業虛擬化和OptiX (Nvidia的射線追蹤引擎)是使用CUDA的更受矚目的應用程序。
Nvidia和ATI(現為AMD)都在將不斷增加的計算功能集成到圖形管道中。ATI / AMD將選擇依靠開發人員和委員會來開發OpenCL,而Nvidia考慮到CUDA和高性能計算有更直接的計劃。
為此,英偉達在6月份推出了Tesla系列的數學協處理器,最初是基於已經為GeForce和Quadro FX 4600/5600提供動力的G80 core,經過至少兩次(可能三次)的主要調試,AMD在5月份發佈了R600。
媒體大肆宣傳該產品是AMD對8800 GTX的回應,但HD 2900 XT令人大失所望。它是一款中高端卡,但有着發燒級主板的功耗,比其他任何當代解決方案都消耗更多的功率。
R600的失誤在ATI內部產生了深遠的影響,促使戰略改變以滿足未來的最後期限和最大限度的發佈機會。RV770 (Evergreen)以及南北羣島系列改進了執行。
R600是迄今為止最大的ATI / AMD GPU,面積為420mm²,它結合了許多GPU首創。它是AMD的第一個DirectX 10芯片,它的第一個也是唯一一個擁有512位內存總線的GPU,第一個帶有tessellator單元的廠商台式機芯片(由於遊戲開發者的漠不關心和缺少DirectX支持,該單元一直未被大量使用),第一個具有集成音頻/ HDMI支持的GPU,以及第一個使用VLIW的GPU,這種架構一直保留到現在的8000系列。這也是自RADEON7500以來,第一次在競爭對手的價格和性能方面,ATI/AMD沒有部署頂級卡。
AMD將R600升級為RV670,將GPU從TSMC的80nm進程縮減為55nm節點,並將512位雙向內存環總線替換為更標準的256位。這使得R600的裸片面積減少了一半,同時封裝了幾乎同樣多的晶體管(666萬個,而R600是7億個)。AMD還為DX10.1更新了GPU,並增加了對PCI Express 2.0的支持,所有這些都足以淘汰HD 2000系列,並與主流的GeForce 8800 GT和其他更小的顯卡競爭。
在缺乏高端GPU的情況下,AMD於2008年1月推出了兩款雙GPU顯卡,以及基於預算的rv620 /635的顯卡。HD 3850 X2在4月份上市,最後一張All-In-Wonder品牌顯卡HD 3650在6月份上市。經過精心設計的驅動程序包,雙GPU顯卡立即引起了評論家和消費者的注意。HD 3870 X2輕鬆地成為最快的單顯卡,而HD 3850 X2也沒有慢多少。與Nvidia的SLI解決方案不同,AMD通過通用的ASIC為Crossfiring顯卡建立了支持。
Radeon HD 3870 X2在單顯卡中放置了兩個GPU
在G80取得成功的基礎上,英偉達於10月29日推出了8800 GT的G92,受到科技網站的廣泛好評,這主要是由於其極具競爭力的價格。512MB顯卡的價格介於199美元到249美元之間,性能優於基於G80的8800 GTS。它擊敗了HD 2900 XT和HD 3870,後者在GT推出三週後發佈,通常在GTX的80%之內。不出所料,這導致在幾周內短缺8800 GTS。對Nvidia的新競爭者及其8600 GS/GT同款的強勁需求,幫助該公司在年底前獲得了71%的獨立市場份額。
繼GT之後,英偉達於12月11日推出了基於G92的8800 GTS 512MB。雖然GTS在性能上普遍落後於GT,但它的可取之處是使用了更好的內置GPU,在超頻時基本上可以與GTX和價格不菲的8800 Ultra相媲美。
如果不添加不幸的後記,即在某些G86、G84、G73、G72/72M GPU、C51和MCP67顯卡芯片組的BGA中使用高鉛焊料,那麼GeForce 8系列的故事就不完整。這與低温填充、冷卻不足和冷熱循環的密集狀態有關,導致了過多的顯卡故障。
如果説8系列是Nvidia的技術勝利,那麼9系列將迎來一段停滯期。
Nvidia在2008年年中改用了AMD使用的日立(Hitachi)共晶(高錫)焊料,並顯著改變了8800 GT冷卻器的單槽參考設計,增加了更多風扇葉片,並調整了護罩,以促進更高的氣流。G92也被懷疑受到填充不足問題的影響,儘管在8800 GTS 512M和非參考冷卻器上的雙槽設計似乎沒有受到過度影響。
英偉達公司在此次事件中收取了4.759億美元的費用,這導致英偉達筆記本電腦OEM廠商遭到了消費者的強烈反對。在這件事被公佈於眾之前,這兩家廠商已經知道這件事有一段時間了。英偉達在業內的地位將永遠與它的歷史最低點聯繫在一起。
如果説8系列是英偉達的技術勝利,那麼9系列則迎來了一段停滯期。該系列的亮點還包括2008年2月推出的首款型號。9600 GT是基於“新的”G94,這比前一年的G92削減了一點,建立在同樣的65nm台積電工藝上。
AMD在HD 3870和HD 3850上的降價,以及英偉達8800 GS和GT的降價,使得9系的其餘部分幾乎完全處於品牌重塑的旗號之下。
最初的9800 GT是8800 GT重新定位,而8800 GTS(G92)則演變為9800 GTX。過渡到台積電的55nm工藝使G92的面積減少了20%,時鐘頻率也有了小幅度的提升,生產出9800 GTX+,同樣的OEM GTS 150,以及在8系列卡推出15個月後進入零售渠道的GTS 250。
由於旗艦GT200的姍姍來遲,以及AMD的HD3870X2現在是單顯卡軍備競賽的領頭羊,英偉達採用了歷史悠久的傳統,即把兩台9800 GT夾在一起,製造9800 GX2。雖然它贏得了基準測試賽,但大多數觀察家很快注意到,以3個9800 GT的價格出售一個雙9800 GT充其量只能説吸引力有限。
GTX 260板上的Nvidia G200 GPU
到6月,英偉達發佈了帶有GT200 GPU的GTX 260和GTX 280,這是一個576mm²的部件,代表了迄今為止最大的生產GPU芯片(英特爾的Larrabee估計為600-700mm²),也是台積電製造的最大生產芯片。
GT200重申了Nvidia希望通過將專用雙精度(FP64)和計算硬件整合到設計中,將GPGPU推向聚光燈下的願望。以遊戲為導向的架構變化較為温和,但這並沒有阻止Nvidia將280的價格定為649美元,也沒有阻止該公司推出3D視覺(3D遊戲和視頻)驅動程序,以及3D快門眼鏡和紅外發射器——這是一個非常昂貴的軟件包。
在HD 4870和4850上市後,價格大幅下跌,GTX 280下跌38%至400美元,GTX 260下跌25%至299美元。
AMD用RV770回應了GT200和G92。第一款卡是較低主流的HD 4730,於6月8日推出,緊隨其後的是主流和性能市場HD 4850和4870。由於規格泄露,商店在NDA 到期前一週就開始銷售HD 4850,這次發佈已經失去了一定的影響力——這是現在的普遍現象,但在2008年卻不那麼普遍。
4870和4850成為第一個使用GDDR5內存的消費類顯卡,Nvidia最終在18個月後使用基於GT215的GT240實現了這一功能。
HD4870和4850憑藉其廣泛的功能列表贏得了好評,包括7.1lpcm的HDMI聲音、通用性能和多GPU擴展,當然還有價格。該卡的唯一缺點是,在參考板的電壓調節部件上,會產生局部高温,這會導致不成比例的故障率和鎖定,特別是在使用Furmark等老化軟件時。
為了與上一代保持一致,也為了縮短GTX 280的兩個月統治期,AMD在8月發佈了HD 4870 X2。該顯卡很快就在包括性能在內的大多數類別的評估基準圖表中佔據了首位,但由於參考鼓風機,該顯卡還在噪音輸出和熱量生產類別中佔據了一席之地。
Radeon HD 4870 X2(以上)和Radeon HD 4870
2009年1月,當GT200被轉移到台積電的55nm工藝上時,英偉達的產品線只進行了一次增量調整。55nm在B3修訂版芯片中得到了應用,去年9月,B3修訂版芯片首次成為GTX 260的核心216版本。該公司推出了其GTX 295,其中包括兩個削減(ROPs和內存總線)GT200-B3。
該顯卡的單GPU變體在4月份以GTX 275的形式發佈。AMD的回應也是如此:經過修訂的rv790xt驅動的HD 4890和HD 4770 (RV740),這也是AMD的第一張40nm顯卡。
HD 4770本身並不是一款主要產品,但它給AMD帶來了無法估量的經驗,讓AMD體驗到了台積電陷入困境的40nm工藝,由於GPU裸片中金屬層之間的連接不完整,導致電流泄漏的差異很大,缺陷率也很高。有了這些工作知識,AMD就能夠改進Nvidia在其Fermi架構下面臨的代工工藝問題——這些問題還沒有出現在Nvidia最初的微型40nm GPU上。
英偉達在7月份推出了首款40nm產品。入門級的GT216和GT218以GeForce 205、210和GT220的形式出現,直到10月份後兩款產品進入零售市場,它們都是OEM產品。它們只是作為Nvidia的第一張DX10.1卡而引人注目-AMD在HD 4870/4850上實現了這一點-並通過7.1音頻,無損LPCM音頻,Dolby TrueHD / DTS-HD / -HD-MA的比特流和HDMI音頻提高了聲音功能。該系列的目標是家庭影院市場,並最終於2010年2月更名為300系列。
在2009年9月到2010年2月的4個月裏,AMD完成了從上到下的4個GPU(Cypress、Juniper、Redwood和Cedar)的全面發佈,這4個GPU由Evergreen系列組成,首先是頂級的HD 5870,一週後是中高檔的HD 5850。
由於供不應求,台積電陷入困境的40nm工藝打擊了AMD利用英偉達Fermi No-Show的能力。這在很大程度上是由於AMD有能力將Evergreen的版本與Windows7同步,並採用了DirectX11。
雖然DX11花了一些時間來展示Evergreen的巨大價值,但HD 5000引入的另一個功能在Eyefinity上產生了立竿見影的效果。Eyefinity依賴於DisplayPort的靈活性,每個板上最多可以支持6個顯示管道。它們被路由到一個約定DAC或內部TMDS發射機和顯示端口的組合。
以前的顯卡通常使用VGA、DVI和HDMI的組合,每個輸出都需要一個專用的時鐘源。這增加了GPU的複雜性、大小和pin數。DisplayPort否定了獨立時鐘的需要,為AMD在硬件中集成多達6個顯示管道開闢了道路,而軟件仍然負責提供用户體驗。這包括邊框補償和跨越顯示面板的最佳分辨率。
Evergreen系列成為了所有領域的領先者(除了紋理過濾問題),HD5850和HD5770吸引了大量注重成本的玩家,HD5870和雙GPUHD5970提供了無與倫比的性能和效率。
6個月後的4月12日,Nvidia終於(soft)通過GTX 470和480發佈了它的第一個Fermi板卡。公司的裸片沒有一個是全功能的,就像下面的GF104一樣,因此Fermi的核心速度是相當保守的,以抑制功率使用和內存帶寬較低,因為Nvidia對GDDR5 I/O缺乏經驗。
由於GF100 Fermi的芯片尺寸為529mm²,已經給AMD造成供應問題的台積電(TSMC)40納米工藝的良率還達不到最佳水平。由於芯片尺寸,良率,功率要求和熱量輸出都密不可分,Nvidia的400系列與AMD的產品相比,在遊戲性能上付出了高昂的代價。
Quadro和Tesla版的GF100在市場上幾乎沒有受到影響,如果有的話,這要歸功於專業市場內部的一個現成的生態系統。此次發佈沒有讓人失望的方面是引入了透明超級採樣抗鋸齒
(TrSSAA),它將與現場覆蓋採樣AA (CSAA)一起使用。
雖然GTX 480的回應並不熱烈,但英偉達的第二款Fermi芯片(GTX 460中的主流GF104)卻取得了不朽的成功。它的性能很好,價格也很便宜,192bit/768MB的發行價格為199美元,256bit/1GB的發行價格為229美元。他們推出了大量的非參考和factory超頻卡,由於Nvidia選擇了保守的參考時鐘來幫助降低功耗,因此有很大的超頻空間。
460的積極反應部分源於GF100上市後的低預期。據推測,GF104的容量不超過GF100的一半,與AMD的Cypress GPU相比,其遭受的影響非常之大。這證明是錯誤的。當Nvidia在11月發佈新版GF100,即GF110時,博客“專家”和AMD都感到了第二個驚喜。
升級後的芯片實現了之前的芯片無法實現的功能,即實現了整個芯片的功能。最終得到的GTX 570和580是最初400系列的預期值。
第一個AMD Northern Islands系列GPU Barts於10月問世。Barts是Evergreen的進一步發展,旨在降低Cypress裸片的生產成本。與大幅提升性能不同的是,該GPU的性能看起來與之前的HD 5830和HD 5850相當,但在GPU尺寸上大大節省了。AMD削減了流處理器(着色器)的數量,大修並減少了內存控制器的物理尺寸(以及相應的內存速度降低),並取消了執行雙精度計算的能力。但是,Barts確實在Evergreen上進行了細分升級。
雖然性能的提高並不顯著,但AMD確實升級了顯示技術的各個方面。DisplayPort被提升到1.2(從一個端口驅動多個監視器的能力,高分辨率顯示器的120Hz刷新,以及比特流音頻),HDMI被提升到1.4a(3D 1080p視頻播放,4K屏幕分辨率),公司還增加了一個支持DivX的更新視頻解碼器。
AMD還通過引入形態抗鋸齒(MLAA)改進了驅動程序特性集,這是一種後處理模糊過濾器,其功能(尤其是在啓動時)非常成功或失敗。
HD 6970和HD 6950的推出為具有EQAA(增強質量AA)的Catalyst驅動程序增加了傳統的AA模式,而AMD還實現了對HD3D的支持,這一次使用PowerTune進行了動態功耗分析。
一般來説,Cayman部件要比第一代Fermi芯片好。他們本來應該勝過他們,但比第二代(GTX 500s)落後了幾個百分點,而且隨後兩個陣營的driver版本增加了進一步的差異。
Cayman 11月的發佈被推遲了一個月,HD6970和6950於12月15日發佈,它代表了與VLIW5體系結構的(短暫)背離,而VLIW5體系架構自R300系列以來一直在使用。該公司轉而使用VLIW4,它在每個流處理塊中刪除了第五個特殊功能(或Transendental)執行單元。
這是為了在DX9(及更早版本)遊戲中撤回過多的資源,同時對圖形管道進行更加面向計算的重組。
Trinity和Richland系列APU的集成顯卡是VLIW4的唯一其他部件,而AMD最新的顯卡體系結構基於GCN(Graphics Core Next),而VLIW5則作為入門級Evergreen GPU的品牌保留在HD 8000系列中。
參照GF100/GF110的進展,GTX 460的繼任者——GTX 560 Ti——於2011年1月上市。基於GF114的顯卡具有功能齊全的經過修訂的GF104,並被證明與前代產品一樣功能強大且用途廣泛。在有和沒有factory超頻的情況下,它提供了無數的非參考解釋。
作為回應,AMD立即降低了其HD6950和6870的成本,因此GTX560TI的價格/性能優勢消失了,即使評論正在撰寫中。隨着許多董事會合作伙伴提供的郵寄回扣,HD6950——特別是1GB版本——的購買更加引人注目。
英偉達GeForce GTX 590參考板卡
2011年3月26日,英偉達(Nvidia)推出了第二款重要產品,這款產品一開始就引起了轟動。GTX 590將兩個功能齊全的GF110整合到一個電路板上。這場公關風波幾乎立刻就開始了。
這些電路板運行的驅動程序沒有將功率限制到正確的程度,並且與允許高電壓的BIOS配對。這種疏忽使得過電壓開始吹mosfet。Nvidia用一個更加嚴格的BIOS和驅動程序來彌補這個問題,但是發佈日的活動引發了一些尖刻的評論和至少一個流行的YouTube視頻。GTX 590的性能與兩週前推出的AMD自己的雙卡HD 6990不相上下。
由於沒有明確的基準測試勝利者,這些產品在論壇上引發了無休止的爭論,從多GPU擴展、庫存可用性、基準相關性、測試方法,到爆炸式的590。
從1月9日開始,AMD的北島繼承者,南島,以旗艦HD 7970,開始了階段性的發行計劃。它是第一張PCI-E 3.0卡,也是第一個基於台積電28nm製程節點上的AMD GCN架構的芯片。僅僅三週後,7970又推出了第二張基於Tahiti的HD 7950顯卡,2月15日,主流的Verde顯卡也加入了這一行列。基於Pitcairn GPU的性能卡於一個月後的三月上架。
這些顯卡很不錯,但與之前的40nm主板相比,並沒有提供驚天動地的遊戲改進。再加上AMD自HD2000系列以來一直採用的價格標籤競爭力較低,兩個月內沒有WHQL驅動程序和一個非功能視頻編解碼器引擎(VCE),這降低了許多潛在用户和評論家的熱情。
Tahiti的一個好處是證實了AMD通過超頻獲得了許多尚未開發的性能。這是在功耗和熱輸出與時鐘速度之間的權衡,但導致了一個保守的核心和內存頻率。最大化產量的需要和對Nvidia基於Kepler的GTX680/670的低估,也可能已經進入了這個方程。
通過引入Kepler 架構,Nvidia繼續在GPU中豐富其功能集。
在之前的幾代中,Nvidia使用了最複雜的芯片來滿足高端遊戲社區,並開始了漫長的專業(Tesla/Quadro)模型驗證過程。在最近的幾代中,這種方法並沒有給公司帶來特別好的效益,這種方法在最近幾代中並沒有為公司提供特別好的服務,因此看起來較小的GK107和以性能為導向的GK104比糟糕的GK110獲得了更多的優先權。
GK107可能是必需的,因為Nvidia有大量的OEM移動合同要履行,並且需要GK104用於高端台式市場。這兩款GPU都以A2版本芯片的形式發佈。Mobile GK107s (GT 640M/650M,GTX 660M)從2月份開始向OEM發貨,並於3月22日正式宣佈。同一天,Nvidia推出了基於GK104的GTX 680。
與Nvidia最近的GPU設計不同的是,着色器時鐘的運行頻率與內核頻率相同。自從GeForce 8系列產品問世以來,Nvidia採用的着色器的運行頻率至少是內核頻率的兩倍-高達9系列內核頻率的2.67倍,是400和500系列產品的兩倍。
這種變化的基本原理是基於Nvidia將重點(消費者台式/移動設備)從直接的性能轉移到每瓦的性能效率。在並行工作負載中,以較慢速度運行的內核越多,其效率就越高,而以兩倍頻率運行的內核則越少。基本上,它是GPU和CPU範式(多核、低頻率、高帶寬和延遲相對於少核、高頻率、低帶寬和延遲)的改進。
減少着色器時鐘還具有降低功耗的優勢,而Nvidia通過大幅減少裸片可用的雙精度單元,以及將總線寬度減少到更主流的256位,進一步節約了設計成本。這些變化以及動態提升功能(按需超頻)增強了相對適中的基本核心速度,提供了更加均衡的產品-儘管以計算能力為代價。但是,如果Nvidia保留了Fermi的計算功能和帶寬設計,那麼它會因為生產大型的,熱的,耗電的設計而被嘲笑。物理定律再次將芯片設計變成折衷的藝術。
英偉達再次生產了雙GPU板。由於GK104改善了功率範圍,因此GTX 690實際上是SLI中的兩個GTX 680。唯一的區別是690的最大核心頻率(boost)低於52MHz。儘管性能仍然是driver的SLI配置的一時衝動,但該卡的功能卻是一流的,其美學價值堪比限量版。
GK 110與Nvidia通常的做法不同,Nvidia通常先在GeForce的旗幟下發布GPU。最初被視為Tesla K20的這張顯卡被大量用於超級計算合同,其中超過22000張需要用於ORNL的Cray XK7 Titan、NCSA的Blue Waters、瑞士CSCS Todi和Piz Daint系統。
在GK110成為GeForce之前,消費者不得不等待6個月。被稱為GTX Titan的數字型號的缺乏增強了Nvidia希望將顯卡視為與現有(可能是隨後的)Kepler系列分離的模型的願望。Nvidia還擴大了對研究人員和專業人士的吸引力,因為它標誌着該公司首次允許GeForce卡保留其專業的Tesla和Quadro顯卡一樣的計算功能。
英偉達GeForce GTX Titan
該卡迅速成為遊戲基準測試中的佼佼者,尤其是在採用超級採樣抗鋸齒功能的多顯示器分辨率中尤其明顯。但是,Nvidia對OpenCL驅動程序的支持不多,以及最近與AMD的Gaming Evolved計劃相結合的遊戲產品的湧現,不僅抑制了Titan的衝擊,而且還抑制了其高昂的價格。
6月份,AMD通過HD7970GHz版本推出了“我也是”(me too),其核心頻率躍升了75MHz,並進一步提高了50MHz(與Nvidia提供的動態調整版本相對)。GHz版本代表了顯卡可能應該在一月份開始的頻率。GHz版表示顯卡可能應該在一月份開始的頻率。
不幸的是,對AMD來説,這個SKU的目標市場已經決定,標準型號通常能夠通過以更低的價格和更低的核心電壓超頻獲得相同(如果不是更好的話)的性能。AMD隨後推出了HD7970GHz版本和HD7950增強版。
簡而言之,PC顯卡的現在和未來
到目前為止,2013年已經見證了Nvidia和AMD在PC顯卡獨立市場份額上的競爭,隨着遊戲開發和屏幕分辨率無法與集成顯卡的跨越式發展相匹配,這一市場份額正在逐步縮小
2002年初,Intel佔有14%的個人電腦圖形市場份額。隨着其極限顯卡(830至865芯片組)的推出,該公司的份額上升到33%,然後是第三代和第四代DX 9芯片組的38%,現在是超過50%的DX10 GMA 4500系列。將GPU集成到CPU意味着Intel現在要負責60%的PC顯卡的傳輸。
JPR:2012年第四季度GPU市場份額
對新顯卡的需求在每一代產品中都越來越不明顯。大多數遊戲都是基於10年前的API (DX 9於2002年12月上市),因此遊戲中的圖像增強功能已不再集中於GPU負載,而更多地關注於後處理過濾——即使是兼容dx11的下一代遊戲機,這一點也不太可能改變。當光線追蹤被證明是一個難以破解的難題時,依賴光柵化將會繼續。
不幸的是,所有這一切都表明,除非遊戲引擎發生根本性的變革,或者出現價格合理的超高分辨率顯示器,否則硬件發燒友們在未來可做的事情將越來越少。不管未來幾個月或幾年的情況如何,請放心,我們將繼續在TechSpot上回顧即將發佈的GPU。