IBM最核心的技術-大型機服務器,終於要被國產替代了_風聞
大眼联盟-55分钟前
最近有一則不太被大家關注的新聞,説農行順利完成了分佈式核心工程,穩妥實現了大型機的關停下電工作。

這是銀行業規模最大、涉及客户最多的大型主機切換及下線工作,為我國商業銀行核心系統架構轉型提供了重要借鑑。
看到這些消息,我是很吃驚的,因為IBM最核心的技術,終於要被國產替代了!
很多人並不瞭解IBM大型機,這種被簡稱為大機的服務器十分神秘,深藏在核心的機房中,保存着最核心的數據,運行着最核心的業務,普通人根本沒機會見到它。
大機以高性能,高可用性,高可靠性著稱,它有一套自成體系的硬件和軟件,在服務器市場中鶴立雞羣,價格也非常感人,只有超大型公司才能用得起。
我們拿2017年發佈的z14來看看它的性能指標吧:
CPU主頻5.2G Hz,10個核心
可以配置170個CPU
內存32TB (不是GB!)
最多支持8000個虛擬機
可以橫向擴展到200萬個Docker容器
為什麼要設計出這樣的“怪物般”的機器呢?
因為這個世界上存在着一些關鍵業務,對平台要求極高。
幾年前,調研機構Qualix Group曾有一組數字,服務器宕機1分鐘,平均使運輸業損失15萬美元,銀行業損失27萬美元,通信業損失35萬美元,製造業損失42萬美元,證券業損失45萬美元……
尤其對於銀行業,如果銀行系統中斷1小時,將直接影響該行的基本支付業務;中斷1天,將對其聲譽造成極大傷害;中斷2-3天以上不能恢復,將直接危及其他銀行乃至整個金融系統的穩定。
必須有一種機器,在處理能力、穩定性和安全性上,滿足這些需求,大型機就應運而生。
0****1
硬件
大型機一般都在系統內集成了高程度的冗餘和錯誤檢查技術,防止系統發生災難性問題。
大型機的每個處理器核心都有2個完全的執行通道來同時執行每一條指令。如果兩條通道的計算結果不一致,CPU的狀態就會復原,重新執行該條指令,結果還是不一致的話,一個空閒狀態的CPU將會被激活替代當前的CPU。
獨立磁盤冗餘陣列(RAID)大家都聽説過,可以用冗餘的磁盤和條帶化算法,防止數據的損壞和丟失。

2010年,IBM率先把類似的理念也引入到內存當中,用部分物理內存實現磁盤RAID的功能,叫做RAIM(獨立冗餘內存陣列), 從而實現內存的高可用性。
除了CPU和內存外,其它的元件如內存總線、I/O通道、電源等等,都有相應的冗餘設計。確保系統的高可靠性、高可用性。
即使出錯,許多組件的熱拔插特性也能確保系統的高服務性,在系統運行的同時被更換。
在大機中把很多軟件模塊都被硬件化了,比如硬件壓縮卡、排序指令、向量運算指令,隨機數生成器、加密硬件(AES、DES、TDES、SHA等),非常的霸氣。
大機的處理器用的是自己獨特z/Architecture主機架構。
IBM z14 有170個處理單元(PU),每個PU中除了我們常説的中央處理器(CPU)之外,還有集成固件處理器,集成信息處理器,內部耦合處理器等專用處理器。
這些專用處理器完成特定工作,卸下CPU的工作負載,讓它專注於操作系統和應用程序。

0****2
軟件
大機的操作系統也是獨特的,叫z/OS,看看這復古的界面:

在上面可以運行DB2, IMS(數據庫),CICS(交易中間件),JVM等應用程序,當然,它們也都是為大機定製的。

大機也提供了強大的虛擬化能力,可以創建多個虛擬機實例,每個虛擬機運行不同的操作系統和應用程序:

有意思的是無論操作系統,還是上面的應用程序,它們的收費方式很獨特:用户定期上傳一個報告,根據使用情況來計算軟件費用。
比如MSU(Million Service Units),這是IBM z Systems上一個用於測量處理能力的度量單位,一個MSU相當於系統每秒能夠執行一百萬條指令。
在IBM z/OS操作系統中,許多IBM和第三方軟件都使用MSU來確定許可成本。客户通常需要購買足夠的MSU來覆蓋其應用程序和工作負載的處理需求。
我原來所在的IBM部門,就是專門負責大機上軟件的銷售和費用計算的,業務邏輯很有意思。
0****3
向後兼容性
單獨把向後兼容性拎出來説,是因為對於關鍵業務應用來説,它實在太重要了。
它可以讓大型公司平穩地升級硬件和軟件,而無需重寫或修改現有的應用程序。
IBM大型機的歷史可以追溯到上世紀60年代,那個時候IBM通過System/360統治了計算機市場,後來雖然不斷進化,但是一直保持了向後兼容性。
許多為早期系統編寫的應用程序,在 50 年後仍然可以在最新的 IBM z系統上運行,無需修改。
所以我們看到很多用COBOL寫的恐龍級古老應用:税收、社保、醫療保險、保單、理賠等,在大機上穩定運行了幾十年,並且極有可能會繼續運行下去。

0****4
國產化替代
早些年互聯網企業掀起了一場“去IOE”的運動,利用分佈式技術,把IBM的小型機,Oracle的數據庫,EMC的存儲給“幹掉了”。
但是看了上面的科普,你就會明白,想替換掉大機難度遠超“去IOE”。
更何況大型機主要是銀行、金融等行業在使用,保存着最核心的數據,運行着最核心的應用,比如你的銀行賬户數據,這些不允許有一絲一毫的錯誤。
農行是怎麼做的呢?我去搜了一下,只找到了很少的信息,簡單來説就是用分佈式的核心繫統替代集中式的大型機。
1. 農行分佈式核心系統建設採用的數據庫是TDSQL。
2. 在核心架構上,農業銀行採用了高併發處理能力的分佈式微服務架構,可以同時支持超過8億客户的4011項綜合金融服務。
3. 根據測試數據,系統響應時間提升至毫秒級,交易處理能力由每秒5000筆提升至8000筆。
4. 系統具備了強大的數據備份恢復能力,可以在極短的時間內恢復故障數據,確保客户信息的安全性。
5. 新版分佈式核心系統實現了零停機、零問題、零差錯和零投訴的目標。
6. 這是銀行業規模最大、涉及客户最多的大型主機切換及下線工作,為我國商業銀行核心系統架構轉型提供了重要借鑑。
一般來説,企業推出新產品/解決方案,實際的效果要在宣傳的效果上打個折扣,我相信大型機的關停下電工作不會像表面上看起來波瀾不驚,一帆風順,有知道詳情的同學可以在評論區聊聊。
但是農行把這件事搞成了,這本身就是一個巨大的突破。
這不由得讓我想起了IBM在中國的命運,20年多前,IBM的大型機,小型機,x86服務器可謂風頭正勁,五大品牌軟件WebSphere、Db2、Lotus、Tivoli、Rational在企業軟件市場被眾人追捧,再加上諮詢服務業務,IBM在中國真是賺得盆滿缽滿。
IBM在中國負責研發業務的公司叫做國際商業機器(中國)投資有限公司,下設中國研究院(CRL),中國開發實驗室(CDL)和IBM中國系統中心(CSL)等機構,薪資高,活兒輕鬆,人性化管理,是諸多名校畢業生趨之若鶩的地方,
互聯網浪潮一浪接一浪打來,IBM被動成為“去IOE”運動中的一員,硬件和軟件逐漸失勢,就剩下大型機還在苦苦支撐。
2021年CRL關閉,2024年CDL和CSL關閉,2025年國際商業機器(中國)投資有限公司停止運營。
只剩下一個負責銷售、市場推廣的IBM(中國)有限公司了,如今銀行連大型機也要幹掉了,它又能持續多久呢?
一個時代真的落幕了。
碼農翻身