阿里雲數據中心網絡關鍵技術獲中國電子學會技術發明一等獎
近日,中國電子學會正式頒發“2024 年中國電子學會科學技術獎”,由阿里雲聯合清華大學、中國移動(蘇州)軟件技術有限公司共同申報的 “性能可預期的大規模數據中心網絡關鍵技術與應用” 項目榮獲中國電子學會技術發明一等獎。

以院士專家組成的鑑定委員會認為:“該項目技術複雜,創新性強,具有完全自主知識產權,整體技術處於國際領先水平”。
針對數據中心網絡面臨流量負載不均勻、易擁塞、用户之間帶寬干擾大、突發流量尾部延時高、網絡故障反應速度慢等傳統侷限,該項目充分利用數據中心網絡設備可編程等特性,採取端網融合的新型網絡架構,包括高性能網絡通信庫、RDMA多路徑網絡傳輸、精細化擁塞控制等,實現了性能可預期的數據中心網絡,顯著提升了數據中心網絡的服務質量保障能力。

項目的核心發明在於把傳統數據中心網絡從服務器和交換機網絡的“端網解耦設計”變成了“端網協同融合”,將網絡性能在帶寬、延遲以及故障發生時的恢復進行了“可預期”創新,分別實現了用户高帶寬從“無法保障”到“嚴格保障”的突破;實現了突發流量控制效果從“時延無界”到“時延有界”的突破;實現了流量恢復時長效果從“秒級別恢復”到“毫秒級別恢復”的突破。
阿里雲智能研發副總裁、基礎網絡負責人蔡德忠表示,“傳統雲計算中,每個網絡數據包傳輸就好比是坐出租車去火車站,只要盡力而為抵達即可,但AI時代,智能算力及高性能存儲等服務對網絡帶寬、延遲要求會非常高,需要確保大帶寬和‘可預期’時間必須到達,如同需要開發“地鐵”的能力來替代出租車一樣。”
據悉,性能可預期網絡的成果在面向阿里雲塊存儲產品應用中,將網絡尾部時延降低了50%,幫助阿里雲PAI-靈駿產品把智算萬卡集羣有效算力提升到了98%。
目前,“性能可預期的大規模數據中心網絡關鍵技術與應用”項目成果已產出共計36篇國際頂級會議如 SIGCOMM、NSDI 等會議論文,並通過應用在阿里雲計算平台,支撐政務、教育、醫療、交通、農業、電子商務等重要行業應用,保障了 2022 北京冬奧直播 、“雙十一”購物節、“雲端抗疫”等重大社會活動的網絡性能和穩定性。