作業幫董曉聰:發力即時音視頻雲原生改造,推進無邊界雲計算
【環球網科技綜合報道】“為什麼作業幫要在行業內率先做雲原生和多雲架構?”近日,在iTechClub華北區第五屆互聯網技術精英高峯論壇上,作業幫基礎架構負責人董曉聰講述了作業幫的雲原生歷程,並圍繞雲原生架構和多雲架構兩大解決方案進行深入延展。
“作為一家教育科技公司,作業幫對穩定性的要求很高。”董曉聰指出,之前在傳統的互聯網公司,大家沒法接觸到用户,對用户的感知更多的是一個個UV、PV的數字。“而我們通過直播等形式面對的是一個個學生,每一次穩定性的事故都可能會影響他們的學業,所以對穩定性的要求只能更高。”
“當出現單機、單機羣、單雲故障的時候,我們的架構能否很好的應對這些衝擊?當代碼變更導致業務中斷的時候,我們能不能快速止損?除了穩定性外,成本和效率也面臨着諸多的挑戰。”董曉聰表示,作業幫選擇的道路是通過雲原生來解決上述的問題,用基礎設施接管業務當中大量非功能的邏輯,以此來實現彈性、可觀測性、韌性、自動化、可持續等相關一些特性,通過雲原生的架構解決了部署層面的問題,然後在此之上實現了一套多雲間自由遷移的能力。
董曉聰表示,截至目前,作業幫已經完成了70%左右業務的雲原生改造,處於業內領先水平。同時作業幫在彈性擴縮、serverless、在離線混部等方面都有廣泛的應用,CPU調度、GPU調度、多雲管控等方面有創新型專利產出,解決了開源社區的諸多問題。
在對多雲架構的分享中,董曉聰首先分享了作業幫解決多雲架構面臨的兩大挑戰。首先在雲間互通的專線選型上,作業幫沒有選擇裸纖的方案,而選擇了供應商的組網方案。董曉聰表示,選擇組網方案,一方面因為有一層供應商的保護能力,另一方面是組網有一定彈性擴縮的能力。而在此之外,公司自身也做了雙鏈路。
“多雲還會面臨着一個很大的挑戰,就是計算資源的管理。”董曉聰説,單個雲下就有十幾種、幾十種機型,多雲會直接導致double、triple的工作量。這塊作業幫對一些場景進行了建模,標準的負載型機器、專門的大內存、大存儲機型,然後再結合網絡的安全域,制定具體的業務套餐。
“完成了上面的網絡、計算的問題之後,我們構建出自己的多雲架構。“董曉聰稱,用户通過DNS分流,落到不同的機房。常態下的業務應用之間的請求是單雲閉環,不會去跨雲通信。當從機房或者專線出現故障的時候,可以通過DNS/DoH把流量切到主機房上。當主機房出現出現故障的時候,還是同樣的流量調度,除此之外,還要將從機房的數據存儲,DB、Redis等進行提主,以此來實現了多雲的穩定。
“完成雲原生、多雲改造之後,我們的穩定性,從之前的99.95%提升到了99.99%,機器的故障時間的影響也從分鐘級別縮短到秒級。部署的質量也得到大幅度提升。”董曉聰透露,接下來,作業幫的發力重點會在即時音視頻的雲原生改造,推進無邊界雲計算,促成雲邊端應用一體協調。