新聞源 財富源

2025年01月25日 星期六

復盤支付寶緊急恢復的技術真相

  • 發(fā)布時間:2015-05-29 16:36:39  來源:北京晨報  作者:吳玉征  責任編輯:畢曉娟

復盤支付寶緊急恢復的技術真相

  怎么看支付寶在光纖被挖恢復中的技術表現(xiàn)?

  5.27日下午17時許,支付寶被反映故障;18時許,支付寶通過官方微博給出回應,解釋是因為電信運營商光纖被挖斷。19時許,支付寶服務恢復正常。22時許,支付寶官方微博正式回應復原了整個事件。

  圍繞整個事件有很多討論,討論的中心最主要的有兩點:“為什么光纖被挖斷,會造成整個機房癱瘓”、“為什么支付寶的業(yè)務恢復用了兩個小時”。其中,第一個問題,應該是電信運營商的光纖災備出現(xiàn)問題。

  第二個焦點問題“為什么支付寶用了2個小時恢復了業(yè)務”,一堆所謂“業(yè)內人士”眾說紛紜。其實,這應該是中國金融史上,首次完全意義的災難成功切換案例。在此之前,中國金融行業(yè)投入重金建設的災備系統(tǒng)基本上有這么兩類用武之地(一般來說,增建一個災備數(shù)據(jù)中心的建設成本是單數(shù)據(jù)中心成本的1.1-1.2倍):

  1.計劃內災備切換演習,全副武裝、如臨大敵、不開一槍、全身而退。

  2.因系統(tǒng)升級造成的被動災備切換,例如2013年鬧得沸沸揚揚的某行DB2升級造成的系統(tǒng)回滾切換。萬幸的是,這是發(fā)生在凌晨的系統(tǒng)升級故障,當時沒有實時交易發(fā)生;某行也準備了各種應急預案,只是恢復的時間超出了計劃,網(wǎng)點推遲了一個小時開業(yè)而已;而另一家西部的區(qū)域銀行就沒有這么強的科技實力了,同樣是DB2升級失敗,系統(tǒng)恢復時間用了37小時40分鐘(37小時啊,吼吼,坐火車都到莫斯科了)

  像昨晚支付寶這種突發(fā)情形下的災備切換還真是頭一遭,而且居然成功了。支付寶雖然運氣差了點,但技術能力還真不是一般金融機構能拼的。

  在支付寶微博答復中,有一個新名詞——“異地多活”。在傳統(tǒng)了災備方案中,一般提的都是同城災備、異地災備、兩地三中心。與傳統(tǒng)的災備技術相比,異地多活的特點是:在不同地點的數(shù)據(jù)中心都可以同時支持業(yè)務,而且每個地點發(fā)生的交易都是真實業(yè)務流量,而不是常見的一主一備,如果主中心沒有問題,備份中心永遠都是“備胎”。

  這種多活數(shù)據(jù)中心的好處是:因為所有的數(shù)據(jù)中心都在支持交易,所以能節(jié)約IT成本;另外傳統(tǒng)方式中備份系統(tǒng)都不在真實的交易活動狀態(tài),所以很難判斷它的狀態(tài)到底怎么樣,在出現(xiàn)問題時,都不一定敢切過去。

  大規(guī)模的“異地多活”,據(jù)說目前全球除了阿里能做到,也就Google和Facebook實現(xiàn)了,還是非金融類的業(yè)務。中國銀行業(yè),只有某國有大行在去年6月份實現(xiàn)了上海同城兩個數(shù)據(jù)中心的雙活,是“同城雙活”,還沒有實現(xiàn)“異地多活”,而且在災難真正發(fā)生時,切換效果如何,還有待驗證。

  昨天是支付寶“異地雙活”第一次真刀實槍的上戰(zhàn)場,支付寶因為要滿足金融行業(yè)的很多要求,特別是對交易一致性、數(shù)據(jù)完整性等方面的要求,目前還處于小范圍試用階段,沒有全體上線,例如昨天杭州機房癱瘓后,有一部分流量跑在支付寶異地機房。因此,在昨天支付寶2小時整體恢復之前,并不是所有交易都停止的,并且基于“異地多活”技術,實現(xiàn)了這部分用戶的無感知切換。

  對另外沒有通過“異地多活”技術切換的交易流量,支付寶選擇了最穩(wěn)妥的做法:首先進行了完整的數(shù)據(jù)校驗,保證所有客戶的客戶信息、賬戶信息、資金信息、交易信息都是正確的,一切確認完成后,才重新“開門迎客”。這個過程耗時了一個多小時,不過相比較支付寶數(shù)億客戶所對應的校對數(shù)據(jù)量,這個時間還是可以接受的。

  側面印證切換效果的是:被挖斷的光纖修到半夜才恢復,而支付寶的業(yè)務在晚間19點多恢復正常。

  客觀來講,支付寶的這次表現(xiàn),是一次說不上完美、但很成功的真實災難切換,也是中國金融史上第一次在完全突發(fā)情形下,成功完成切換的真實案例。整個切換過程中,沒有一條客戶數(shù)據(jù)丟失,也體現(xiàn)了金融級的數(shù)據(jù)高可用要求,雖然切換的時間對用戶來說長了點,但“就像是一次跳水,整體完成的質量很高,只是落水時水花沒有壓好,水花稍微大了點。”

  估計經(jīng)過這次折騰,支付寶全盤推進“異地多活”的速度會加快,可能在今年七八月份實現(xiàn)。真正實現(xiàn)異地多活后,阿里在金融領域所能提供的解決方案,安全性和用戶體驗將比傳統(tǒng)IT的異地災備技術提升一個很大的量級。

熱圖一覽

  • 股票名稱 最新價 漲跌幅