災備技術是指在一個數據中心發生故障或災難的情況下,其他數據中心可以正常運行并對關鍵業務或全部業務實現接管,達到互為備份的效果,好的災備技術可以實現用戶的“故障無感知”。災備是一項綜合系統工程,涉及到備份、復制、鏡像等多種不同技術,系統建設復雜程度高。因此,一般只有在大型企業和金融行業應用較多。我國在2007年時頒布了首個關于災備的國家標準《信息系統災難恢復規范》(GB/T 20988-2007),是我們在災備建設時重要的參考性文件?,F在的數據中心承載的業務越來越重要,引入有效的災備技術,能減少數據中心發生故障時帶來的損失。數據中心整體災備技術可以分為四種:冷備、暖備、熱備和雙活。
冷備
冷備技術是中小型數據中心或者承載業務不重要的局點經常使用的災備技術。冷備技術的用站點通常是空站點,一般用于緊急情況;或者僅僅是布線、通電后的設備。在整個數據中心故障時無法提供服務時,數據中心會臨時找到空閑設備或者租用外界企業的數據中心臨時恢復,當自己數據中心恢復時,再將業務切回。這種方式數據中心業務恢復的時間難以保證,有時臨時搭建的平臺也可能因為不穩定而再次出現中斷。當然這種方式不必準備大量的空閑設備,維護成本可以忽略不計。冷備技術從啟用到真正可以開始工作需要較高的成本和時間,通常需要幾天甚至一周或者更長的時間。冷備技術算不上是一種真正意義上的災備技術,因為冷備基本上就是數據中心從未考慮數據中心出現故障的情況,一旦出現故障,則是“姑娘上轎才扎耳朵眼”的做法,對于故障毫無預知和提前投入。當然冷備技術的缺點是顯而易見的,其已經越來越無法適應數據中心高要求的發展,逐漸成為一種淘汰的技術方式。
暖備
暖備技術是在主備數據中心的基礎上實現的,前提是擁有兩個一主一備的數據中心。備用數據中心為暖備部署,應用業務由主用數據中心響應,當主用數據中心出現故障造成該業務不可用時,需要在規定的RTO(Recover Time Objective,即災難發生后,信息系統從停頓到恢復正常的時間要求)時間以內,實現數據中心的整體切換。在具體實現上,主備數據中心的兩套業務系統網絡配置完全一樣,備用數據中心路由平時不對外發布。當實現主備數據中心切換時,需要斷開主用數據中心路由鏈路,并連接備用數據中心路由鏈路,保證同一時間只有一個數據中心在線。暖備技術還是手工方式,從知道主用數據中心故障到備用數據中心工作需要有人24小時值守才能完成,工作效果較低。
熱備
相比暖備,熱備最重要的特點是實現了整體自動切換,其它和暖備實現基本一致,實現熱備的數據中心僅比暖備的數據中心要多部署一項軟件,軟件可以自動感知數據中心故障并且保證應用業務實現自動切換。業務由主用數據中心響應,當出現數據中心故障造成該業務不可用時,需要在規定的RTO時間內,自動將該業務切換至備用數據中心。在具體實現上,在主備數據中心均部署GTM(廣域流量管理器),GTM之間同步信息,GTM各自探測本中心的應用業務,根據GTM的服務器狀態判斷應用業務的可用性。當GTM或數據中心鏈路出現DOWN時,將該業務自動切換至災備數據中心。熱備數據中心通過GTM技術實現自動主備數據中心切換。
雙活
通過雙活技術可以實現主備數據中心均對外提供服務,正常工作時兩個數據中心的業務可根據權重做負載分擔,沒有主備之分,分別響應一部分用戶,權重可以是按地域劃分,或數據中心服務能力或對外帶寬。當其中一個數據中心出現故障時,另一數據中心將承擔所有業務。具體實現上,多活技術部署了很多種檢測故障的方式,比如:ICMP Monitor、TCP Monitor、HTTP Monitor,FTP Monitor。還可以實時檢測服務器的運行狀態、服務器負載均衡的情況,即使在沒有故障的時候也可以根據應用業務量在多活數據中心之間調整。多活的最大特點是不會造成數據中心的資源存在浪費,數據中心都承載應用業務運行。不至于出現像熱備、暖備主用數據中心幾乎滿載運行,而備用數據中心卻很空閑的情況。除了雙活技術還有多活技術,多活就是業務在多個數據中心上同時運行,當有一個或多個數據中心故障時,其它數據中心將自動接管所有應用業務。顯然多活比雙活可靠性更高,但投入成本也會高,實現技術也更為復雜?,F在在金融行業、互聯網行業的數據中心都樂于采用多活技術,雖然投入大,但穩定性是這些數據中心優先考慮的事。
下面的表1列出了四種災備技術的特點比對。