現代的企業已經變得越來越依賴數據處理中心進行業務處理,對于如金融、電信這類的電子化程度很高的行業,對其數據處理中心的完整性和可用性提出了很高的要求。在企業電子化進程中,新一代的業務處理系統大多采用數據集中存放、集中處理的大集中先進模式替代原有的多分區多中心、數據分散式存儲和處理的方式,這種新模式對于加強企業帳務監管、數據共享、新業務的開發和降低計算中心的運營成本有極大的好處。然而這種大集中模式對系統穩定性提出了更高的要求:一旦電腦中心災難發生,受到影響的將是全國或全省范圍的全部分支機構和幾乎所有業務,這必將對企業造成巨大的經濟損失,客戶流失,聲譽受損,甚至有可能引起社會的不安定。
據調查顯示,一般公司如果在災難過后兩個星期內無法恢復完全信息系統的使用, 75%的公司業務將會完全停頓,43%的公司將在也無法開業。對于依賴信息系統進行日常運作的金融、保險、銷售和制造業而言,他們對于系統停機的最大可忍受時間分別是2天,5.6天,3.3天,4.9天,而金融業在此期間所遭受的損失將高達日營業額的50%.
各個企業不斷認識到災難防范保護的重要性。某些大型金融機構之所以能夠在兩天內恢復營業,其主要原因是它們不僅象一般公司那樣在內部進行數據備份,而且在數英里外的新澤西州的備份數據中心也保留著數據備份。這些備份是通過數據備份軟件和數據復制軟件進行的。采取這種措施后,一旦工作現場發生意外,企業可以立即使用另一套數據。華爾街的金融機構重新對災難恢復的步驟做了重新的評估,并且認識到災難恢復只是技術手段之一,開始強調 Business Continuity - 業務連續性而不僅僅是 Disaster Recover - "災難"恢復。因為過去的"災難"恢復計劃沒有強調全局性及對整個市場的影響。而如何維持業務連續運作成為企業運營風險評估中至關重要的一環。事實證明,只有數據存儲備份制定完備、持續可執行的業務連續計劃才能為人們提供萬無一失的數據安全保護。
災難備份系統的關鍵技術
為了確保企業應用所需要的 99.999%的正常運行時間,存儲設計必須在每個級別考慮高可用性因素。所有企業都應指定一個災難恢復計劃,這個計劃需能夠解決可能會擴大的問題,并且在發生大規模中斷時無縫地轉移到某個備份中心。除了磁帶備份以外,企業通常需要在它們的容災備份計劃中,使用復制技術來遠程復制整個數據中心。因此,恢復計劃現在除了從磁帶恢復數據以外,還應當包括在發生故障時將數據中心轉移到一個遠程備份中心。災難可能由多種因素導致,并且很難預測。下列列出了一些主要的因素:
● 設備故障
● 應用故障
● 人為錯誤
● 自然和非自然災害
每個企業必須都必須找出所有需要保存、以實現連續訪問的關鍵性數據,為從災難中恢復做好充分的準備。必須進行業務影響和風險分析,以確定對企業最重要的地點、職能或者應用。一個遠程數據中心——即主數據中心的鏡像,可以用于在發生大規模災難之后繼續提供完整的訪問。很多容災備份解決方案都需要在將數據備份到磁帶的同時,保存數據的實時鏡像。復制技術還可以提供適用于不同應用需求的選項。
災難備份解決方案是在主生產中心數十至上千公里范圍內設立災難恢復中心,然后通過網絡設備將主生產中心和災難恢復中心連接起來,以實現實時的數據同步。災難備份解決方案以網絡為基礎,在主數據中心存儲網絡與遠程備份中心的存儲網絡之間采用光纖通道交換機來實現連接。生產中心和災難恢復中心運行同樣的系統,包括操作系統、基礎數據庫和應用軟件,并配備數據復制管理器。假如生產中心發生災難,不能再工作,這時備份中心會將業務數據及時恢復到備用服務器上,并自動將業務切換到備用服務器,然后實現業務的遠程切換,恢復系統不間斷地運行,在備份中心實現應用的異地備份恢復,這個過程需要很短的時間完成。
災難備份系統的關鍵技術包括網絡技術、存儲技術與解決方案。從網絡層面而言,無論是 TCP/IP網絡還是光纖網絡,都已經在世界各地得到了廣泛的應用;在存儲技術方面,RAID、磁盤等基礎技術已經成熟,磁盤陣列的應用已經遍布 每一個角落;存儲網絡(SAN)在全世界各地得到了全面的認同,同時正在向開放性存儲網絡方面發展。數據遠程復制應用提供了基于主機或存儲設備的數據復制、在線和實時的本地數據復制,通過光纖通道SAN經過波分復用設備(DWDM)到同城距離、FCIP至遠程的復制,支持同步和異步的容災鏡像,支持全面的磁盤同步,當出現很大的災難時,確保這些數據在另外一個地點的在線復制是可用的,以支持盡快恢復在另一臺機器上的關鍵處理。
同時容災備份對數據中心中的存儲網絡提出了更高的要求,對原有的各個應用單獨的存儲系統形成的 SAN“孤島”整合至統一的交換架構中,實行統一管理,統一分配空間,同時通過虛擬SAN(VSAN)的功能把各個應用系統邏輯的分隔起來,減少相互之間的影響,提高從主機系統到存儲系統的高效管理功能。
現今主要使用的遠程復制應用,即基于主機的軟件和基于存儲系統的專用應用技術。常見的遠程復制方案有 IBM的FlashCopy, PPRC(對等遠程復制) ,eXtended Remote Copy (XRC)擴展遠程復制等。
基于存儲系統的同步 /異步遠程復制應用
基于存儲系統的同步 /異步遠程復制應用,具有在主副存儲子系統之間同步數據鏡像的能力,而不需要主機環境。主機軟件用來啟動、監控并控制遠程復制操作。
在遠程復制設置中,本地與遠程存儲系統由光纖通道相連接。當數據安全寫入到第二個存儲系統的緩存,并且 個存儲系統接受到確認命令后才將主卷的更新數據傳遞給應用主機。這樣做的優點是:遠程卷可以總是與生產卷實現同步或最少時間內達到同步,由于 個卷能夠保證數據連續更新的完整性,并且不會因遭受災難而丟失數據,第二個卷也總是以的順序更新。因而,可以保證數據是最新的,并且可靠,應用的重啟也只需很少的延時。
同步恢復
同步恢復是真正的關鍵所在。當生產卷發生故障時,備份卷停止接受數據而馬上運行使業務得以繼續。但是,當主生產系統恢復起來時,必須將兩個卷上的數據庫恢復為同步的記錄,而不是系統停機時的記錄。
另外,同步在每天的操作中是必不可少的,一些公司把災難恢復當成了一項日常工作來完成。這就意味著公共數據中心和數據備份中心的變動管理和版本控制能夠很好地聯系在一起。比如,對關鍵應用系統進行了內部升級從而影響到了需要恢復的數據。除非備份站點知道有這樣的變化,否則你不得不花費更多的時間努力去找災難引起的變化。
利用 SAN進行容災備份的主要優勢
企業已經開始部署基于專用光纖通道的存儲網絡,以解決共享局域網的性能瓶頸問題。存儲網絡的其他優勢包括:
◆提高數據可用性
存儲網絡基礎設施可以為存儲子系統(包括磁盤和磁帶)提供多條路徑,以提高可用性和可擴展性。客戶可以部署經過改進的災難恢復解決方案,尤其是在開放的系統環境中更是如此。在存儲網絡模式中,數據可以在兩個存儲子系統之間建立鏡像連接,而無需使用價格昂貴的服務器和局域網資源。將備份流量移植到一個存儲網絡會減少每個域中可能出現的故障,并可以防止備份受到局域網數據流量的影響。
◆降低總體擁有成本 (TCO)
存儲整合讓多個服務器可以共享相同的存儲設備,減少數據中心所需要的磁帶庫的數量。整合還讓用戶可以更加方便地重新分配所有服務器中未被使用的容量,從而提高資源的利用率和使用效率。客戶可以部署一個企業級備份 /恢復解決方案,從而降低由連接到服務器上的磁帶驅動器所帶來的管理和維護成本,從而節約大量的資金。管理每個組件的成本會因為手動流程中經常出現的人為錯誤而大大增加。很多機制能減少這些錯誤,例如遠程磁帶庫,即通過部署自動備份系統,避免在兩地間手工運輸磁帶。由于不需要運輸那些用于恢復的數據,這種機制可以避免由于操作不當而導致的損壞,降低數據流失的可能性,以及提高數據的可用性,從而提高系統的可靠性。存儲網絡將備份資源整合到一起,供每個服務器使用,同時降低由于某一個備份設備發生故障而造成的影響。總體擁有成本(TCO)還可以通過共享備份資源的增強可擴展性、可用性、性能和可管理性而得到大幅度的降低。
◆靈活的備份選項
很多金融企業目前都延長了營業時間和提供自動化金融業務的 24小時服務,并支持來自 各地的客戶,這推動了對于全天候運營的需要。現有的兩種備份選項包括熱備份和冷備份。冷備份是指在備份期間應用數據停止更新。而熱備份是指在系統進行備份的過程中,應用仍然繼續更新數據。
◆熱備份技術 (例如寫時復制和分離鏡像快照)
利用在某個特定時刻創建的原始數據鏡像,在不影響應用正常工作的情況下進行在線備份。寫時復制和分離鏡像選項都會將數據區塊復制到未被使用的存儲上,以創建某個時間點的復本,大多數數據庫都支持這兩種技術。寫時復制和分離鏡像選項可以管理物理數據區塊的映射流程,以及它們與某個文件系統或者數據庫的關聯。 IBM企業存儲服務器(ESS)或者模塊化存儲服務器(MSS)中的FlashCopy均支持這兩個選項。
災難備份和恢復方案
在災難備份和恢復的解決方案中,基本可分為兩種模式: (一)可實現同步數據復制、切換時間快速的同城災備模式;(二)以異步為數據復制手段、切換時間較長但防范災難的范圍更廣泛的異地遠程災備模式。但這兩種模式不是相互排斥的,而是滿足不同災難防范級別的分類。隨著對業務連續的要求越來越高,許多大型企業把這兩種模式混合實施,以建立多級的風險防范標準。
在建立了同城的災備和不同城市之間的遠程災難備份之后,不同城市的災難備份中心所能實現的功能,是同城災備中心所實現的功能的全部,但是時間要求可能會稍微寬松一點。比如在災難發生之后要求兩個小時之內必須把同城的災難備份運行起來,而在做異地災備的時候,這個時間將被允許延長到 12小時或者是6個小時。由于時間要求越短,投入需要越大,企業要找到一個最佳的比例關系。
同城容災備份解決方案
建立同城災備中心的最大的優勢是可以利用在同城范圍,即 60至100公里以內可以租用裸光纖來實現兩個數據中心之間的互連。隨著裸光纖的租用價格越來越便宜,使企業可以按照業務的需求來部署兩個數據中心之間的帶寬,而不是按照租用的帶寬來部署業務。這兩者的差別使前者可以按照真正的業務需求及未來的擴展來規劃企業級的業務連續方案,而不是僅僅限制在幾個核心的應用系統。有了高帶寬在兩個數據中心之間的SAN相連接,使數據的同步復制成為了可能,可以實施高速數據復制和恢復的業務連續策略。
由于 SAN 具有很大的靈活性,允許將存儲設備與服務器連接在一起,所以它也方便了災難備份解決方案作用的發揮。使用SAN 基礎結構,在一個城域范圍內實現災難恢復備份的具體要點如下:
● 在常規情況下,一個企業可以在兩個交換機之間通過雙互聯交換鏈路 (ISL),把相距10公里以上的兩個站點以單模光纖連接起來,ISL是使用E_Port進行連接的,E_Port是個把兩個交換機連接成一個架構的擴展端口;
● 當兩個站點之間的連接端口數量增加或同時有其他的連接接口如 GE/ESCON/FICON等需求時,使用DWDM是一個非常靈活的方式,同時降低了對裸光纖的依賴和物理線路的故障切換難度,提高了租用光纖的利用率和管理的方便性;
● 可用點對點的方式或者環路方式配置 DWDM設備。一旦主鏈接不能訪問,Cisco的DWDM設備ONS15540/15530均支持自動失效轉接到冗余物理鏈接。在環形拓撲結構中,節點之間僅需要一條鏈接。如果鏈路失效,激光將朝相反的方向傳輸來達到目標;
● 在光纖通道交換機和 DWDM設備之間的ISL連接提供了更大的帶寬(達到多個2 Gbps,而非以往的1 Gbps的限制),在端口匯集方面,SAN交換機可以提供多達16端口,32Gbps帶寬的ISL匯集,稱為PortChannel;
● 當在 SAN環境里實施虛擬SAN(VSAN)時,可在ISL中把多個VSAN同時傳輸(Trunking)至遠程站點,則ISL使用TE_port進行連接。
遠程容災備份解決方案
當需要更長距離的備份時,更多的連接線路會是 SDH或IP骨干網,SAN 可以使用網關和 WAN 連接。在這種遠程連接環境下,盡管備份的數據量有時可能很小,但因為數據傳輸的時延比同城以裸光纖連接的時延要大,會造成系統的性能嚴重下降,同步復制的方案較難實施,因此絕大部分企業采取了異步數據復制技術。異步數據復制帶來的是具有一定的時間差異,可能是以秒計算,也可能是以分鐘或小時計算的,在做異地災難切換時,需要在應用上以流水交易記錄來確保數據的完整性。
為了支持在遠距離上傳輸光纖通道,任何一端的擴展連接上的光纖通道端口必須支持高等級的緩存-緩存信用點 (Buffer-Buffer Credit)。B2B信用點讓發送端有權發送一個數據幀。當數據幀到達遠端時,發送端會再發送一個數據幀。但是,如果距離或者相關延時過長,用戶可能得到有限的有效帶寬,這是因為損失了等待確認的時間。因此,在較長的距離上傳輸光纖通道的關鍵是為發送端提供大量的B2B信用點。這種方法讓發送端可以在等待返回確認信息的過程中,不斷地在發送通道中裝滿大量的數據幀。根據光速計算,通常情況下每兩公里距離就需要一個B2B信用點,以避免限制帶寬。
使用 SAN 基礎結構,在遠程范圍實現災難恢復備份的具體要點如下:
● 在常規情況下,一個企業可以在兩個遠程 SAN之間通過FCIP或FC over SDH的方式互連,該連接方式在光纖通道環境里是透明的,因為IP或SDH的封裝均不會破壞光纖通道的幀結構;反之,FC的幀及內部的數據對IP或SDH網絡也是透明的,IP或SDH網絡只是作為傳輸線路的封裝,不會對要傳輸的數據做任何修改,這可以在IP網絡上同時實施IPSec封裝后實現SAN遠程傳輸的安全保障;
● 兩個 SAN之間遠程連接的FC端口使用E_Port的端口類型,在FCIP或FC Over SDH網關設備上的端口使用 B_Port(Bridging)的端口類型;
● 在 FC端口上設置較大的B2B信用點值,使FCIP的傳輸可以達到最高的有效帶寬。