山西通信集中計費容災系統建設
侯存恩 2004/05/14
隨著計算機網絡技術的日新月異以及計算機系統處理能力的飛速提高,網絡帶寬和系統處理能力已經不再成為制約企業(yè)IT化集中建設的因素。同時,隨著企業(yè)信息化數據共享的需求日益迫切,全面解決企業(yè)中廣泛存在的"信息孤島"問題,建設集中的計算機業(yè)務系統的需求也日益迫切,集中化已經成為當今系統建設的一個潮流。
針對電信企業(yè),建設全省集中的計費帳務系統已成為大勢所趨。在當今電信運營企業(yè)以客戶服務為中心、以靈活方便的用戶服務政策為經營發(fā)展重點的形勢下,計費帳務系統集中化建設為之提供了堅強的后臺支撐保障。集中化的企業(yè)計費數據一方面為客戶提供了綜合的、全省性的、全業(yè)務的資費政策,另一方面也為企業(yè)自身提供了寶貴的數據資源,為數據挖掘和經營分析提供了技術保障,為企業(yè)全面提高經營管理水平,更好地服務電信客戶起到了舉足輕重的作用。
正是因為建設集中的計費系統才帶來了容災系統建設的問題,隨著企業(yè)系統集中化的建設,企業(yè)對系統依賴程度也大幅度提高,對系統可用度要求日益苛刻,針對集中系統建設應用級容災系統已經成為建設集中系統中的一項不可缺少的內容。建設應用級容災系統的思想也是近幾年發(fā)展起來的,以往并沒有太多的 經驗可以借鑒,山西通信在2001年開始建設全省集中的計費帳務系統及容災系統,起步較早,也積累了一些經驗。下面針對山西通信容災系統建設的幾個方面作一個概述。
一、 集中方案的提出背景
山西通信全省集中計費及容災系統建設的提出是在2000年9月在詳細討論了全省各本地網計費現狀及相關廠商的軟硬件特點提出的,方案充分考慮了當時電總新的計費規(guī)范和相關軟硬件的新的技術特點,在較高的系統建設水平上提出的設想。通過建設集中系統可以有效地解決各本地網之間用戶量以及對系統需求方面的差異,使我們可以采用當今高端技術與設備來建設計費系統;另一方面,采用全省集中的計費系統,在業(yè)務管理、資費統一、機房場地、系統維護等方面都有十分明顯的優(yōu)勢。雖然采用集中方案后帶來了一些新的問題與挑戰(zhàn),比如,集中系統的安全運行需要一個堅強的軟硬件支持、需要建設一個高效、安全、方便、綜合的應用級容災系統作保障、需要建立全省標準化的業(yè)務流程和管理模式、需要依靠高質量的容災系統軟件、應用軟件、完善的系統架構和全省堅強的計費業(yè)務管理。
二、 集中計費容災系統的容災目標
在建設全省集中的計費帳務系統中,容災備用系統的建設起著舉足輕重的作用。建設全省集中的計費帳務系統在中國電信固網運營商中史無前例,而且建設容災備用系統在國內、國際的大型計算機系統中也是最近幾年才逐步采用的方案,因為應用級容災技術的高難度和復雜性,其中絕大多數僅是完成數據級容災功能。數據級容災是建設容災系統的基礎,但對于同步數據的可用性驗證以及利用容災備用系統減輕主運行系統的負擔等方面存在不足;同時在系統出現嚴重故障和災難時,也無法保證應用系統的正常運行。因此對于山西通信全省集中的計費系統來說,只有建設應用級容災備用系統,才能滿足集中計費帳務的業(yè)務需求。
根據集中計費系統的特點以及容災系統軟硬件的實際狀況,我們定出了山西通信集中計費帳務系統的容災指標。
1. 災難的定義:
目前凡是主中心系統突然失去70%以上的業(yè)務運行能力或全系統業(yè)務停止可能超過1天以上的故障認為是災難。
2. 切換時間指標(RTO):
從決定進行切換到備用系統完全運行之間不超過30分鐘的目標。
3. 容災系統數據保護的指標(RPO) :
在一般情況下應做到不丟失數據,但相應可能會增加恢復時間,因此數據損失越少,恢復時間將越長,因而系統可用度將越低。
容災系統一開始提出的初衷主要是備用,即出現主運行中心系統不能正常運行時,由容災備用中心完成系統功能。但在具體建設容災系統時將面臨我們具體要容什么災的問題,這將直接影響到容災系統機房的選址問題。對于集中計費系統,容災系統不應當針對自然災進行設計,而應當根據容災設備的技術特點適當 考慮地理因素進行建設,避免產生不必要的網絡投資以及給后續(xù)維護帶來麻煩。針對容災系統要容什么災,概括如下。
1) 自然災:主要是地震、洪水、火災或供電故障等外界因素造成的災害,出現機率微乎其微。
2) 硬件災:主要是系統硬件系統大面積損壞造成的整個系統癱瘓,目前在硬件系統的建設中有眾多的技術可以保證硬件系統具有極高的可靠性及冗余故障的能力,山西通信使用了IBM最高端P680服務器,并采用了雙機集群,存貯設備使用EMC專業(yè)存貯服務器Symmetrix8730,并采用Raid0+1技術。但畢竟在應用數據上還是單點。在網絡的設計中采用多路由的冗余技術,因此在硬件上出現大面積故障或存貯設備出現故障的可能性不太大,但這類型的故障出現也是正常的,對系統運行將是致命的,要提高其可靠性還得要增加設備,并最終建設容災系統。
3) 軟件災:主要包括操作系統、數據庫、中間件、應用軟件、人為誤操作(包括黑客行為)造成的整個系統癱瘓,出現的可能性比前兩種要多許多,人為誤操作是最容易出現的災害,我們的系統高度集中,數據庫、應用軟件兩者的配合現在還無法達到嚴格的安全級別,網絡及操作系統及數據被攻擊的實例屢見不鮮。
對于我們的計費系統,主要容的是后兩種災。如果沒有這兩種考慮,我們沒有必要花巨資建設容災系統。這兩種災是我們建設高級別容災系統(應用級容災)的原因所在。
三、 建設省集中計費的容災系統所起的作用
山西通信建設容災備用系統的方案經過近一年的討論以及相關專家、廠商的論證,認為目前的容災方案成熟可行,和分散方案與建立全省三大區(qū)方案相比,節(jié)約了資金投入。在容災方面也考慮到容災系統的特點,進行了合理的設備配置,將根據網間結算系統的特點將其移到容災中心運行;容災中心基于EMC的BCV以及SRDF技術對Symmetrix8730存貯服務器的磁盤不使用Raid保護等,節(jié)約了投資,使容災系統發(fā)揮最大作用。容災備用系統在整個系統所起的作用是多方面的,它的作用決不僅僅限于容災作用,其建設為集中系統的安全實現提供了堅強的后備保障基礎,還為系統建設的前期、中期、后期提供多方面的支持,容災系統主要作用表現在如下方面。
1.完成運行數據的可靠實時復制,確保應用所有數據的安全。
2.完成應用軟件及數據的脫機備份,從根本上將備份工作從生產系統中解放出來,提高了備份效率,降低了備份工作對主運行系統的性能影響。
3.利用容災備用系統的可分離生產備份數據(BCV)可以從很高級別上解決數據級容災中存在的備份數據可用性不能進行驗證的問題。同時,可以進行應用一級的數據備份與恢復(EXP&IMP等)。
4.容災系統不應僅僅是容災、備用和備份,它還可以完成一些在主中心難以完成的事情,并可以降低主中心的運行負荷。這主要是將利用空分和時分的原理將主中心的部分業(yè)務(時效性不十分強,但最消耗資源,如查詢、統計、數據挖掘等)分流到容災備用系統上運行,當容災中心有問題時移回主中心工作。
5.作為每個本地網開通前的驗證場所,同時也為測試提供最貼近的應用數據真實環(huán)境,最大程度保證了每個本地網進入集中系統時的可靠性,降低對主系統帶來的風險。
6.在計費系統以后的擴展中,不便在主中心建設的系統,可以在容災備用系統(準確點應叫作輔系統)上建設,可以利用主系統存貯設備進行數據級容災,因此,建設一個完整的容災備用系統對以后系統的擴展具有極大的靈活性。
7.以后針對計費數據分析系統(數據倉庫技術)的建設可以十分容易地擴展容災備用中心的硬盤后建成,而不用另建系統或在主系統上進行擴容,在主系統再建立數據挖掘系統將是一個十分危險的事情;另建設一個系統效果一定不好,因為這些系統的基礎數據基本都是計費系統數據,大數據的遷移很困難,實時性無法保障。
8.應用級容災系統從最高水平上達到計費業(yè)務的連續(xù)性。
9.容災備用系統與主系統在空間的分割可以有效地防止火災、電源故障、大部分自然災害和全部的硬件、軟件故障引起的業(yè)務停頓。
四、 建立容災系統后要重點注意的事情
1.建設容災系統后對容災系統的運行效果和狀況的了解至關重要,隨著系統集中化程度的提高,數據同步以及備份的復雜度也在提高,因此要加強對數據可用性的驗證工作,并定期進行容災系統的模擬演練。
2.建立完善的容災操作流程,在容災模擬演練中逐步完善,確保在災難發(fā)生時各項操作做到有條不紊。
3.應用級容災更大要求業(yè)務的連續(xù)性,因此在建設容災系統時單純依靠硬件及存貯的數據同步與復制功能還遠遠不夠,多種類、多級別、自動化的備份是提高容災水平的一項重要措施。
4.盡量減小主系統與容災系統、生產數據與備份數據之間的耦合度和關聯性,在數據恢復和災難切換方面要注意人的因素,制定切實可靠的針對不同情況的數據恢復及容災切換方案。
(作者為山西省通信公司計費結算中心高級技術經理)
作者供稿
原文刊登于中國計費網(www.billingchina.com)
相關鏈接:
临沭县|
宁城县|
车致|
梁平县|
旌德县|
泗阳县|
兴山县|
榆林市|
扎兰屯市|
吉林市|
景东|
尼勒克县|
大荔县|
简阳市|
什邡市|
湖南省|
新巴尔虎左旗|
电白县|
博兴县|
公安县|
崇文区|
平湖市|
石柱|
静宁县|
军事|
图们市|
科技|
界首市|
北安市|
宜黄县|
巴林左旗|
宁河县|
宿松县|
北流市|
巴中市|
随州市|
望谟县|
泰宁县|
临沭县|
岳普湖县|
仁布县|