云南聯(lián)通容災(zāi)實(shí)施案例
中國聯(lián)通云南分公司計(jì)費(fèi)信息系統(tǒng)部 李衛(wèi)民
2004/05/24
項(xiàng)目概述
本次的容災(zāi)工程涉及到云南聯(lián)通的綜合營帳系統(tǒng)、短消息計(jì)費(fèi)系統(tǒng),分別運(yùn)行在不同的操作系統(tǒng)平臺(tái)上,其數(shù)據(jù)也分布在不同的存儲(chǔ)設(shè)備上。業(yè)務(wù)系統(tǒng)已投入生產(chǎn)使用,所以,在整個(gè)工程實(shí)施過程中減小對(duì)運(yùn)行業(yè)務(wù)的影響是重中之重。同時(shí),由于各個(gè)系統(tǒng)數(shù)據(jù)分別存儲(chǔ)在不同的中檔磁盤陣列上,若實(shí)現(xiàn)磁盤陣列級(jí)容災(zāi),必須采用更高端磁盤陣列,因此,實(shí)現(xiàn)容災(zāi)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)需要遷移到高端的磁盤陣列。
本期工程采用了HP高端磁盤陣列XP512進(jìn)行遠(yuǎn)程數(shù)據(jù)容災(zāi),在云南聯(lián)通業(yè)務(wù)中心本地新增一臺(tái)HP XP512。同時(shí),在異地備份中心新增一臺(tái)XP512存儲(chǔ)服務(wù)器,作為主生產(chǎn)中心XP512的異地容災(zāi)備份。本次容災(zāi)的建設(shè)目標(biāo)是對(duì)綜合營帳系統(tǒng)、專業(yè)計(jì)費(fèi)、短消息計(jì)費(fèi)系統(tǒng)進(jìn)行同城異地?cái)?shù)據(jù)級(jí)容災(zāi)的綜合數(shù)據(jù)容災(zāi)系統(tǒng),業(yè)務(wù)系統(tǒng)的數(shù)據(jù)將可以通過基于XP磁盤陣列的Continuous Access XP軟件實(shí)時(shí)同步復(fù)制到備份數(shù)據(jù)中心的XP512中,從而實(shí)現(xiàn)數(shù)據(jù)的遠(yuǎn)程保護(hù)
下圖是方案規(guī)劃的容災(zāi)系統(tǒng)示意圖(見圖1)。

硬件環(huán)境的搭建在此就不贅述,下面主要從整個(gè)工程的重點(diǎn)和難點(diǎn):系統(tǒng)遷移進(jìn)行著重介紹。
系統(tǒng)遷移需求分析
在本次案例實(shí)施中,選取營業(yè)系統(tǒng)的遷移做簡要說明。
一、系統(tǒng)現(xiàn)狀
綜合營賬系統(tǒng)應(yīng)用目前運(yùn)行在兩臺(tái)主機(jī)superdome組成的群集上,其中一臺(tái)運(yùn)行營業(yè)的應(yīng)用,另一臺(tái)運(yùn)行賬務(wù)的應(yīng)用。數(shù)據(jù)存儲(chǔ)在一臺(tái)MA8000磁盤陣列中,由于系統(tǒng)數(shù)據(jù)量較大,營業(yè)和賬務(wù)的數(shù)據(jù)遷移工作必須分開進(jìn)行,所以在一個(gè)系統(tǒng)數(shù)據(jù)遷移完畢后,MA8000磁盤陣列仍然需要在線,以保證其他系統(tǒng)遷移前的正常工作。
二、系統(tǒng)數(shù)據(jù)遷移要求
由于需遷移系統(tǒng)均為在線運(yùn)行,因此,要盡量減少業(yè)務(wù)的影響。為此,整個(gè)遷移過程必須按以下步驟進(jìn)行:
1.營業(yè)系統(tǒng)負(fù)責(zé)全省所有業(yè)務(wù)受理及客服系統(tǒng)的查詢,如發(fā)生長時(shí)間中斷,會(huì)對(duì)業(yè)務(wù)及公司形象帶來非常不利影響。因此,業(yè)務(wù)中斷必須在夜間或業(yè)務(wù)量較少時(shí)進(jìn)行。
2.遷移前必須制定詳細(xì)的時(shí)間計(jì)劃表,每一步驟必須有專人負(fù)責(zé)。
3.系統(tǒng)要求:在遷移過程中系統(tǒng)設(shè)備具有可恢復(fù)性(事先做好備份和回退計(jì)劃),遷移后系統(tǒng)能夠運(yùn)行正常。
4.?dāng)?shù)據(jù)要求:保證數(shù)據(jù)的完整性和可恢復(fù)性。
三、風(fēng)險(xiǎn)分析
由于目前營業(yè)系統(tǒng)屬于實(shí)時(shí)生產(chǎn)系統(tǒng),保證系統(tǒng)應(yīng)用在停機(jī)遷移后仍能正常啟動(dòng)服務(wù)和系統(tǒng)數(shù)據(jù)在遷移過程中不受損壞是本次遷移的重點(diǎn)。因此本次系統(tǒng)遷移責(zé)任非常重大,如果沒有周密的計(jì)劃、精心的組織,一旦出現(xiàn)問題,必將導(dǎo)致重大的責(zé)任事故。為了保證遷移的順利實(shí)施,根據(jù)系統(tǒng)現(xiàn)狀進(jìn)行了風(fēng)險(xiǎn)分析。
實(shí)施原則
完成項(xiàng)目的總原則是:按照方案的要求完成系統(tǒng)遷移工作,盡可能減少對(duì)營業(yè)業(yè)務(wù)的影響。
由于責(zé)任重大,當(dāng)在實(shí)施中發(fā)生便捷與風(fēng)險(xiǎn)的矛盾時(shí),要永遠(yuǎn)將規(guī)避風(fēng)險(xiǎn)放在首位。
實(shí)施重點(diǎn)
實(shí)施的重點(diǎn)在于系統(tǒng)遷移的前期準(zhǔn)備、遷移后數(shù)據(jù)一致性檢查及應(yīng)用的測試驗(yàn)證工作。
系統(tǒng)遷移的切換發(fā)生在一個(gè)時(shí)間段,怎樣把這個(gè)時(shí)間段縮短,進(jìn)而保證對(duì)整個(gè)系統(tǒng)的影響最小、風(fēng)險(xiǎn)最小,這就需要我們把前期準(zhǔn)備做好、做足。
實(shí)施難點(diǎn)
實(shí)施的難點(diǎn)在于系統(tǒng)遷移過程中應(yīng)急情況下系統(tǒng)和數(shù)據(jù)的可恢復(fù)性。
通過與相關(guān)人員的討論,確定了系統(tǒng)和數(shù)據(jù)的備份方案并論證了操作的可恢復(fù)性。
存在風(fēng)險(xiǎn)
項(xiàng)目中的風(fēng)險(xiǎn)貫穿于整個(gè)實(shí)施過程,在項(xiàng)目實(shí)施前應(yīng)充分考慮到所有可能存在的風(fēng)險(xiǎn),考慮出現(xiàn)風(fēng)險(xiǎn)時(shí)的應(yīng)急措施,采取相應(yīng)的手段規(guī)避風(fēng)險(xiǎn)。可能存在的風(fēng)險(xiǎn)有:
1.系統(tǒng)遷移的數(shù)據(jù)量較大,需要計(jì)劃足夠的時(shí)間;
2.設(shè)備在遷移中損壞,需要原廠及時(shí)響應(yīng);
3.系統(tǒng)結(jié)構(gòu)比較復(fù)雜,營業(yè)系統(tǒng)的遷移可能對(duì)客服系統(tǒng)產(chǎn)生影響。
營業(yè)系統(tǒng)遷移計(jì)劃
根據(jù)以上分析,總體計(jì)劃分為前期準(zhǔn)備階段、系統(tǒng)遷移實(shí)施階段和遷移后系統(tǒng)試運(yùn)行階段三個(gè)階段。
一、 前期準(zhǔn)備階段
前期準(zhǔn)備階段是整個(gè)系統(tǒng)遷移成功的關(guān)鍵,該階段需要完成的工作有:
1.掌握系統(tǒng)的現(xiàn)狀、分布、IP地址、用途等,制定詳細(xì)遷移任務(wù)清單;
2.通過實(shí)驗(yàn)確定系統(tǒng)遷移的操作并估算數(shù)據(jù)遷移需要的時(shí)間;
3.論證系統(tǒng)和數(shù)據(jù)備份的方式;
4.在XP512磁盤陣列上劃分?jǐn)?shù)據(jù)移植所需的磁盤空間;
5.確立實(shí)施時(shí)間表及人員配備與分工;
6.制定可行的應(yīng)急方案,論證操作的可恢復(fù)性;
7.了解需求的基礎(chǔ)上,分析項(xiàng)目實(shí)施重點(diǎn)和難點(diǎn),對(duì)遷移的實(shí)施進(jìn)行深層次的討論,并就各方負(fù)責(zé)的實(shí)施部分的責(zé)任和實(shí)施細(xì)節(jié)進(jìn)行細(xì)化,確立各方面負(fù)責(zé)人。最終產(chǎn)生一份科學(xué)可行、安全穩(wěn)妥、組織嚴(yán)謹(jǐn)、符合要求的系統(tǒng)遷移實(shí)施方案。
二、 系統(tǒng)遷移實(shí)施階段
為了系統(tǒng)的可靠性、數(shù)據(jù)的完整性和可恢復(fù)性,應(yīng)對(duì)現(xiàn)有系統(tǒng)進(jìn)行軟硬件方面的檢測,并對(duì)系統(tǒng)和數(shù)據(jù)進(jìn)行備份,一旦在遷移過程中發(fā)生問題,可以馬上恢復(fù)原有系統(tǒng),保證系統(tǒng)運(yùn)行。在此階段需要完成的工作有:
1.遷移前的設(shè)備檢測,系統(tǒng)、數(shù)據(jù)備份(如數(shù)據(jù)庫未打開歸檔,需在實(shí)施遷移前打開);
2.完成營業(yè)系統(tǒng)數(shù)據(jù)遷移,包括數(shù)據(jù)庫、文件系統(tǒng)、系統(tǒng)參數(shù)調(diào)整等;
3.系統(tǒng)遷移后的數(shù)據(jù)一致性檢測。
其中系統(tǒng)備份前最好對(duì)設(shè)備硬件和軟件分別進(jìn)行檢查,確認(rèn)遷移前系統(tǒng)處于正常狀態(tài)。遷移的每個(gè)步驟都要按事先的規(guī)劃進(jìn)行,并確保操作的可逆性,一旦出現(xiàn)問題系統(tǒng)可以回退到遷移前狀態(tài)。
營業(yè)系統(tǒng)遷移應(yīng)急措施
一、系統(tǒng)遷移前的異常
如果在規(guī)劃的時(shí)間點(diǎn)之前沒有完成系統(tǒng)遷移準(zhǔn)備階段的任務(wù),系統(tǒng)遷移時(shí)間順延,在確保準(zhǔn)備工作就緒的前提下才進(jìn)行系統(tǒng)遷移。在系統(tǒng)開始遷移前請(qǐng)相關(guān)人員進(jìn)行系統(tǒng)健康性檢查,確保在遷移前系統(tǒng)完好。
二、系統(tǒng)遷移過程中的異常
本次營業(yè)系統(tǒng)遷移的原則是確保系統(tǒng)在規(guī)劃的遷移時(shí)間段之外可以正常運(yùn)行。由于營業(yè)系統(tǒng)遷移安排在夜間進(jìn)行,為確保系統(tǒng)在發(fā)生硬件或軟件故障時(shí)能夠及時(shí)得到技術(shù)響應(yīng),需要協(xié)調(diào)各相關(guān)人員(包括原廠商技術(shù)人員)到位。在執(zhí)行遷移的過程中操作步驟具有可逆性,確保以外發(fā)生的時(shí)候可將系統(tǒng)迅速回退到最初狀態(tài)。系統(tǒng)和數(shù)據(jù)在遷移前都做最新的備份。如果遷移工作在凌晨6:00前沒有完成,也要將系統(tǒng)回退到遷移前狀態(tài),保障系統(tǒng)在8:00前正常運(yùn)行。
三、 系統(tǒng)遷移后的異常
營業(yè)系統(tǒng)在數(shù)據(jù)遷移到XP512后,原有MA8000磁盤陣列中的數(shù)據(jù)繼續(xù)保留一段時(shí)間,以觀察新系統(tǒng)的穩(wěn)定性。如果在試運(yùn)行期新系統(tǒng)發(fā)生故障,仍可以讓營業(yè)系統(tǒng)回退到遷移前狀態(tài)。
數(shù)據(jù)庫遷移
一、數(shù)據(jù)庫信息調(diào)查
數(shù)據(jù)庫的遷移主要是所有數(shù)據(jù)文件、重做日志、控制文件的遷移,在準(zhǔn)備階段需調(diào)查清楚所有在用的數(shù)據(jù)文件、重做日志、控制文件所在裸盤的詳細(xì)情況。同時(shí)建議數(shù)據(jù)庫管理員在遷移前盡量不要添加新的數(shù)據(jù)文件,如遇特殊情況需增加新的數(shù)據(jù)文件,則必須通知工程項(xiàng)目組對(duì)已調(diào)查的數(shù)據(jù)進(jìn)行更新。
二、在XP512上創(chuàng)建物理卷組和對(duì)應(yīng)的邏輯卷
根據(jù)收集的信息,在XP512上為營業(yè)系統(tǒng)劃分的物理空間上創(chuàng)建新卷組,然后在新卷組上創(chuàng)建邏輯卷,最后給主機(jī)數(shù)據(jù)庫用戶分配權(quán)限。
三、數(shù)據(jù)庫備份與遷移
營業(yè)數(shù)據(jù)庫采用的是ORACLE。推薦采用物理備份,該方法實(shí)現(xiàn)數(shù)據(jù)庫的完整恢復(fù),但數(shù)據(jù)庫必須運(yùn)行在歸檔模式下,且需要足夠的外部存儲(chǔ)設(shè)備,例如磁帶庫、硬盤空間等。物理級(jí)的備份主要是備份數(shù)據(jù)文件、控制文件、聯(lián)機(jī)重做日志文件、歸擋日志文件、回退段等。
1. Oracle數(shù)據(jù)庫物理備份準(zhǔn)備。
A 打開數(shù)據(jù)庫歸檔;
B 數(shù)據(jù)庫移植前幾天做一次全備,移植當(dāng)天晚上做增量備份;
2. 數(shù)據(jù)庫物理備份。
A 使用dd拷貝和在sqlplus下用"alter database backup controlfile to trace"分別備份數(shù)據(jù)庫控制文件;
B 數(shù)據(jù)庫做增量備份。
3.修改inityy.ora文件,指定新的controlfile name(在XP512上),確保數(shù)據(jù)庫可以啟動(dòng),確保歸檔備份目錄有足夠空間。
4.停主機(jī)上所有應(yīng)用程序,正常宕數(shù)據(jù)庫,完后重啟數(shù)據(jù)庫(不啟監(jiān)聽),根據(jù)業(yè)務(wù)情況編寫SQL提取一致性數(shù)據(jù),將結(jié)果用spool輸出至一文本文件中保存。此外建議使用"alter system switch logfile"將所有日志組均做一次切換。
5.再次檢查數(shù)據(jù)庫數(shù)據(jù)文件是否與調(diào)查結(jié)果一致。
6.正常宕數(shù)據(jù)庫,用dd物理移植數(shù)據(jù)文件、控制文件、日志文件到XP512上,實(shí)際可生成多個(gè)shell并行執(zhí)行。
7.在XP512上啟動(dòng)數(shù)據(jù)庫到mount狀態(tài),將數(shù)據(jù)文件指向XP512。
8.將數(shù)據(jù)庫open,在XP512上給tempspace增加新的數(shù)據(jù)文件,然后刪除原來MA8000上的數(shù)據(jù)文件。
9.運(yùn)行遷移前的同一SQL提取一致性數(shù)據(jù),將新生成的文本文件與遷移前生成的文本文件比較是否一致。
10.在測試環(huán)境中進(jìn)行應(yīng)用程序的驗(yàn)證。
四、 異常情況處理
原存儲(chǔ)設(shè)備MA8000的邏輯卷不會(huì)立即刪除, 這樣原來數(shù)據(jù)庫數(shù)文件,日志文件不會(huì)丟失,即便有控制文件更改,也可用控制文件恢復(fù), 如遷移有問題或時(shí)間過長,要留出恢復(fù)時(shí)間,用原來數(shù)據(jù)文件、日志文件、控制文件啟動(dòng)原數(shù)據(jù)庫。要求在測試階段,只能對(duì)數(shù)據(jù)庫的內(nèi)容進(jìn)行可控的增加、刪除、修改。只有多方確認(rèn)無問題情況下,才能啟動(dòng)應(yīng)用。同時(shí)做好歸檔的保存,如聯(lián)機(jī)重做日志少,可考慮增加幾組聯(lián)機(jī)重做日志。
工程試運(yùn)行及演習(xí)
系統(tǒng)遷移工作成功后,工程即進(jìn)入試運(yùn)行階段,在此期間相關(guān)人員需定時(shí)觀察主機(jī)運(yùn)行狀態(tài)、主備兩個(gè)中心XP512的同步狀態(tài)及數(shù)據(jù)庫運(yùn)行狀態(tài)并記錄。系統(tǒng)穩(wěn)定運(yùn)行后,應(yīng)制定定期進(jìn)行主備中心切換的容災(zāi)演習(xí)制度,發(fā)現(xiàn)問題立即解決,確保在發(fā)生災(zāi)難時(shí)系統(tǒng)的可恢復(fù)性。
中國計(jì)費(fèi)網(wǎng)(www.billingchina.com)
相關(guān)鏈接:
双峰县|
吴忠市|
平阴县|
恭城|
亚东县|
大丰市|
武威市|
巴南区|
巢湖市|
泗水县|
临泽县|
岐山县|
兴国县|
乌恰县|
黄冈市|
黎平县|
什邡市|
上蔡县|
洛浦县|
曲松县|
水富县|
高邮市|
商河县|
西充县|
武清区|
扶余县|
铜陵市|
南城县|
瓦房店市|
裕民县|
金溪县|
松阳县|
保靖县|
友谊县|
景泰县|
宜川县|
宜丰县|
远安县|
东乌|
乳山市|
莱阳市|