能源行業(yè)邁入大數(shù)據(jù)時(shí)代
隨著數(shù)據(jù)總量的持續(xù)增長和急速膨脹,大數(shù)據(jù)時(shí)代已經(jīng)來臨,石油、電力等能源細(xì)分行業(yè)紛紛拉開了大數(shù)據(jù)開發(fā)應(yīng)用的序幕。如何從海量數(shù)據(jù)中高效獲取信息,有效地深加工并最終得到有用數(shù)據(jù)是能源企業(yè)涉足大數(shù)據(jù)的目的。
對石油行業(yè)來說,眾多企業(yè)正在把更多的新技術(shù)應(yīng)用于戰(zhàn)略決策、科技研發(fā)、生產(chǎn)經(jīng)營和安全環(huán)保等各個(gè)領(lǐng)域,目的是為了從大數(shù)據(jù)資源中挖掘更多的財(cái)富和價(jià)值。大數(shù)據(jù)應(yīng)用是石油行業(yè)信息化深入、IT與業(yè)務(wù)深度融合的必然趨勢,在我國石油石化行業(yè)應(yīng)用的前景將越來越廣闊。隨著石油儲備的逐步減少,石油石化行業(yè)產(chǎn)業(yè)鏈中的勘探、開發(fā)難度日益增大, 信息化的成熟度已經(jīng)成為影響行業(yè)增長幅度的首要因素。精準(zhǔn)、快速的地質(zhì)勘測成為世界能源巨頭們倚重的核心競爭力之一,其中高性能計(jì)算技術(shù)和大數(shù)據(jù)技術(shù)的應(yīng)用是關(guān)鍵因素。
油氣勘探海量數(shù)據(jù)處理需要高性能計(jì)算
目前在石油勘探中最常用的是地球物理方法。地球物理方法是使用現(xiàn)代物理方法進(jìn)行地質(zhì)勘探的方法,包括電法、磁法、重力法、放射性法、地震波法等,其中以地震波法最為重要。為了了解和模擬出地下數(shù)千米的地質(zhì)構(gòu)造,通過地震波反射方式來收集海量數(shù)據(jù),一般二維數(shù)據(jù)可達(dá)1~2TB,三維數(shù)據(jù)可高達(dá)幾百TB甚至PB級, 然后進(jìn)行大量的密集計(jì)算和模擬,計(jì)算結(jié)果出來后還要轉(zhuǎn)換成直觀的可視畫面,方便專家對數(shù)據(jù)進(jìn)行解釋,為油氣鉆井定位提供參考。因此,這些海量數(shù)據(jù)的處理只有借助高性能計(jì)算才能實(shí)現(xiàn)最佳的勘探效益,這也是在石油勘探領(lǐng)域高性能計(jì)算需求的主因。
由于石油勘探行業(yè)的特殊性和復(fù)雜性,石油勘探對高性能計(jì)算提出了非常苛刻的要求。過去十年中,石油勘探計(jì)算處理多采用大型機(jī)或高性能計(jì)算機(jī),但目前高性能計(jì)算機(jī)系統(tǒng)在計(jì)算性能、系統(tǒng)建設(shè)與運(yùn)行成本等方面已經(jīng)面臨著許多問題。讓石油勘探企業(yè)感到頗為頭痛的問題主要集中在三大困境:一是計(jì)算能力需求和CPU處理器性能落差越來越大,目前通過不斷提高CPU處理器的工作頻率來提高計(jì)算性能的技術(shù)路線已經(jīng)逐步走向其極限;二是石油勘探高速增長的數(shù)據(jù)和存儲擴(kuò)容越來越不匹配;三是能耗制約越來越嚴(yán)重,高性能計(jì)算機(jī)的體積大、耗電多等弱點(diǎn)以及對龐大的計(jì)算機(jī)房空間需求、空調(diào)需求和用電量等已經(jīng)成為石油勘探數(shù)據(jù)處理的一大挑戰(zhàn)。
地震資料數(shù)據(jù)的大數(shù)據(jù)特征
BGP(中國石油集團(tuán)東方地球物理公司)是中國石油天然氣集團(tuán)公司獨(dú)資的地球物理專業(yè)化技術(shù)服務(wù)公司,主要從事陸地、淺海地震勘探采集、處理、解釋及物探裝備和軟件研發(fā),業(yè)務(wù)分布在全球34個(gè)國家,陸上地震勘探市場份額居全球第一位。現(xiàn)擁有2.6萬員工,3000多IT人員和300多軟件開發(fā)人員,在全球有23個(gè)處理中心,約9萬CPU核和80萬GPU核,運(yùn)算能力約2PFlops,存儲容量超過25PB。
中國石油集團(tuán)東方地球物理公司研究院的總工程師賴能和先生曾在華為云計(jì)算大會(huì)2013上做了《大數(shù)據(jù)技術(shù)在石油勘探領(lǐng)域的應(yīng)用》的主題演講,對地震海量數(shù)據(jù)的采集與處理過程做了詳細(xì)闡釋。
石油勘探過程產(chǎn)生的大數(shù)據(jù)有自己獨(dú)特的“4V”特征:
1、數(shù)據(jù)海量:以BGP為例,每天會(huì)產(chǎn)生大于7TB的生產(chǎn)數(shù)據(jù),在地震資料處理過程中還會(huì)產(chǎn)生大量的中間過程數(shù)據(jù)。
2、數(shù)據(jù)來源單一:地震資料數(shù)據(jù)是由人工模擬地震波激發(fā),由定點(diǎn)采集儀器接收和采集到的,數(shù)據(jù)來源和數(shù)據(jù)格式都比較單一。
3、計(jì)算量大:以BGP為例,54TB的原始數(shù)據(jù)通過4000個(gè)CPU 的計(jì)算集群處理,需要50多天時(shí)間。
4、處理流程復(fù)雜:地震資料處理過程涉及到頻繁的IO和數(shù)據(jù)庫,操作復(fù)雜。
地震數(shù)據(jù)的快速增長對于存儲提出了巨大需求,也對傳統(tǒng)的HPC軟硬件架構(gòu)提出了新的挑戰(zhàn)。
華為石油勘探HPC解決方案實(shí)現(xiàn)高計(jì)算、大存儲能力
針對石油行業(yè)的特點(diǎn)和需求,華為提出了石油勘探HPC解決方案,包含以下幾個(gè)部分:
1、計(jì)算集群系統(tǒng)
計(jì)算節(jié)點(diǎn)和胖節(jié)點(diǎn)采用華為刀片服務(wù)器,提供強(qiáng)大的計(jì)算能力,特別是浮點(diǎn)計(jì)算能力,以完成地震資料處理中巨大的計(jì)算任務(wù)。
2、存儲系統(tǒng)
存儲部分采用華為OceanStor 9000大數(shù)據(jù)存儲系統(tǒng)(簡稱OceanStor 9000)。
與傳統(tǒng)的NFS和lustre方案不同,OceanStor 9000采用全對稱分布式架構(gòu),每個(gè)節(jié)點(diǎn)都可以提供IO和存儲單元,提供業(yè)務(wù)訪問、數(shù)據(jù)處理和存儲的能力,因此可以輕松完成節(jié)點(diǎn)擴(kuò)容,實(shí)現(xiàn)系統(tǒng)性能和容量的線性擴(kuò)展。
其全對稱Scale-out架構(gòu),通過集群模式、自動(dòng)負(fù)載均衡、全局緩存等技術(shù)來整合和管理系統(tǒng)資源,有效提升存儲系統(tǒng)性能,縮短地震資料處理的作業(yè)周期。OceanStor 9000還具備高可靠性和硬件容錯(cuò)能力,保障作業(yè)正常運(yùn)行。它還能提供靈活的組網(wǎng)方式,前后端網(wǎng)絡(luò)均支持Infiniband或者10GE以太網(wǎng)高速互聯(lián),能有效滿足石油勘探HPC場景的高帶寬、低時(shí)延需求
3、網(wǎng)絡(luò)互聯(lián)
采用計(jì)算網(wǎng)絡(luò)、存儲網(wǎng)絡(luò)和管理網(wǎng)絡(luò)分離的方式。計(jì)算網(wǎng)絡(luò)采用萬兆以太網(wǎng),承擔(dān)并行計(jì)算時(shí)的數(shù)據(jù)通訊。管理網(wǎng)絡(luò)采用千兆以太網(wǎng),用于HPC集群系統(tǒng)的管理和監(jiān)控。存儲網(wǎng)絡(luò)采用10GE以太網(wǎng)或40GE的Infiniband網(wǎng)絡(luò),為主機(jī)訪問數(shù)據(jù)文件提供高速的網(wǎng)絡(luò)互聯(lián)。