前言:尋找寫作靈感?中文期刊網用心挑選的計算機系統容錯技術解析,希望能為您的閱讀和創作帶來靈感,歡迎大家閱讀并分享。
計算機是一個較為復雜的系統,為確保其運行穩定性和可靠性,應當在系統設計時,對容錯技術進行合理運用?;诖它c,文章從容錯的常用方法分析入手,論述了容錯技術在計算機系統中的具體應用。期望通過本文的研究能夠對計算機系統性能的提升有所幫助。
1容錯的常用方法
1.1冗余
這是計算機系統容錯最為基本的途徑之一,通過冗余可以大幅度提升系統的容錯性能。大體上可將冗余分為兩類,一類是時間冗余,另一類是空間冗余。前者是指借助重復計算過程來實現系統容錯;后者是指利用額外的資源來實現系統容錯,按照使用的冗余資源,可將之細分為硬件冗余、軟件冗余、信息冗余等等。
1.2回滾恢復容錯
這是一種通過對計算狀態進行周期性保存來達到容錯目的的方法。計算機系統在運行的過程中,如果出現故障問題,通過回滾恢復,可以使應用程序回到之前保存的某個狀態處,重新對程序進行執行。該容錯方法是時間冗余與空間冗余的有機結合,最早出現在分布式系統當中,隨著技術的逐步完善,其在并行計算領域中得到廣泛應用。
1.3TRM容錯
這是目前計算機系統中應用最為廣泛的容錯技術,一個基本的TRM系統由三個完全相同的模塊和一個投票器組成,三個模塊會同時對輸入的數據進行接收,每個模塊將生成的結果發送給投票器,并由投票器通過投票的方式進行表決,其輸出的數據主要取決于三個輸入中多數一方的結果。如果三個模塊中的某一個發生故障,其它兩個模塊可以保持正常運行,并對故障模塊的錯誤輸出進行掩蓋,這樣一來,投票器的輸出結果便可以保持正確。容錯系統可靠運行的條件是至少有兩個模塊需要始終保持正常。
1.4檢查點技術
這是一種通過保留與恢復來達到容錯目的的方法,其基本的技術原理如下:定期將執行狀態存儲于穩定的介質當中,當系統發生故障后,可從該介質中對狀態進行恢復。被保存的狀態即檢查點,含有檢查點的磁盤為檢查點文件。如果計算機系統中加入檢查點技術,運行中發生故障時,那么系統則可從故障中快速恢復正常,由此可確保系統的穩定運行,減輕了相應的損失。在計算機系統中,檢查點的類型有兩種,一種是局部,也就是所謂的單進程,另一種是全局,即并行程序。通過相關協議的設計,檢查點可實現程序的快速恢復。在實際應用中發現,檢查點技術存在如下不足:很難對軟錯誤進行檢測、開銷大、可擴展性差、容易出現存儲失效的情況。為了解決上述問題,業內的專家學者經過不斷研究,對檢查點技術進行優化改進,開發出無盤和增量兩種檢查點技術,前者是通過對計算機系統的內存進行利用,達到減少記錄檢查點開銷的目的;后者則是通過保存必須的程序來減少存儲開銷。
2容錯技術在計算機系統中的具體應用
2.1容錯的實現步驟
在計算機系統中對容錯技術進行應用的過程中,容錯的具體實現步驟如下:
2.1.1對系統故障問題進行自動檢測
由上文可知,計算機系統出現故障后,會導致錯誤,由此可能會引起失效。而部分失效會造成系統的邏輯故障。在對邏輯故障進行檢測時,可以使用的方法較多,其中較具典型性和代表性的有奇偶校驗、一致性校驗等等。大體上可將故障檢測分為兩種類型,一類是脫機,另一類是聯機。在脫機狀態下,對系統故障問題進行檢測時,計算機及相關設備無法正常執行任務,而在聯機狀態下對系統故障進行檢測時,可確保任務與檢測過程一并進行,這是聯機檢測的應用優勢,具體可以利用冗余校驗的方法進行聯機檢測(田麗娜,王海龍,計算機系統容錯技術分析:科技展望,2016)。
2.1.2故障限制與屏蔽
通常情況下,計算機系統中的故障都會出現在某個部位,但由于系統本身是一個整體,所以局部故障可能會影響到其它的功能,為使故障的影響范圍降至最低程度,需要對故障進行限制,這是容錯技術在計算機系統中應用時較為重要的一個作用。通過故障限制,將故障的傳播限定在一個特定的區域內,避免對其它的區域造成影響。故障屏蔽是掩蓋失效的一種方法,從本質上講,就是利用冗余解決錯誤信息,比較常見的故障屏蔽為多數表決。
2.1.3重試與診斷
計算機系統是一個較為復雜的系統,在對系統進行首次操作時,可能無法成功,但再次操作卻可以成功。這種情況大多是因為瞬時故障引起,其通常不會造成物理破壞,所以只需要通過重試便可進行解決。容錯技術中的診斷,則是在故障檢測并未提供故障性質、發生位置等信息的情況下,對故障進行準確判斷的做法。
2.1.4重組與恢復
當容錯系統檢測到計算機當中存在故障問題時,并判斷該故障為永久性故障后,通過重組,可對失效的器件進行替代,并將其從系統中隔離出去。這一過程也可通過冗余系統來完成,由此可以使計算機系統的性能得到保障。經過重組之后,需要將計算機系統中的錯誤消除掉,此時系統會回到故障檢測前的某個點上,并從該點重新開始操作。為確保系統在故障后能夠快速恢復,既要有備份文件和檢驗點,還要有應用記錄。
2.1.5重啟
當計算機系統中出現的錯誤導致大量的信息被破壞,并且系統未設計恢復功能,這樣系統無法通過自動恢復來消除錯誤的影響(劉娟,高可靠計算機系統的容錯技術分析:計算機產品與流通,2018)。如果系統在出現錯誤時,并未遭到破壞,可以通過重新啟動來恢復相關的操作。重啟分為兩種方式,一種是熱重啟,在這種重啟方式下,不會對系統造成任何損失,另一種是冷啟動,這種方式下,系統需要對相應的程序進行重新加載。
2.1.6修復與重構
通過診斷找到計算機系統中某個故障元件后,可用完好的元件進行替換,從而快速消除故障,使系統恢復正常運行。容錯技術中的修復,既可以在脫機的狀態下進行,也可在聯機的情況下完成。當元件替換后,應當使修復的模塊重新加入到系統當中,這個過程即為重構。
2.2實現容錯的方法
計算機系統實現容錯時,需要對如下技術方法進行運用:
2.2.1自動檢驗
當計算機系統中出現故障時,在恢復錯誤前,系統應當具備發現錯誤及其成因的能力,也就是說,容錯離不開自動檢驗的支撐。所謂的自動檢驗是一種快速檢測系統故障的方法,可以通過自動檢驗裝置來實現。系統容錯設計時,通過自動檢驗的運用,可使系統對錯誤進行及時處理(仇宇婕,計算機控制系統可靠性技術分析:山東工業技術,2018)。
2.2.2自動備份
通過自動備份,可以使容錯系統及時對丟失或是損壞的數據進行恢復,從而保證計算機系統在遭受無法抵御的破壞時,重要數據信息不會丟失。
2.2.3事務跟蹤
在計算機系統容錯設計中,事務跟蹤主要針對的是用戶軟件和數據庫的運行而設計的,其能夠確保系統損壞時,數據信息的一致性。
3結論
總而言之,計算機系統在人們日常工作、生活中的使用越來越廣泛,保證系統的運行可靠性尤為重要。為實現這一目標,應當對容錯技術進行合理運用。鑒于此,在未來一段時期,應加大對容錯技術的研究力度,除對現有的技術和方法進行優化改進與完善之外,還應加快開發一些新的容錯技術,從而使其能夠更好地為計算機系統服務。
作者:雷利香 單位:棗莊科技職業學院