新聞資訊
行業(yè)資訊
服務器集群故障檢測
2023-11-16 09:10:40
摘要:集群服務可以檢測和隔離網(wǎng)絡故障。集群服務使用改進的網(wǎng)絡故障檢測方法改善故障恢復操作。故障檢測和防范是服務器集群所具有的突出優(yōu)點。當集:群中的節(jié)點或應用程序失效時,集群服務器可以通過重啟失敗的應用程序或將故障系統(tǒng)的工作分散給幸存的集群節(jié)點來做出響應。集群服務器故障檢測和防范包括雙向故障轉移、應用程序故障轉移、并行恢復及自動故障恢復。

集群服務可以檢測和隔離網(wǎng)絡故障。集群服務使用改進的網(wǎng)絡故障檢測方法改善故障恢復操作。故障檢測和防范是服務器集群所具有的突出優(yōu)點。當集:群中的節(jié)點或應用程序失效時,集群服務器可以通過重啟失敗的應用程序或將故障系統(tǒng)的工作分散給幸存的集群節(jié)點來做出響應。集群服務器故障檢測和防范包括雙向故障轉移、應用程序故障轉移、并行恢復及自動故障恢復。


集群服務可以檢測各個資源或整個節(jié)點的故障,并動態(tài)地將應用程序、數(shù)據(jù)和文件資源轉移到集群中可用的正常服務器上,然后重新啟動它們。借此, 數(shù)據(jù)庫、共享文件和應用程序等資源可以對用戶和客戶端應用程序保持高度的可用性。


集群服務器在設計上帶有以下兩個不同的故障檢測機制。


? 心跳通信,用于檢測節(jié)點故障。


? 資源監(jiān)視器和資源DLL, 用于檢測資源故障。


1.檢測節(jié)點故障

在集群節(jié)點之間的通信允許集群服務檢測節(jié)點故障和狀態(tài)改變并且將集群作為一個實體進行管理??梢詾檫@種節(jié)點到節(jié)點的通信設立多重網(wǎng)絡以便于消除單一點的故障。在集群節(jié)點上運行的集群服務跟蹤集群中節(jié)點的當前狀態(tài),并且確定組及其資源何時故障轉移到備用節(jié)點。這種通信采用在每個節(jié)點的集群服務之間定期發(fā)送消息的形式進行。這些消息被稱為“檢測信號”,或稱“心跳氣”。


通過心跳通信,每個節(jié)點可以恰查其他節(jié)點及它們的應用程序的可用性。如果服務器設有對心跳通信;做出響應,則正常工作的服務器會啟動故障轉移過穩(wěn)(包括對故障服務器擁有的資源和應用程序的所有權進行仲裁)。仲裁是使用質詢和辯護協(xié)議來執(zhí)行的。換而言之,如果某個節(jié)點似乎發(fā)生了故障,則會在給定的時間內允許它以幾種方式中的任何一種表明它仍處于正常運行當中,并且可以向其他正常的節(jié)點通信。如果它無法證明自己正在正常運行,則此時會將它移出集群。


多種事件都可能導致節(jié)點無法響應心跳消息,如計算機故障、網(wǎng)絡接口故障、網(wǎng)絡放障,甚于在可能是由于少有的高峰活動期。通常來說,當所有節(jié)點進行通信時,配置數(shù)據(jù)庫管理器會向每個節(jié)點發(fā)送全局性的配置數(shù)據(jù)庫更新。當心跳通信失敗時,日志管理錦還會將配置數(shù)據(jù)庫的變更保存到仲裁資源中。這保證了幸存的節(jié)點可以在恢復過程中訪問最新的集群配置和本地節(jié)點的注冊表數(shù)據(jù)。


要注意的是,故障檢測算法相當保守。換句話說,它會盡量多地給那些明顯發(fā)生故障的節(jié)點以質詢的機會,然后才會進入故障轉移過程。如果導致心跳響應失敗的原因是暫時的,避免故障轉移所可能造成的潛在影響當然是再好不過了。但是,由于無法知道這樣的節(jié)點還將沉默多長時間,故該節(jié)點可能遭受長時期的故障影響。因此,在經(jīng)過一個合理的時間段后就應該啟動故障轉移過程。




2. 檢測資源故障

如果資源在當前主機節(jié)點上是不可操作的而且不能重新啟動,則集群服務認為此資源發(fā)生了故障。集群服務按以下方式檢測資源故障。


(1)在周期性的時間間隔內,集群服務檢查資源以了解資源是否可操作。集群服務通過定期調用資源監(jiān)視器來完成此項任務。反過來,資源監(jiān)視器則依賴于每個資源的資源主動態(tài)鏈接庫( DLL)執(zhí)行一段過程以檢測資源是否正常工作。資源 DLL 通過資源監(jiān)視器將結果傳給集群服務。可以通過設置“Looks Alive”和“l(fā)s Alive ,輪詢間隔來指定集群服務檢資資源故障的頻率。集群服務在每個“l(fā)s Alive ”時間間隔內請求對資源 的狀態(tài)進行比“Looks Al ive" 間隔內所傲的更徹底的檢查。“l(fā)s Alive”輪詢問隔通常比“Looks Alive”輪詢問隔長。


(2)如果資源 DLL 報告資源不可操作,那么集群服務會嘗試重新啟動資源??梢灾付悍赵谝唤o定時間間隅內嘗試重新啟動資源的次數(shù)如果集群服務在指定的時間向陸內所做的嘗試的數(shù)量超過了最大重新啟動嘗試次數(shù),但是資源仍不可操作,那么集群服務會認為資源出了故障。


可以配置是否故障資源引起包含該資源的組故障轉移到其他節(jié)點。如果故障資源配肯為引起包含該資源的組故障轉移到其他節(jié)點,那么集群服務將嘗試故障轉移。如果故障轉移嘗試次數(shù)坦過組的闕值而資源仍然處在故障狀態(tài),則集群服務將嘗試資源的重新啟動。在資源的“故障重試周期”屬性(所有資源的一個一般屬性)指定的周期結束后,將做重新啟動嘗試。集群服務開始對資源嘗試重新啟動然后故障轉移。


雖然“故障重試周期”屬性的單位是ms,但按分鐘順序選擇值。還可以選擇比資源重新啟動周期屬性值大的或者相等的值并強制執(zhí)行這個規(guī)則。


海外服務器免費測試http://hbjsdrq.com/


USA-IDC為您提供免備案服務器 0元試用
立即聯(lián)系在線客服,即可申請免費產(chǎn)品試用服務
立即申請