Changes between Version 3 and Version 4 of lustre_failover
- Timestamp:
- Oct 14, 2008, 5:57:28 PM (17 years ago)
Legend:
- Unmodified
- Added
- Removed
- Modified
-
lustre_failover
v3 v4 3 3 並且使用 Heartbeat 來監控電腦是否當機、斷電、網路是否可以連線。一旦發現錯誤,可即時通知 Lustre 的相關 daemon 啟動所謂的 failnode,自動將資料的讀寫轉移到 failnode 上的 OST。 4 4 * 這個部分首先要釐清的是 heartbeat 如何結合 lustre ,是如何告知 lustre 的 daemon 來觸發備援切換的機制。 5 [[BR]] 5 6 * 研究結果發現 heartbeat 可採用 ping 或是接 console port (serial port) 的方式來達到偵測指定的節點是否為 alive 的狀態. 一旦發現指定的節點 failed ,就可以啟動位於/etc/services 底下存在的服務,例如: httpd。 6 7 * 但是問題在於 lustre 的 meta-data server (MGS/MDT)。假設 OSS-1 與 OSS-2 是互相備援的 storage 節點,一旦 OSS-1 掛點,那麼根據 heartbeat 設定的結果,OSS-2 就會啟動成為 primary node,此時按照順序來說,OSS-1 應該要先 umount 它的 OST,接著 OSS-2 再 mount 備援的 OST。 … … 9 10 [[BR]] 10 11 [[BR]] 11 * 針對上述問題,必須要有更好的 framework 來設計整個 lustre 的架構,所有的 primary MGS, primary OSS 都要和 secondary MGS, secondary OSS 切割好。[[BR]]12 * 針對上述問題,必須要有更好的 framework 來設計整個 lustre 的架構,所有的 primary MGS, primary OSS 都要和 secondary MGS, secondary OSS 分開。不能共用同一個 Metadata server。之後將會有更進一步的測試。