Context Navigation

Changes between Version 6 and Version 7 of lustre_failover

Timestamp:: Oct 17, 2008, 1:56:35 PM (18 years ago)
Author:: chris
Comment:: --

Legend:

: Unmodified
: Added
: Removed
: Modified

lustre_failover

-                      v6
+                      v7
  * 針對上述問題，必須要有更好的 framework 來設計整個 lustre 的架構，所有的 primary MGS, primary OSS 都要和 secondary MGS, secondary OSS 分開。不能共用同一個 Metadata server, 但是這又會衍伸出新的問題，譬如說 primary OSS-1 失效，secondary 的 meta-data server 與 OSS 啟動，那麼 lustre client 必須先將故障的 lustre storage umount，接著再 mount 備援的 lustre storage，這部分有辦法自動執行嗎，當整個 lustre storage pool 很大，而且 lustre client 數量很多時，有無更加有效率可以自動切換的方式呢?
 今天先到這裡，之後再做更進一步的測試。
+ * 要做到自動切換, 光靠 heartbeat 與 DRBD 是沒有辦法的. 因為 client 需要先將舊的(failed)的檔案系統 umount, 再 mount 上備援的檔案系統, 這個步驟需要先手動設定好(甚至使用自訂的程式)才有可能讓系統自動執行, 姑且稱之為 semi-auto failover 吧. 目前備援機制的流程大致上如下:[[BR]]
+. heartbeat 偵測到 primary 系統故障
+. Client端 umount 故障的 Lustre File System
+. heartbeat 啟動預設的服務 (在 heartbeat 的設定檔中, 指定啟動 /etc/services/ 底下的特定程式)
+   i. umount 故障的 OSS/OST
+  ii. DRBD切換 primary 為 secondary)
+ iii. mount 備援的 OSS/OST 到 備援的 Meta-data server (MGS/MDT) 上
+  iv. DRBD切換 secondary 為 primary
+. Client端 mount 備援的 Lustre File System