Context Navigation

Changes between Version 10 and Version 11 of lustre_failover

-                      v10
+                      v11
  * 在 Lustre 中，並沒有像 GPFS 本身就有提供 replication data 寫入的機制，因此必須搭配 DRBD 來達到 replication data 的機制。
    並且使用 Heartbeat 來監控電腦是否當機、斷電、網路是否可以連線。一旦發現錯誤，可即時通知 Lustre 的相關 daemon 啟動所謂的 failnode，自動將資料的讀寫轉移到 failnode 上的 OST。
+ * 這個部分首先要釐清的是 heartbeat 如何結合 lustre ，是如何告知 lustre 的 daemon 來觸發備援切換的機制。
+[[BR]]
+ * 這個部分首先要釐清的是 heartbeat 如何結合 lustre ，是如何告知 lustre 的 daemon 來觸發備援切換的機制。[[BR]]
   * 研究結果發現 heartbeat 可採用 ping 或是接 console port (serial port) 的方式來達到偵測指定的節點是否為 alive 的狀態. 一旦發現指定的節點 failed ，就可以啟動位於/etc/services 底下存在的服務，例如: httpd。
   * 但是問題在於 lustre 的 meta-data server (MGS/MDT)。假設 OSS-1 與 OSS-2 是互相備援的 storage 節點，一旦 OSS-1 掛點，那麼根據 heartbeat 設定的結果，OSS-2 就會啟動成為 primary node，此時按照順序來說，OSS-1 應該要先 umount 它的 OST，接著 OSS-2 再 mount 備援的 OST。