Changes between Version 8 and Version 9 of lustre_failover


Ignore:
Timestamp:
Oct 17, 2008, 1:57:07 PM (16 years ago)
Author:
chris
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • lustre_failover

    v8 v9  
    88  * 這裡會發生的第一個問題是 lustre 檔案系統本身就是仰賴網路連結,一旦網路掛了 (heartbeat ping 不到),那麼 OSS-1 umount 它的 OST 時,meta-data server 就無法馬上得知其底下的OSTs 已經 umount 了,對於 lustre client 來說,它所看到的資訊就會是不正確的。
    99  * 第二個問題,假設第一個問題解決(譬如說:使用 console port 來做 heartbeat 的偵測),同樣地,假設 heartbeat 偵測到 OSS-1 故障,OSS-1 先 umount,OSS-2 再 mount 備援的 OST,此時 lustre client 若下達 df -h 指令,就會當掉,這是 lustre 的 bug 或是可以說是 lustre 的缺陷。client 端無法動態 retrieve Meta-data server 的改變。
    10 [[BR]]
    1110[[BR]]
    1211 * 針對上述問題,必須要有更好的 framework 來設計整個 lustre 的架構,所有的 primary MGS, primary OSS 都要和 secondary MGS, secondary OSS 分開。不能共用同一個 Metadata server, 但是這又會衍伸出新的問題,譬如說 primary OSS-1 失效,secondary 的 meta-data server 與 OSS 啟動,那麼 lustre client 必須先將故障的 lustre storage umount,接著再 mount 備援的 lustre storage,這部分有辦法自動執行嗎,當整個 lustre storage pool 很大,而且 lustre client 數量很多時,有無更加有效率可以自動切換的方式呢?