wiki:codb_rodb_inbio

Version 1 (modified by sunny, 16 years ago) (diff)

--

以生物醫學資訊為例探討欄位導向與列導向的資料庫設計觀念轉換

【背景說明】

由於在幫陽明製作生物醫學資料庫的過程中發現,其病理資料內容對於每份個案的描述方式其實不太相同,在醫囑說明的部份會隨著個案的變化增加或減少描述欄位,而若是考慮要做出資料量擴及全國或全球的生物醫學資料庫分析系統,以資料量而言應該是會多達Terabyte級數,就單一個關連式資料庫引擎,如:MySQL,來實現,可能會受限於單一資料表的使用容量上限限制,而需要設計出分散式資料庫架構來放置資料與平衡負載,這對於需要做整體資料分析的系統來說,會多出額外I/O負擔來整合搜尋結果,就搜尋效能及系統架構而言不見得是唯一最佳解;而欄位導向資料庫,如:Hypertable,強調的正是資料表可擴展至Terabyte的高度延展能力與快速搜尋效能,唯欄位導向資料庫的缺點是寫入效能不好,所以較適合批次式的寫入資料作為搜尋用途,這對於用作生物資訊的搜尋引擎也不成問題,因為這些資料正好就是成批收集後作為分析用途,因此,導入欄位導向資料庫不失為句量資料分析資料庫的好方案。

【選用理由】

  1. 搜尋速度快速
  2. 資料表延展容量隨著儲存空間改變
  3. 單一資料表就可以達到terabyte以上等級的處理容量
  4. 資料庫設計容易,資料欄位可以動態延展
  5. 資料適合以批次方式載入資料庫