10 | | * [[Image(wiki:jazz/09-09-17:data_growth.png,width=600)]] |
11 | | * [[Image(wiki:jazz/09-09-17:data_types_size.png,width=600)]] |
12 | | * [[Image(wiki:jazz/09-09-17:latency_comparison.png,width=600)]] |
| 10 | * 這個投影片留在桌面上許久了,先前就已經看過,今天稍微整理一下裡面我覺得比較重要的幾張投影片。裡面還有提到 Pig 跟 Hadoop 開發的比較,有興趣的可以下載看一下。 |
| 11 | * 資料爆炸是這一波運算改革的主要動力,半導體產業信奉的 Moore's Law 是每十八個月電晶體數量成長兩倍。但這裡秀出很可怕的是基因資料庫資料成長的速度是每十八個月八倍。[[BR]][[Image(wiki:jazz/09-09-17:data_growth.png,width=600)]] |
| 12 | * 一年產生出來的資料合計是 27 萬 Peta Bytes[[BR]]其中排行前三大是人類基因資料庫(7000PB),個人電子相簿(1000PB+),年度電子信箱流量(300PB+)[[BR]][[Image(wiki:jazz/09-09-17:data_types_size.png,width=600)]] |
| 13 | * Data Intensive Computing 目前的速度瓶頸目前仍舊受限於 Disk I/O,因此除了分散式儲存外,從計算機的結構面來看,改用 SSD 甚至用 RAM Disk 是可以達成某種程度的加速。[[BR]][[Image(wiki:jazz/09-09-17:latency_comparison.png,width=600)]] |