wiki:waue/2009/1119

Context Navigation

Hadoop Paper Survey

From IEEE & ACM until 2009 11 18

1. 在異質環境下的動態排班系統
2. 設計一個高效能的雲端平台
3. parallel closed cube 演算法
4. 用雲端運算處理衛星資料
5. 一個整合計算與資料管理的系統
6.用sector做高效能資料探勘
7.探勘日誌來偵測大範圍的系統問題
8. Disco 的實驗論文
9. Sphere 的論文
10. 用Hadoop來算使用者習慣
11. 解決hdfs小檔的一些問題

1. 在異質環境下的動態排班系統

A Dynamic MapReduce Scheduler for Heterogeneous Workloads

基於異質環境下，建立三種排班方式
用模擬的方式，宣稱用在hadoop後能比不用快30%

2. 設計一個高效能的雲端平台

An New Data Parallelism Approach with High Performace Clouds

宣稱設計更為簡化，因此效能較好
號稱某些case比hadoop 快兩倍

3. parallel closed cube 演算法

A Parallel Algorithm for Closed Cube Computation

parallel closed cube 是個不容易瞭解的演算法，而作者設計了一個能用在MR平台下的parallel closed cube 演算法
並宣稱實驗結果有得到好處

4. 用雲端運算處理衛星資料

Cloud Computing for Satellite Data Processing on High End Compute Clusters

用高檔設備透過Hadoop處理衛星資料
此篇數據比較了有用MapReduce 以及沒用的差別（作者說程式沒有差很多）

5. 一個整合計算與資料管理的系統

Clustera: An Integrated Computation And Data Management System

介紹一個資料管理系統，提供兩個特點
- 特點一為有延展性並且有能力於掌控大範圍Job 資料，並用最小的sql查詢語法減少I/O
- 特點二為用最新的軟體建立區塊，如此可以瞭解在應用伺服器或關連資料庫內的效能、使用率等資料
最後用 clustera 跟 Hadoop、 condor 比較

6.用sector做高效能資料探勘

Data Mining Using High Performance Data Clouds

7.探勘日誌來偵測大範圍的系統問題

Detecting Large-Scale System Problems by Mining Console Logs

透過探勘log檔，來偵查出有可能出現的系統runtime problem
實驗於 Hadoop日誌與DarkStar線上遊戲

8. Disco 的實驗論文

DisCo?: Distributed Co-clustering with Map-Reduce

9. Sphere 的論文

Exploring Data Parallelism and Locality in Wide Area Networks

10. 用Hadoop來算使用者習慣

Extraction of User Profile Based on the Hadoop

文章架構與實驗方法類似 icas
此篇用hadoop 來找使用者的習慣，其實只有在做map reduce 字數統計而已
也有畫出單一台與多台hadoop的效能比較，由於他們只有80MB的資料，因此一台最快，三台最慢
Wireless Communications, Networking and Mobile Computing, 2009. WiCom? '09. 5th International Conference on

11. 解決hdfs小檔的一些問題

hdfs 由於要支援海量的資料，因此每個block約64mb，然而小檔案會有一些效能瓶頸的問題
對於如果有設定quota（ex: N=7,S=6G）的話，那如果超過個數或容量任一的話，就會造成錯誤，而mapreduce run到一半的話因為quota超過就會失敗
本篇利用一個支援hadoop的壓縮方法"harballing"來使hdfs更好使用
結果顯示，利用他們的方法模擬出可以減少 metadata 1/42的使用率

Last modified 16 years ago Last modified on Dec 3, 2009, 11:56:47 AM

Download in other formats:

Plain Text