Changes between Version 24 and Version 25 of jazz/08-11-05
- Timestamp:
- Nov 5, 2008, 12:23:31 PM (17 years ago)
Legend:
- Unmodified
- Added
- Removed
- Modified
-
jazz/08-11-05
v24 v25 46 46 * 通常輸入跟輸出都是純文字格式,因此預設是 !TextInputFormat 跟 !TextOutputFormat 47 47 * 但如果輸入跟輸出是二進位格式,那就必須使用 !SequenceFileInputFormat 跟 !SequenceFileOutputFormat 當作 Map/Reduce 的 !KeyClass 48 * Input -> InputSplit -> RecordReader 49 * Hadoop 會將輸入切成很多塊 InputSplit, 但是可能會遇到要處理的資料在另一塊 InputSplit 的困擾 48 * Input -> !InputSplit -> !RecordReader 49 * Hadoop 會將輸入切成很多塊 !InputSplit, 但是可能會遇到要處理的資料在另一塊 !InputSplit 的困擾 50 * Reducer 個數建議為 0.95 * num_nodes * mapred.tasktracker.tasks.maximum 這裡的 0.95 是為了預留 5% 的時間來處理其他 node 故障所造成的影響。 50 51 * [http://www.hadoop.tw/2008/09/php-hadoop.html 用 "單機" 跟 "PHP" 開發 Hadoop 程式] 51 52