NCHC.Hadoop 運算功能
- 檢查點
可選擇的功能 | 運算結果(sec) | 算出花費時間 | 參數個數配置 | 備註 |
wordcount | v | v(19) | v | |
mwc | v | v(10) | v | |
grep | 改正輸出訊息 | x | X | grep (and){ "and,and1,depand"} 有 3個 ,但 wordcount中的 and 只有 1個 |
nchcgrep | v | v(32) | v | 輸出結果的size會比原本的檔多30倍以上(視一行有多少個字而定) |
hello | v | v(19) | v | 把字數累加進結果檔 |
sort | x | 來源檔資料不知為何 |
- wordcount 與 mwc (multi-file wordcount)幾乎沒有差別,最明顯的不同是: mwc 用了 MultiFileInputFormat? 這個類別來設定輸入型態,因此目前測試出,只有在以下情況有些微不同...
- 結果檔內,mwc可以分析的出某些特殊字元,但wordcount卻看成同一個
- mwc運算速度比較快
Last modified 15 years ago
Last modified on Jul 13, 2009, 4:39:35 PM