Context Navigation

Changes between Version 1 and Version 2 of III110813/Lab5

Timestamp:: Oct 21, 2011, 2:25:46 PM (14 years ago)
Author:: jazz
Comment:: --

Legend:

: Unmodified
: Added
: Removed
: Modified

III110813/Lab5

-                      v1
+                      v2
+[[PageOutline]]
 ◢ <[wiki:III110813/Lab3 實作三]> | <[wiki:III110813 回課程大綱]> ▲ | <[wiki:III110813/Lab5 實作五]> ◣
 = 實作五 Lab 5 =
+[[PageOutline]]
 {{{
 #!html
 …
 }}}
 == MapReduce 範例一『字數統計(WordCount)』 ==
+== 範例一『字數統計(WordCount)』 ==
  * STEP 1 : 練習 MapReduce 丟 Job 指令: 『__'''hadoop jar <local jar file> <class name> <parameters>'''__』
 …
 }}}
    * [[BR]][[Image(Hadoop4Win:hadoop4win_22.jpg,width=600)]]
+== 範例二『用標準表示法過濾內容 grep』 ==
+ * grep 這個命令是擷取文件裡面特定的字元，在 Hadoop example 中此指令可以擷取文件中有此指定文字的字串，並作計數統計[[BR]]grep is a command to extract specific characters in documents. In hadoop examples, you can use this command to extract strings match the regular expression and count for matched strings.
+{{{
+Jazz@human /opt/hadoop
+$ hadoop jar hadoop-*-examples.jar  grep input lab5_out1 'dfs[a-z.]+'
+}}}
+ * 運作的畫面如下：[[BR]]You should see procedure like this:
+{{{
+Jazz@human /opt/hadoop
+$ hadoop jar hadoop-*-examples.jar  grep input lab5_out1 'dfs[a-z.]+'
+/10/21 14:17:39 INFO mapred.FileInputFormat: Total input paths to process : 12
+/10/21 14:17:39 INFO mapred.JobClient: Running job: job_201110211130_0002
+/10/21 14:17:40 INFO mapred.JobClient:  map 0% reduce 0%
+/10/21 14:17:54 INFO mapred.JobClient:  map 8% reduce 0%
+/10/21 14:17:57 INFO mapred.JobClient:  map 16% reduce 0%
+/10/21 14:18:03 INFO mapred.JobClient:  map 33% reduce 0%
+/10/21 14:18:13 INFO mapred.JobClient:  map 41% reduce 0%
+/10/21 14:18:16 INFO mapred.JobClient:  map 50% reduce 11%
+/10/21 14:18:19 INFO mapred.JobClient:  map 58% reduce 11%
+/10/21 14:18:23 INFO mapred.JobClient:  map 66% reduce 11%
+/10/21 14:18:30 INFO mapred.JobClient:  map 83% reduce 16%
+/10/21 14:18:33 INFO mapred.JobClient:  map 83% reduce 22%
+/10/21 14:18:36 INFO mapred.JobClient:  map 91% reduce 22%
+/10/21 14:18:39 INFO mapred.JobClient:  map 100% reduce 22%
+/10/21 14:18:42 INFO mapred.JobClient:  map 100% reduce 27%
+/10/21 14:18:48 INFO mapred.JobClient:  map 100% reduce 30%
+/10/21 14:18:54 INFO mapred.JobClient:  map 100% reduce 100%
+/10/21 14:18:56 INFO mapred.JobClient: Job complete: job_201110211130_0002
+/10/21 14:18:56 INFO mapred.JobClient: Counters: 18
+/10/21 14:18:56 INFO mapred.JobClient:   Job Counters
+/10/21 14:18:56 INFO mapred.JobClient:     Launched reduce tasks=1
+/10/21 14:18:56 INFO mapred.JobClient:     Launched map tasks=12
+/10/21 14:18:56 INFO mapred.JobClient:     Data-local map tasks=12
+/10/21 14:18:56 INFO mapred.JobClient:   FileSystemCounters
+/10/21 14:18:56 INFO mapred.JobClient:     FILE_BYTES_READ=888
+/10/21 14:18:56 INFO mapred.JobClient:     HDFS_BYTES_READ=18312
+/10/21 14:18:56 INFO mapred.JobClient:     FILE_BYTES_WRITTEN=1496
+/10/21 14:18:56 INFO mapred.JobClient:     HDFS_BYTES_WRITTEN=280
+/10/21 14:18:56 INFO mapred.JobClient:   Map-Reduce Framework
+/10/21 14:18:56 INFO mapred.JobClient:     Reduce input groups=7
+/10/21 14:18:56 INFO mapred.JobClient:     Combine output records=7
+/10/21 14:18:56 INFO mapred.JobClient:     Map input records=553
+/10/21 14:18:56 INFO mapred.JobClient:     Reduce shuffle bytes=224
+/10/21 14:18:56 INFO mapred.JobClient:     Reduce output records=7
+/10/21 14:18:56 INFO mapred.JobClient:     Spilled Records=14
+/10/21 14:18:56 INFO mapred.JobClient:     Map output bytes=193
+/10/21 14:18:56 INFO mapred.JobClient:     Map input bytes=18312
+/10/21 14:18:56 INFO mapred.JobClient:     Combine input records=10
+/10/21 14:18:56 INFO mapred.JobClient:     Map output records=10
+/10/21 14:18:56 INFO mapred.JobClient:     Reduce input records=7
+/10/21 14:18:56 WARN mapred.JobClient: Use GenericOptionsParser for parsing th
+e arguments. Applications should implement Tool for the same.
+/10/21 14:18:57 INFO mapred.FileInputFormat: Total input paths to process : 1
+/10/21 14:18:57 INFO mapred.JobClient: Running job: job_201110211130_0003
+( ... skip ... )
+}}}
+ * 接著查看結果[[BR]]Let's check the computed result of '''grep''' from HDFS :
+ * 這個例子是要從 input 目錄中的所有檔案中找出符合 dfs 後面接著 a-z 字母一個以上的字串
+{{{
+Jazz@human /opt/hadoop
+$ hadoop fs -ls lab5_out1
+Found 2 items
+drwxr-xr-x   - Jazz supergroup          0 2011-10-21 14:18 /user/Jazz/lab5_out1/_logs
+-rw-r--r--   1 Jazz supergroup         96 2011-10-21 14:19 /user/Jazz/lab5_out1/part-00000
+Jazz@human /opt/hadoop
+$ hadoop fs -cat lab5_out1/part-00000
+       dfs.class
+       dfs.period
+       dfs.file
+       dfs.replication
+       dfs.servers
+       dfsadmin
+       dfsmetrics.log
+}}}