4 | | * [wiki:drbl&hadoop drbl + hadoop 工作紀要] |
5 | | |
6 | | = 十月份 工作計畫 = |
7 | | 1. 計畫書兩份 |
8 | | 2. 繼續完成九月份預計目標 |
9 | | |
10 | | * WebProtal |
11 | | |
12 | | = 九月份 工作計畫 = |
13 | | == 預計目標 == |
14 | | |
15 | | '''實作一個IDS Alert Analysis Protal ''' |
16 | | i. 使用terminal取代Elipse來執行M/R |
17 | | ii. 要能在網頁上取出hbase的欄位內容 |
18 | | iii. 要讓web去驅動java的程式(目前鎖定java applet) |
19 | | iv. 設計最後呈現的結果,讓使用者可以一目瞭然的看結果報告 |
20 | | v. 多個不同row key 的table |
21 | | vi. 升級原本的版本->Hadoop 0.18.1(9/17) & HBase 0.2.0(9/1) |
22 | | vii. 最佳化Map/Reduce 程式碼 |
23 | | (按照順序完成) |
24 | | |
25 | | ps: [http://discoproject.org/ 新的mapReduce平台:Disco ] |
26 | | |
27 | | == 工作日誌 == |
28 | | '''i. 解一:搭配classpath 呼叫''' |
29 | | 編輯一個shell,內容為 |
30 | | {{{ |
31 | | #!/bin/bash |
32 | | LIB=/opt/lib |
33 | | HADOOP_HOME=/opt/hadoop |
34 | | CLASSPATH=\ |
35 | | $HADOOP_HOME/:$HADOOP_HOME/conf/:$LIB/commons-cli-2.0-SNAPSHOT.jar:$LIB/commons-codec-1.3.jar:\ |
36 | | $LIB/commons-collections-3.2.jar:$LIB/commons-logging-1.0.4.jar:$LIB/commons-logging-api-1.0.4.jar:$LIB/commons-httpclient-3.0.1.jar:\ |
37 | | $LIB/commons-math-1.1.jar:$LIB/hadoop-0.16.4-core.jar:$LIB/hbase-0.1.3.jar:$LIB/libthrift-r746.jar:$LIB/log4j-1.2.13.jar:\ |
38 | | $LIB/lucene-core-2.2.0.jar:$LIB/jets3t-0.5.0.jar:$LIB/jetty-5.1.4.jar:$LIB/junit-3.8.1.jar:$LIB/jline-0.9.91.jar:$LIB/kfs-0.1.jar:\ |
39 | | $LIB/servlet-api.jar:$LIB/xmlenc-0.52.jar:\. |
40 | | # echo $CLASSPATH |
41 | | javac -classpath $CLASSPATH ./SnortBase.java |
42 | | java -cp $CLASSPATH SnortBase |
43 | | }}} |
44 | | 注意:其中的CLASSPATH是關鍵,除了要將上述所提到的jar檔都匯入外(run_time時產生java.lang.ClassNotFoundException等error),還有$hadoop_home、$hadoop/conf 都要包含才行(產生連結不到的情形如 ipc.Client: Retrying connect to server: ...) |
45 | | |
46 | | '''i. 解二:包成jar 檔呼叫''' |
47 | | |
48 | | 1. 設定好hadoop使之能在eclipse 上run ,下載[https://trac.nchc.org.tw/cloud/attachment/wiki/waue/Hadoop_on_Command.zip Hadoop_on_Command.zip]並解開於$HADOOP_HOME |
49 | | 2. 執行以下指令: |
50 | | {{{ |
51 | | $ cd $HADOOP_HOME |
52 | | $ mkdir EchoOhce_classes |
53 | | $ javac -classpath $HADOOP_HOME/hadoop-0.16.4-core.jar -d EchoOhce_classes EchoOhce.java |
54 | | $ jar -cvf EchoOhce.jar -C EchoOhce_classes/ . |
55 | | $ bin/hadoop jar EchoOhce.jar com.javaworld.mapreduce.EchoOhce words result |
56 | | }}} |
57 | | 執行狀態: |
58 | | {{{ |
59 | | 08/09/23 17:36:42 INFO mapred.FileInputFormat: Total input paths to process : 3 |
60 | | 08/09/23 17:36:42 INFO mapred.JobClient: Running job: job_200809231722_0001 |
61 | | 08/09/23 17:36:43 INFO mapred.JobClient: map 0% reduce 0% |
62 | | 08/09/23 17:36:46 INFO mapred.JobClient: map 66% reduce 0% |
63 | | 08/09/23 17:36:48 INFO mapred.JobClient: map 100% reduce 0% |
64 | | 08/09/23 17:36:55 INFO mapred.JobClient: map 100% reduce 100% |
65 | | }}} |
66 | | 3. 檢視結果 |
67 | | {{{ |
68 | | $ bin/hadoop dfs -ls result/part-00000 |
69 | | }}} |
70 | | 4. 結論: |
71 | | 此方法需要重新改寫原本有的程式碼如EchoOhce.java的架構 |
72 | | |
73 | | '''i. 解三:hadoop-streaming 支援多種語言法''' |
74 | | |
75 | | 用 hadoop-streaming.jar 可達到多種程式語言的mapReduce (以php舉例), |
76 | | 此為參考[http://www.hadoop.tw/2008/09/php-hadoop.html Hadoop Taiwan User Group] |
77 | | 1. apt-get install php5-cli |
78 | | 2. 將mapper.php 與 reducer.php 的程式內容填入並改權限755 |
79 | | 3. 可以使用以下指令測試程式是否能動: |
80 | | {{{ |
81 | | $ echo "i love hadoop, hadoop love u" | ./mapper.php | ./reducer.php |
82 | | }}} |
83 | | 4. 將input 的內容上傳到hdfs |
84 | | {{{ |
85 | | $ bin/hadoop dfs -put input input |
86 | | }}} |
87 | | 5. 執行hadoop stream指令 |
88 | | 務必注意除了input、ouput可以不用給絕對路徑之外,其他參數都需要給絕對路徑,否則會出錯 |
89 | | {{{ |
90 | | $ hadoop jar /opt/hadoop-streaming.jar -mapper /opt/mapper.php -reducer /opt/reducer.php -input input -output out |
91 | | }}} |
92 | | 6. 結論:此方法較為方便,也可以不用改之前的code,將mapper.php與reducer.php改成之前編譯出來的java class檔即可 |
93 | | (已測試若為內部類別則失敗) |
94 | | |
95 | | === 9/1~9/19 === |
96 | | * 論文趕工 |
97 | | * [wiki:ExperimentHpc-Asia 數據收集、實驗方法] |
98 | | {{{ |
99 | | creatTable(tableName); |
100 | | Long start_time = (new Date()).getTime(); |
101 | | runMapReduce(tableName, path); |
102 | | Long end_time = (new Date()).getTime(); |
103 | | System.out.println(end_time - start_time); |
104 | | }}} |
105 | | * 文章改寫 |
106 | | |
107 | | = 八月份 工作計畫 = |
108 | | * [wiki:Paper 論文投稿] |
109 | | * [目標]map-reduce 程式設計 & 範例教學 & paper : IDS with Cloud Computing |
110 | | * [第三階段] 寫論文(8/25) |
111 | | * [第二階段] 瞭解snort資料庫欄位規劃(7/31)-> 規劃Hbase資料庫欄位(8/8)-> "運行程式並紀錄數據" (8/16) -> 比較 snort in mysql & snort in hbase 的效能 (8/20) |
112 | | * [第一階段] 瞭解apache log parser (7/8完成) -> 修改regular expression (7/15完成) -> 實做parser程式 (7/21完成) -> 實做上傳程式(7/25完成) |
113 | | == 工作日誌 == |
114 | | * [wiki:ExperimentLog 分析資料表單設計] |
115 | | ==== 實驗組 : Cloud compute ==== |
116 | | 1. 修改 /etc/snort/snort.conf |
117 | | |
118 | | {{{ |
119 | | var HOME_NET any |
120 | | var EXTERNAL_NET !$HOME_NET |
121 | | }}} |
122 | | |
123 | | 2. 紀錄警訊 |
124 | | |
125 | | > |
126 | | > $ sudo snort -c /etc/snort/snort.conf -i eth0 |
127 | | |
128 | | > $ sudo tcpreplay -i eth0 --topspeed /home/waue/sp1.tcpdump |
129 | | > |
130 | | |
131 | | 3. 分析格式、載入雲端 |
132 | | |
133 | | * 用一般java application 於 local 運行 SnortParser.java |
134 | | * 修改main的輸入輸出參數 |
135 | | {{{ |
136 | | String in = new String("/home/waue/Desktop/alert_flex.txt"); |
137 | | String ou = new String("/home/waue/Desktop/alert_flex_parsed.txt"); |
138 | | }}} |
139 | | |
140 | | * 載入雲端 |
141 | | |
142 | | > |
143 | | > $ cd /dir/hadoop |
144 | | |
145 | | > $ bin/hadoop dfs -put snort-log/ snort-log/ |
146 | | > |
147 | | |
148 | | 4. 運行並紀錄雲端運算時間 |
149 | | |
150 | | |
151 | | 9.091 |
152 | | |
153 | | ==== 對照組:mysql database ==== |
154 | | 1. 修改 /etc/snort/snort.conf |
155 | | {{{ |
156 | | var HOME_NET any |
157 | | var EXTERNAL_NET !$HOME_NET |
158 | | output database: log, mysql, user=snort password=snort dbname=snort host=localhost |
159 | | }}} |
160 | | |
161 | | 2. 修改程式碼 |
162 | | |
163 | | * mo -> accident_ticket |
164 | | |
165 | | * 換 NewSnortSOCTable.sql -> snort |
166 | | |
167 | | 3. 紀錄警訊 |
168 | | > |
169 | | > $ sudo snort -c /etc/snort/snort.conf -i eth0 |
170 | | |
171 | | > $ sudo tcpreplay -i eth0 --topspeed /home/waue/sp1.tcpdump |
172 | | > |
173 | | |
174 | | 4. 紀錄mysql運算時間 |
175 | | {{{ |
176 | | $ php ./main_uv.php |
177 | | |
178 | | |
179 | | Run :15.7033398151 seconds |
180 | | }}} |
181 | | === 7/30~ 7/31 === |
182 | | * nchc ca |
183 | | === 7/29 === |
184 | | * 解決 nchc ca mail 問題... |
185 | | === 7/25 === |
186 | | * [http://trac.nchc.org.tw/cloud/browser/sample/hadoop-0.16/tw/org/nchc/code/SnortBase.java SnortBase.java] is complete. |
187 | | * snort log -> Hbase 的上傳程式已經完成,接下來需規劃 pure log 的資料庫結構 以及 event 的資料結構 |
188 | | === 7/24 === |
189 | | * !SnortBase.java 已經完成,但無法運作,還需debug ... XD |
190 | | |
191 | | === 7/23 === |
192 | | |
193 | | * [http://trac.nchc.org.tw/cloud/browser/sample/hadoop-0.16/tw/org/nchc/code/SnortUploadHbase.java SnortUploadHbase.java] |
194 | | * 除錯 [http://trac.nchc.org.tw/cloud/browser/svnupload.sh 自動上傳檔案到svn的shell 程式 ] (原本無法遞迴處理資料夾內資料) |
195 | | === 7/22 === |
196 | | * 整理 svn tree (移除沒有意義的class檔) |
197 | | * 更新我 [http://trac.nchc.org.tw/cloud/browser/svnupload.sh 自動上傳檔案到svn的shell 程式 ] |
198 | | |
199 | | === 7/21 === |
200 | | [http://trac.nchc.org.tw/cloud/browser/sample/hadoop-0.16/tw/org/nchc/code/SnortParser.java SnortParser.java] is complete. |
201 | | === 7/14-15 === |
202 | | [wiki:RegularExp 用正規表示法解析 snort 警訊] |
203 | | === 7/11 === |
204 | | [wiki:SnortMysqlUbuntu 安裝snort -> mysql in Ubuntu] |
205 | | === 7/10 === |
206 | | [wiki:Generic 泛型(generic)] |
207 | | === 7/9 === |
208 | | 讀書會報告 [http://trac.nchc.org.tw/grid/attachment/wiki/Reading/map_reduce.ppt 投影片] |
209 | | === 7/4~8 === |
210 | | * [wiki:LogParser] |
211 | | === 7/3 === |
212 | | * 用java 單獨跑 code ok,但用map-reduce方法跑會出錯: |
213 | | * 原因:hbase 1.x 沒有支援到 hadoop 0.17 >"< (但hadoop 0.17會是hbase 2.0的requirement) |
214 | | * 動機1:因為看到官方網頁API以版本0.17為首,google到的0.16 api連結失效(當時,現在是好的><),想說那就升級吧!反正式遲早的事 |
215 | | * 動機2:官網說0.17改進很多bug,並提高很多效能,(但API也改不少,讓我整個專案要處理100多個error及60 多個warning) |
216 | | * 努力改回 hadoop 0.16.4 + hbase 1.3 |
217 | | === 7/2 === |
218 | | * 完成改寫 hadoop 0.16.4 to 0.17.1 |
219 | | * 遇到 hbase 1.3 無法使用 之前設定檔 運作的問題 |
220 | | * 需要把hbase-site.xml 內的 |
221 | | {{{ |
222 | | <value>hdfs://localhost:9000/hbase</value> |
223 | | }}} |
224 | | 此行註解掉(感謝sunny) |
225 | | |
226 | | === 7/1 === |
227 | | [wiki:HBaseRecordPro 用map reduce 分析文件並存入HBase] |
228 | | * Upgrade map-reduce work platform from hadoop 0.16.4 to 0.17.1 |
229 | | * hadoop.site.xml |
230 | | * Eclipse -> include external jar |
231 | | * [http://www.google.com.tw/url?sa=t&ct=res&cd=1&url=http%3A%2F%2Fdownloads.sourceforge.net%2Fjunit%2Fjunit-4.4.jar%3Fmodtime%3D1184865382%26big_mirror%3D0&ei=BPlpSIXCKpKOsAOZzLiLCw&usg=AFQjCNH2KzOX6Xk9tHk8XsctEQxvhCMm-g&sig2=4wDLYDLs-xt5tKDPXv6H4A junit 4] |
232 | | * [https://sourceforge.net/project/showfiles.php?group_id=73840 jung2-alpha2] |
233 | | * 寫一個Convert.java 用來轉換在hadoop 0.17被淘汰掉的 0.16 function |
234 | | |
235 | | = 六月份 工作計畫 = |
236 | | == 預定目標 == |
237 | | * [Running][5/28] map-reduce 程式設計 && reading "Thinking In JAVA " |
238 | | * [Running][6/1] 找 map-reduce 相關應用範例 |
239 | | * [Running][6/10][wiki:MR_manual Map Reduce 開發文件] |
240 | | * [Planning] HBaseMyAdmin 開發 |
241 | | * [Planning][has not yet started] nutch 應用範例 -> 索引硬碟資料 |
242 | | * [Studing][6/1] paper : IDS in Grid OR Parallel |
243 | | == 工作日誌 == |
244 | | * [wiki:waue_june 六月份工作日誌] |
245 | | === 6/30 === |
246 | | * 完成 HBaseRecordPro.java |
247 | | 還待最佳化 |
248 | | === 6/19 === |
249 | | * [http://gm5.nchc.org.tw/gears/ gears 專題網站] |
250 | | === 6/16 === |
251 | | * 預計投稿題目: |
252 | | ids log parser in cloud computing |
253 | | * 簡介: |
254 | | 由於目前的網路攻擊日漸增多,也越凸顯入侵偵測系統的重要性,然而相對應的警訊日誌也相對增加,對系統管理者是另一種惡夢。傳統的作法是到每一台偵測系統去一一檢視其有無入侵或被攻擊的資訊,但此況日費時、勞心勞力;後來便發展有分散式日誌整合系統,將所有管轄內的警訊日誌全集中在一個資料庫內作整合,如此一來便有巨觀的檢視攻擊資訊,大大的增加管理的方便性與準確性(這是我之前的碩士論文);然而大量的資料集合起來處理和分析對系統而言是沈重且龐大的負擔,且在處理當中發生錯誤則白忙一場,還有當資料庫的資料越來越龐大時,搜尋和檢索都會成為問題,基於以上幾點,預計將分散式日誌整合系統加入雲端運算單元。[[BR]] |
255 | | * 架構 |
256 | | 基於以上幾點,預計將分散式日誌整合系統加入雲端運算單元[[BR]] |
257 | | 1. map-reduce:簡化資料處理的複雜度[[BR]] |
258 | | 2. distributed file system:增加資料處理的效率及穩定度[[BR]] |
259 | | 3. big-table:提供高效率的資料庫讀取查詢 [[BR]] |
260 | | |
261 | | * contributions: |
262 | | * 創新性:雲端運算算是很新的領域,有噱頭比較容易上 |
263 | | * 廣泛性:領域跨及資安及分散式運算 |
264 | | * 延展性:利用此題目當作一個雲端的運用,未來說不定可以以此延伸出更多有趣、完整的題目 |
265 | | * 未來性:藉此題目鍊一下雲端運算的功,再向google、或yahoo提出幫他們育才,一來他們的工程師應該醉心於研究寫code,二來育才是我們中心的宗旨,因此若能合作,可開啟無限可能。....(終極目標啦!) |
266 | | |
267 | | ps : 明天要專心來弄gears! |
268 | | |
269 | | === 6/12 === |
270 | | * 持續學習java 以及改寫map-reduce sample code |
271 | | * 將目前手頭正在改寫的檔svn上來 |
272 | | * eclipse 熱鍵篇總覽: |
273 | | {{{ |
274 | | Template:Alt + / |
275 | | 程式碼自動排版:Ctrl+Shift+F |
276 | | 將選取的文字註解起來:Ctrl+/ |
277 | | 視景切換:Ctrl+F8 |
278 | | 快速執行程式:Ctrl + F11 // for java |
279 | | 自動匯入所需要的類別:Ctrl+Shift+O //java only |
280 | | 查看使用類別的原始碼:Ctrl+滑鼠左鍵點擊 // java only |
281 | | 最大化程序編輯窗口 : ctrl + m |
282 | | 快迅定位類中的方法 : ctrl + o |
283 | | 顯示打開的文件列表:ctrl+E |
284 | | 全域搜索打開的文件:ctrl+shift+R |
285 | | 打開java的所有class :ctrl+shift+T |
286 | | 將選中的小寫轉換為大寫:CTRL+SHIFT+X |
287 | | 將選中的大寫轉換為小寫:CTRL+SHIFT+Y |
288 | | }}} |
289 | | |
290 | | === 6/11 === |
291 | | * 開發map-reduce 程式碼,已完成:用map-reduce 方法開HBase table, 寫入資料, 運算字符 |
292 | | === 6/6 === |
293 | | |
294 | | [wiki:hadoop_hbase_sample2 map-reduce with hbase sample code] 已解決之前的問題 |
295 | | |
296 | | * 程式說明 :將檔案中的資料用map-reduce方式餵入hbase |
297 | | * 解決方法: |
298 | | 由於檔案讀取時是以行為單位,因此大部分的sample code一行能parser的檔案一行只有兩個欄位,前面的欄位當key,後面的欄位當value,但我想並不是所有的應用都兩個欄位就可以,因此設計一parse三個欄位的程式。也因如此,從程式當中的取出的原始資料流為byte[] 格式,為了利用split()函數切割欄位的值需要把byte[]轉string ,parse 完後再將string 轉回byte[]。錯誤的關鍵在於,當byte[]轉string時用 Byte.toSring()函數,但後來測試發現此函數轉出來的皆為亂碼,亂碼在配合split()就會出現run time error了。故換成 String str = new String(byte);則可以轉出正常,之後string轉回byte則用String.getByte()即可。 |
299 | | * 小發現 : |
300 | | 可以用網頁查看hbase的job 程序 [http://localhost:60010] |
301 | | === 6/5 === |
302 | | 參觀電腦展 |
303 | | === 6/4 === |
304 | | 試寫一 [wiki:hadoop_hbase_error_sample2 map-reduce with hbase sample code] 但有錯誤 |
305 | | 錯誤訊息如下: |
306 | | {{{ |
307 | | 08/06/04 18:03:21 INFO mapred.FileInputFormat: Total input paths to process : 1 |
308 | | 08/06/04 18:03:22 INFO mapred.JobClient: Running job: job_200805291341_0019 |
309 | | 08/06/04 18:03:23 INFO mapred.JobClient: map 0% reduce 0% |
310 | | 08/06/04 18:03:28 INFO mapred.JobClient: map 100% reduce 0% |
311 | | 08/06/04 18:03:36 INFO mapred.JobClient: Task Id : task_200805291341_0019_r_000000_0, Status : FAILED |
312 | | java.lang.ArrayIndexOutOfBoundsException: 1 |
313 | | at tw.org.nchc.demo.DemoHBaseSink$ReduceClass.reduce(DemoHBaseSink.java:63) |
314 | | at tw.org.nchc.demo.DemoHBaseSink$ReduceClass.reduce(DemoHBaseSink.java:1) |
315 | | at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:333) |
316 | | at org.apache.hadoop.mapred.TaskTracker$Child.main(TaskTracker.java:2084) |
317 | | }}} |
318 | | |
319 | | === 6/3 === |
320 | | [wiki:hadoop_hbase_sample1 the sample code 1 : only hbase integration] |
321 | | === 6/2 === |
322 | | ''' Paper Work ''' [[br]] |
323 | | 一直有個想法就是希望能夠在今年以前能寫篇paper來投稿,於是想想 組內發展與grid有關,而之前研究所學的是security, |
324 | | 因此前一陣子找了些Intrusion Detection System vs Grid 相關的paper來看,今天便抽空來看一看 |
325 | | * Towards a Grid-wide Intrusion Detection System |
326 | | * from : Journal of Future Generation Computer Systems , 2007 |
327 | | * A performance Based Grid intrusion detection system |
328 | | * from : IEEE COMPSAC'05 |
329 | | * Design and Evaluation of a Grid computing based architecture for integration heterogeneous IDSs |
330 | | * from : GLOBECOM '07. IEEE |
331 | | 大略看完這三篇,歸類了以下幾點: |
332 | | * 既然有grid,就必定架構在globus之上,因此之間的資料傳輸使用gridFTP,試想是否將gridFTP換成速度更快更穩定的分散是磁碟系統,則效能是否能增加? |
333 | | * sensor , parser 的單元雖然沒有明寫,但我想應該是用snort來作,免費效率又快又不斷更新 |
334 | | * 也許是個common sense,但我覺得每篇的result僅秀出實驗結果但並沒有展現 IDS for Grid 誘人的優點為何? (偵測DDOS命中率?偵測出更多一般host ids無法偵測出的攻擊...) |
335 | | * 要使整個grid有效率的運行必須要有好的dispatch Alg.,因此作這個題目的前提還是得熟悉globus的運作以及排班演算法(完全沒有經驗) |
336 | | = 五月份 工作計畫 = |
337 | | * [完成 5/04] 檢查cps是否有錯誤 |
338 | | * [完成 5/22] hadoop 範例教學 -> 字數統計 |
339 | | * [完成 5/24] Building Nutch/Hadoop project in eclipse |
340 | | * [完成 5/27] Programing map-reduce with eclipse 文件 |
341 | | * [new 5/28 ] map-reduce 程式設計 |
342 | | * [new ] nutch 應用範例 -> 索引硬碟資料 |
343 | | == 工作里程 == |
344 | | * [wiki:waue_may 五月份工作日誌] |
345 | | === 5/29 === |
346 | | * 已建立 tw.org.nchc. 的 package 檔以供 java import 之用 |
347 | | * 研究hadoop 1.16.4 的程式碼,(hadoop 1.17.0 已公佈, 有些api有改變) |
348 | | * 實做HBase 範例 :方法如下 |
349 | | 1. [http://ftp.twaren.net/Unix/Web/apache/hadoop/hbase/hbase-0.1.2/ 下載原始碼] 解開 |
350 | | 2. 設定 conf/hbase-site.xml |
351 | | {{{ |
352 | | <configuration> |
353 | | |
354 | | <property> |
355 | | <name>hbase.master</name> |
356 | | <value>example.org:60000</value> |
357 | | <description>The host and port that the HBase master runs at. |
358 | | </description> |
359 | | </property> |
360 | | |
361 | | <property> |
362 | | <name>hbase.rootdir</name> |
363 | | <value>hdfs://example.org:9000/hbase</value> |
364 | | <description>The directory shared by region servers. |
365 | | </description> |
366 | | </property> |
367 | | |
368 | | </configuration> |
369 | | }}} |
370 | | 3. 設定 hbase-env.sh |
371 | | {{{ |
372 | | JAVA_HOME=/usr/lib/jvm/java-6-sun |
373 | | ... |
374 | | CLASSPATH=/home/waue/workspace/hadoop/conf |
375 | | }}} |
376 | | 4. set regionserver , slaves about host |
377 | | 5. bin/start-hbase.sh (執行此程式前,需確認HDFS有開啟) |
378 | | * 雖然 hbase 有在運作,但sample code仍報錯 |
379 | | === 5/28 === |
380 | | * 研究map-reduce 程式碼 |
381 | | * hadoop 1.16.2 之後的版本就把hbase分離開來成獨立項目,因此/hadoop/src/java/org/apache/hadoop 已無hbase資料夾項目 (import org.apache.hadoop.hbase.* 將會出錯) |
382 | | |
383 | | === 5/27 === |
384 | | * hadoop技術文件完成 How to Coding Hadoop with Eclipse [http://trac.nchc.org.tw/cloud/browser/hadoop-eclipse.odt (odt format)] or [http://trac.nchc.org.tw/cloud/browser/hadoop-eclipse.pdf (pdf format)] |
385 | | |
386 | | === 5/26 === |
387 | | * hadoop技術文件 How to Coding Hadoop with Eclipse and svn [http://trac.nchc.org.tw/cloud/browser/hadoop-eclipse_svn.odt (odt format)] |
388 | | |
389 | | === 5/23 === |
390 | | * 文件製作中 |
391 | | * 開會 |
392 | | === 5/22 === |
393 | | * 成功編譯hadoop in Eclipse 並解決昨天的問題 |
394 | | * 解決錯誤 5. ==> Window > Preferences > java> compiler: 設定 compiler compliance level to 5.0 (變成9個warning) |
395 | | * 解決錯誤 7.1 ==> add a new MapReduce server location > server name : 任意 、 Hostname : localhost 、 Installation directory: /home/waue/workspace/nutch/ 、 Username : waue |
396 | | * 解決錯誤 7.2 ==> 其實在執行7.1之前需要先將hadoop filesystem startup 起來才行,並且將範例檔放入hadoop filesystem中如bin/hadoop dfs -put 132.txt test |
397 | | * 解決錯誤 8 ==> 打開umd-hadoop-core > src > edu.umd.cloud9.demo > DemoWordCount.java ,編輯程式碼如 String filename = "/user/waue/test/132.txt"; ,接著右鍵點run as ... > 選擇之前設定的hadoop file system > 看到console 端 map-reduce 已經在run即可 |
398 | | * 安裝IBM mapReduce tool |
399 | | 1. 下載 MapReduce_Tools.zip |
400 | | 2. 關掉 Eclipse -> 解壓縮 MapReduce Tools zip 到 /usr/lib/eclipse/plugins/ |
401 | | * 使用 IBM mapReduce tool |
402 | | * 重開啟Eclipse-> 選 File > New > Project ->有 MapReduce category. |
403 | | * 使用教學: Help -> Cheat sheet -> MapReduce -> Write a MapReduce application |
404 | | === 5/21 === |
405 | | * 藉著用此篇文章實做設計map-reduce 程式 [http://www.umiacs.umd.edu/~jimmylin/cloud9/umd-hadoop-dist/cloud9-docs/howto/start.html cloud 9] ,以下紀錄我的作法: |
406 | | 1. Eclipse > Preferences). Select option Team > SVN. Change SVN interface to "SVNKit". |
407 | | 2. by right clicking on left panel > New > Repository Location. |
408 | | * umd-hadoop-dist: https://subversion.umiacs.umd.edu/umd-hadoop/dist |
409 | | * umd-hadoop-core: https://subversion.umiacs.umd.edu/umd-hadoop/core |
410 | | 3. Right click on trunk > Checkout... Follow dialog to check out repository. |
411 | | * ps: 注意 subclipse 相當耗資源,因此執行eclipse 時需加入參數如 "eclipse -vmargs -Xmx512m" 以免遭到 out of memory error |
412 | | 4. switch back to the Java perspective, have two new projects: umd-hadoop-core and umd-hadoop-dist. |
413 | | 5. Select menu option: Project > Clean... (卡住.. 因為發生了九百多個錯誤 ) |
414 | | 6. enable the MapReduce servers window go to: Window > Show View > Other... > MapReduce Tools > MapReduce Servers |
415 | | 7.1 At the top right edge of the tab, you should see two little blue elephant icons. The one on the right allows you to add a new MapReduce server location. The hostname should be the IP address of the controller. You want to enable "Tunnel Connections" and put in the IP address of the gateway. (只有看到一隻大象) |
416 | | 7. 2 At this point, you should now have access to DFS. It should show up under a little elephant icon in the Project Explorer (on the left side of Eclipse). You can now browse the directory tree. Your home directory should be /user/your_username. A sample collection consisting of the Bible and Shakespeare's works has been preloaded on the cluster, stored at /shared/sample-input. (卡住) |
417 | | 8. Find edu.umd.cloud9.demo.DemoWordCount in the Project Explorer (卡住,找不到該檔) |
418 | | |
419 | | === 5/20 === |
420 | | * 使用eclipse build hadoop 有些工具可以使用 1. subclipse (svn in eclipse plugin) 2. IBM mapReduce toolkit (an applicantion of Hadoop in eclipse) |
421 | | 1. 安裝Subclipse |
422 | | * Help -> Software Updates -> Find and Install... -> search for new features ... -> new remote site -> name : subclipse , site : http://subclipse.tigris.org/update |
423 | | * 由於會出現軟體相依性的問題,因此我是加入舊版&新版的site,並且兩個都勾選安裝,如此一來就可以安裝完成 |
424 | | * Window->Show View->Other…-> SVN->SVN Repository -> new site : http://svn.apache.org/repos/asf/hadoop/core/ |
425 | | * 右鍵menu -> Checkout… -> 點擊Finish即完成 |
426 | | * 若出現 Problem: Javahl interface is not available 的問題,參照以下解決 |
427 | | 1. sudo apt-get install libsvn-javahl libsvn-dev |
428 | | 2. sudo ln -s /usr/lib/jni/libsvnjavahl-1.so /usr/lib/jvm/java-6-sun/jre/lib/i386/client/libsvnjavahl-1.so |
429 | | |
430 | | === 5/19 === |
431 | | * 繼續測試在eclipse 編譯 nutch,發現在上面run的都是jar檔,解開後裡面包的是class file ,因此修改程式碼的方法還要研究 |
432 | | * 5/16的步驟今天突然無法執行,後來解決的方法如下: |
433 | | * ssh localhost 不可有密碼 |
434 | | * 檢查設定檔,如 hadoop.env.sh , nutch.site.xml... |
435 | | * 出現 connect localhost:9000 failed => 1. hadoop namenode -format 2. startup_all.sh 3. hadoop dfs -put urls urls 之後在執行run |
436 | | === 5/16 === |
437 | | * 感謝sunni指點迷津,nutch 成功build in nutch |
438 | | 1. File ==> new ==> Project ==> java project ==> Next ==> Project name (設成 nutch0.9) ==> Contents ==> Create project from existing(選擇存放nutch路徑) ==> Finish. |
439 | | 2. 此時會出現366個error , 即使用網路上得除錯方法:將兩個jar( [http://nutch.cvs.sourceforge.net/*checkout*/nutch/nutch/src/plugin/parse-mp3/lib/jid3lib-0.5.1.jar jid3lib-0.5.1.jar] 和 [http://nutch.cvs.sourceforge.net/*checkout*/nutch/nutch/src/plugin/parse-rtf/lib/rtf-parser.jar rtf-parser.jar] ) 放入nutch-0.9的lib文件夾下。在Eelipse中右鍵點擊 nutch0.9 ==> properties.. ==> Java Build Path ==> Librarles ==> Add External JARs... ==> 點選剛下載的兩個jar ==>ok |
440 | | 3. 但此時還是有一堆錯誤,解決的方法是 Eelipse中右鍵點擊 nutch0.9 ==> properties.. ==> Java Build Path ==> Source ==>將資料夾圖示的都刪掉,僅加入nutch/conf |
441 | | 4. 此時會看到所有的錯誤都解除,接著修改 nutch/conf 內的 nutch-site.xml 、 crawl-urlfilter.txt、hadoop.site.xml、hodoop.env.sh,並在nutch/ 下加入 urls/urls.txt,並將要掃瞄的網址寫入urls.txt |
442 | | 5. Menu Run > "Run..." ==> create "New" for "Java Application" |
443 | | * set in Main class = org.apache.nutch.crawl.Crawl |
444 | | * on tab Arguments: |
445 | | * Program Arguments = urls -dir crawl -depth 3 -topN 50 |
446 | | * in VM arguments: -Dhadoop.log.dir=logs -Dhadoop.log.file=hadoop.log |
447 | | * click on "Run" |
448 | | |
449 | | |
450 | | === 5/15 === |
451 | | * building nutch in eclipse |
452 | | * 協助 F. P. Lin 申請nchcca憑證 加入pragma grid |
453 | | |
454 | | === 5/14 === |
455 | | * 將nutch 加入 eclipse 作building 但有錯誤 |
456 | | 0. 設定nutch |
457 | | 1. File > New > Project > "Java project" > click Next |
458 | | 2. project 命名為 nutch |
459 | | 3. Select "Create project from existing source" and use the location where you downloaded Nutch |
460 | | 4. Click on Next, and wait while Eclipse is scanning the folders |
461 | | 5. Libraries(第三個tagJ) Add class Floder -> "conf" |
462 | | 6. Eclipse should have guessed all the java files that must be added on your classpath. If it's not the case, add "src/java", "src/test" and all plugin "src/java" and "src/test" folders to your source folders. Also add all jars in "lib" and in the plugin lib folders to your libraries |
463 | | 7. Set output dir to "tmp_build", create it if necessary |
464 | | |
465 | | |
466 | | === 5/13 === |
467 | | 1. 檢查並修改trac 上得cps是否為維誠給的 [apgrid同意版] |
468 | | 1. 將word檔內容貼到文字檔 ori.txt |
469 | | 2. 將trac上得內容貼到文字檔 new.txt |
470 | | 3. 消除不同的格式 (如 "\n\n"->" \n " (換兩行->換一行)、"._"、 "___*_"、":_\n") |
471 | | 4. vimdiff new.txt ori.txt |
472 | | 5. 檢查結果如下 http://trac.nchc.org.tw/gocca/wiki/CPSnew?action=diff&version=27&old_version=26 |
473 | | |
474 | | === 5/12 === |
475 | | 1. 完成 [http://trac.nchc.org.tw/gocca/wiki/CPSnew nchc cp/cps v.1.13] (apgrid 同意) 版本 於 ca網站及trac |
476 | | 主要麻煩為:最後經weicheng確認並認可的是word檔,要轉成html且wiki格式的步驟流程 |
477 | | 1. cps 1.1.3 on doc format -> new.txt文字檔 |
478 | | 2. cps 1.1.0 on html format in trac -> old.txt文字檔 |
479 | | 3. vimdiff new.txt old.txt 檢視不同資訊 並修改 trac上舊的cps 1.1.0資訊成新版的 |
480 | | 4. 將新的cps 1.1.3 從trac存到local 並用KompoZer編輯成原ca網站上的格式 |
481 | | 5. 上傳並取代舊版 |
482 | | === 5/8 === |
483 | | 1. 基於資安問題將nutch限制瀏覽ip,修改conf/server.xml檔,加入 |
484 | | {{{ |
485 | | |
486 | | <Context path="/path/to/secret_files" ...> |
487 | | <Valve className="org.apache.catalina.valves.RemoteAddrValve" |
488 | | allow="127.0.0.1" deny=""/> |
489 | | </Context> |
490 | | }}} |
491 | | |
492 | | 2. tomcat 調校方法 |
493 | | [http://www.oreilly.com.tw/column_editor.php?id=e137 中文] 、 [http://www.onjava.com/lpt/a/3909 英文] |
494 | | |
495 | | === 5/7 === |
496 | | 1. nutch 運作於 管理規範專區成功,並parse進pdf,word內容 改法為在nutch.site.xml加入內容 |
497 | | |
498 | | {{{ |
499 | | <property> |
500 | | <name>plugin.includes</name> |
501 | | <value>protocol-http|urlfilter-regex|parse-(text|html|js|pdf|msword|rss|rtf|oo|msexcel|parse-mspowerpoint)|index-basic|query-(basic|site|url)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)</value> |
502 | | <description>... |
503 | | </description> |
504 | | </property> |
505 | | }}} |
506 | | |
507 | | parse-(text|html|js|pdf|msword|rss|rtf|oo|msexcel|parse-mspowerpoint)內的檔名需要對應plugins中parse-XXX的名稱而定 |
508 | | |
509 | | === 5/5 === |
510 | | 1. nutch 運作於 管理規範專區成功,但內容卻不包含pdf, word, ... |
511 | | |
512 | | = 一~四月工作日誌 = |
513 | | [http://trac.nchc.org.tw/gocca/wiki/waue 五月以前工作紀錄] |
514 | | |
| 3 | = [wiki:waue/2009 2009 年 工作記事] = |
| 4 | = [wiki:waue/2008 2008 年 工作記事] = |