[[PageOutline]] = 六月份 工作計畫 = == 預定目標 == * [Running][5/28] map-reduce 程式設計 && reading "Thinking In JAVA " * [Running][6/1] 找 map-reduce 相關應用範例 * [Planing][6/1] paper : IDS in Grid OR Parallel * [Planing][has not yet started] nutch 應用範例 -> 索引硬碟資料 == 工作日誌 == === 6/6 === [wiki:hadoop_hbase_sample2 map-reduce with hbase sample code] 已解決之前的問題 * 程式說明 :將檔案中的資料用map-reduce方式餵入hbase * 解決方法: 由於檔案讀取時是以行為單位,因此大部分的sample code一行能parser的檔案一行只有兩個欄位,前面的欄位當key,後面的欄位當value,但我想並不是所有的應用都兩個欄位就可以,因此設計一parse三個欄位的程式。也因如此,從程式當中的取出的原始資料流為byte[] 格式,為了利用split()函數切割欄位的值需要把byte[]轉string ,parse 完後再將string 轉回byte[]。錯誤的關鍵在於,當byte[]轉string時用 Byte.toSring()函數,但後來測試發現此函數轉出來的皆為亂碼,亂碼在配合split()就會出現run time error了。故換成 String str = new String(byte);則可以轉出正常,之後string轉回byte則用String.getByte()即可。 === 6/5 === 參觀電腦展 === 6/4 === 試寫一 [wiki:hadoop_hbase_error_sample2 map-reduce with hbase sample code] 但有錯誤 錯誤訊息如下: {{{ 08/06/04 18:03:21 INFO mapred.FileInputFormat: Total input paths to process : 1 08/06/04 18:03:22 INFO mapred.JobClient: Running job: job_200805291341_0019 08/06/04 18:03:23 INFO mapred.JobClient: map 0% reduce 0% 08/06/04 18:03:28 INFO mapred.JobClient: map 100% reduce 0% 08/06/04 18:03:36 INFO mapred.JobClient: Task Id : task_200805291341_0019_r_000000_0, Status : FAILED java.lang.ArrayIndexOutOfBoundsException: 1 at tw.org.nchc.demo.DemoHBaseSink$ReduceClass.reduce(DemoHBaseSink.java:63) at tw.org.nchc.demo.DemoHBaseSink$ReduceClass.reduce(DemoHBaseSink.java:1) at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:333) at org.apache.hadoop.mapred.TaskTracker$Child.main(TaskTracker.java:2084) }}} === 6/3 === [wiki:hadoop_hbase_sample1 the sample code 1 : only hbase integration] === 6/2 === ''' Paper Work ''' [[br]] 一直有個想法就是希望能夠在今年以前能寫篇paper來投稿,於是想想 組內發展與grid有關,而之前研究所學的是security, 因此前一陣子找了些Intrusion Detection System vs Grid 相關的paper來看,今天便抽空來看一看 * Towards a Grid-wide Intrusion Detection System * from : Journal of Future Generation Computer Systems , 2007 * A performance Based Grid intrusion detection system * from : IEEE COMPSAC'05 * Design and Evaluation of a Grid computing based architecture for integration heterogeneous IDSs * from : GLOBECOM '07. IEEE 大略看完這三篇,歸類了以下幾點: * 既然有grid,就必定架構在globus之上,因此之間的資料傳輸使用gridFTP,試想是否將gridFTP換成速度更快更穩定的分散是磁碟系統,則效能是否能增加? * sensor , parser 的單元雖然沒有明寫,但我想應該是用snort來作,免費效率又快又不斷更新 * 也許是個common sense,但我覺得每篇的result僅秀出實驗結果但並沒有展現 IDS for Grid 誘人的優點為何? (偵測DDOS命中率?偵測出更多一般host ids無法偵測出的攻擊...) * 要使整個grid有效率的運行必須要有好的dispatch Alg.,因此作這個題目的前提還是得熟悉globus的運作以及排班演算法(完全沒有經驗,糗~~) * 目前真正做出成果的並不多,但有很多篇出自於東海大學楊朝棟老師的實驗室 = 五月份 工作計畫 = * [完成 5/04] 檢查cps是否有錯誤 * [完成 5/22] hadoop 範例教學 -> 字數統計 * [完成 5/24] Building Nutch/Hadoop project in eclipse * [完成 5/27] Programing map-reduce with eclipse 文件 * [new 5/28 ] map-reduce 程式設計 * [new ] nutch 應用範例 -> 索引硬碟資料 [[br]] * [wiki:waue_may 五月份工作日誌] = 一~四月工作日誌 = [http://trac.nchc.org.tw/gocca/wiki/waue 五月以前工作紀錄]