[[PageOutline]]
 = 六月份 工作計畫 = 
 == 預定目標 == 
 * [Running][5/28] map-reduce 程式設計 && reading "Thinking In JAVA "
 * [Running][6/1] 找 map-reduce 相關應用範例
 * [Planing][6/1] paper : IDS in Grid OR Parallel
 * [Planing][has not yet started] nutch 應用範例 -> 索引硬碟資料
 == 工作日誌 ==
 === 6/6 === 
 
 [wiki:hadoop_hbase_sample2 map-reduce with hbase sample code] 已解決之前的問題
 * 程式說明 ：將檔案中的資料用map-reduce方式餵入hbase

 *  解決方法：
由於檔案讀取時是以行為單位，因此大部分的sample code一行能parser的檔案一行只有兩個欄位，前面的欄位當key，後面的欄位當value，但我想並不是所有的應用都兩個欄位就可以，因此設計一parse三個欄位的程式。也因如此，從程式當中的取出的原始資料流為byte[] 格式，為了利用split()函數切割欄位的值需要把byte[]轉string ，parse 完後再將string 轉回byte[]。錯誤的關鍵在於，當byte[]轉string時用 Byte.toSring()函數，但後來測試發現此函數轉出來的皆為亂碼，亂碼在配合split()就會出現run time error了。故換成 String str = new String(byte);則可以轉出正常，之後string轉回byte則用String.getByte()即可。

 === 6/5 ===
參觀電腦展
 === 6/4 ===
試寫一 [wiki:hadoop_hbase_error_sample2 map-reduce with hbase sample code] 但有錯誤
錯誤訊息如下：
{{{
08/06/04 18:03:21 INFO mapred.FileInputFormat: Total input paths to process : 1
08/06/04 18:03:22 INFO mapred.JobClient: Running job: job_200805291341_0019
08/06/04 18:03:23 INFO mapred.JobClient:  map 0% reduce 0%
08/06/04 18:03:28 INFO mapred.JobClient:  map 100% reduce 0%
08/06/04 18:03:36 INFO mapred.JobClient: Task Id : task_200805291341_0019_r_000000_0, Status : FAILED
java.lang.ArrayIndexOutOfBoundsException: 1
	at tw.org.nchc.demo.DemoHBaseSink$ReduceClass.reduce(DemoHBaseSink.java:63)
	at tw.org.nchc.demo.DemoHBaseSink$ReduceClass.reduce(DemoHBaseSink.java:1)
	at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:333)
	at org.apache.hadoop.mapred.TaskTracker$Child.main(TaskTracker.java:2084)
}}}

 === 6/3 === 
 [wiki:hadoop_hbase_sample1 the sample code 1 :  only hbase integration]
 === 6/2 === 
 ''' Paper Work ''' [[br]]
一直有個想法就是希望能夠在今年以前能寫篇paper來投稿，於是想想 組內發展與grid有關，而之前研究所學的是security，
因此前一陣子找了些Intrusion Detection System vs Grid 相關的paper來看，今天便抽空來看一看
   * Towards a Grid-wide Intrusion Detection System 
     * from : Journal of Future Generation Computer Systems , 2007
   * A performance Based Grid intrusion detection system
     * from : IEEE COMPSAC'05
   * Design and Evaluation of a Grid computing based architecture for integration heterogeneous IDSs
     * from : GLOBECOM '07. IEEE
大略看完這三篇，歸類了以下幾點：
 * 既然有grid，就必定架構在globus之上，因此之間的資料傳輸使用gridFTP，試想是否將gridFTP換成速度更快更穩定的分散是磁碟系統，則效能是否能增加？
 * sensor , parser 的單元雖然沒有明寫，但我想應該是用snort來作，免費效率又快又不斷更新
 * 也許是個common sense，但我覺得每篇的result僅秀出實驗結果但並沒有展現 IDS for Grid 誘人的優點為何? （偵測DDOS命中率？偵測出更多一般host ids無法偵測出的攻擊...）
 * 要使整個grid有效率的運行必須要有好的dispatch Alg.，因此作這個題目的前提還是得熟悉globus的運作以及排班演算法（完全沒有經驗，糗～～）
 * 目前真正做出成果的並不多，但有很多篇出自於東海大學楊朝棟老師的實驗室

 = 五月份 工作計畫 = 
 * [完成 5/04] 檢查cps是否有錯誤         
 * [完成 5/22] hadoop 範例教學 -> 字數統計            
 * [完成 5/24] Building Nutch/Hadoop project in eclipse           
 * [完成 5/27] Programing map-reduce with eclipse 文件
 * [new 5/28 ] map-reduce 程式設計
 * [new ] nutch 應用範例 -> 索引硬碟資料 
[[br]]
 * [wiki:waue_may 五月份工作日誌] 

 = 一～四月工作日誌 = 
[http://trac.nchc.org.tw/gocca/wiki/waue 五月以前工作紀錄]