wiki:waue

Version 31 (modified by waue, 16 years ago) (diff)

--

六月份 工作計畫

預定目標

  • [Running][5/28] map-reduce 程式設計 && reading "Thinking In JAVA "
  • [Running][6/1] 找 map-reduce 相關應用範例
  • [Planing][6/1] paper : IDS in Grid OR Parallel
  • [Planing][has not yet started] nutch 應用範例 -> 索引硬碟資料

工作日誌

6/6

map-reduce with hbase sample code 已解決之前的問題

  • 程式說明 :將檔案中的資料用map-reduce方式餵入hbase
  • 解決方法:

由於檔案讀取時是以行為單位,因此大部分的sample code一行能parser的檔案一行只有兩個欄位,前面的欄位當key,後面的欄位當value,但我想並不是所有的應用都兩個欄位就可以,因此設計一parse三個欄位的程式。也因如此,從程式當中的取出的原始資料流為byte[] 格式,為了利用split()函數切割欄位的值需要把byte[]轉string ,parse 完後再將string 轉回byte[]。錯誤的關鍵在於,當byte[]轉string時用 Byte.toSring()函數,但後來測試發現此函數轉出來的皆為亂碼,亂碼在配合split()就會出現run time error了。故換成 String str = new String(byte);則可以轉出正常,之後string轉回byte則用String.getByte()即可。

  • 小發現 :

可以用網頁查看hbase的job 程序 http://localhost:60010?

6/5

參觀電腦展

6/4

試寫一 map-reduce with hbase sample code 但有錯誤 錯誤訊息如下:

08/06/04 18:03:21 INFO mapred.FileInputFormat: Total input paths to process : 1
08/06/04 18:03:22 INFO mapred.JobClient: Running job: job_200805291341_0019
08/06/04 18:03:23 INFO mapred.JobClient:  map 0% reduce 0%
08/06/04 18:03:28 INFO mapred.JobClient:  map 100% reduce 0%
08/06/04 18:03:36 INFO mapred.JobClient: Task Id : task_200805291341_0019_r_000000_0, Status : FAILED
java.lang.ArrayIndexOutOfBoundsException: 1
	at tw.org.nchc.demo.DemoHBaseSink$ReduceClass.reduce(DemoHBaseSink.java:63)
	at tw.org.nchc.demo.DemoHBaseSink$ReduceClass.reduce(DemoHBaseSink.java:1)
	at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:333)
	at org.apache.hadoop.mapred.TaskTracker$Child.main(TaskTracker.java:2084)

6/3

the sample code 1 : only hbase integration

6/2

Paper Work

一直有個想法就是希望能夠在今年以前能寫篇paper來投稿,於是想想 組內發展與grid有關,而之前研究所學的是security, 因此前一陣子找了些Intrusion Detection System vs Grid 相關的paper來看,今天便抽空來看一看

  • Towards a Grid-wide Intrusion Detection System
    • from : Journal of Future Generation Computer Systems , 2007
  • A performance Based Grid intrusion detection system
    • from : IEEE COMPSAC'05
  • Design and Evaluation of a Grid computing based architecture for integration heterogeneous IDSs
    • from : GLOBECOM '07. IEEE

大略看完這三篇,歸類了以下幾點:

  • 既然有grid,就必定架構在globus之上,因此之間的資料傳輸使用gridFTP,試想是否將gridFTP換成速度更快更穩定的分散是磁碟系統,則效能是否能增加?
  • sensor , parser 的單元雖然沒有明寫,但我想應該是用snort來作,免費效率又快又不斷更新
  • 也許是個common sense,但我覺得每篇的result僅秀出實驗結果但並沒有展現 IDS for Grid 誘人的優點為何? (偵測DDOS命中率?偵測出更多一般host ids無法偵測出的攻擊...)
  • 要使整個grid有效率的運行必須要有好的dispatch Alg.,因此作這個題目的前提還是得熟悉globus的運作以及排班演算法(完全沒有經驗,糗~~)
  • 目前真正做出成果的並不多,但有很多篇出自於東海大學楊朝棟老師的實驗室

五月份 工作計畫

  • [完成 5/04] 檢查cps是否有錯誤
  • [完成 5/22] hadoop 範例教學 -> 字數統計
  • [完成 5/24] Building Nutch/Hadoop? project in eclipse
  • [完成 5/27] Programing map-reduce with eclipse 文件
  • [new 5/28 ] map-reduce 程式設計
  • [new ] nutch 應用範例 -> 索引硬碟資料


一~四月工作日誌

五月以前工作紀錄