wiki:waue

Context Navigation

Version 31 (modified by waue, 18 years ago) (diff)
--

六月份工作計畫
1. 預定目標
2. 工作日誌
  1. 6/6
  2. 6/5
  3. 6/4
  4. 6/3
  5. 6/2
五月份工作計畫
一～四月工作日誌

六月份工作計畫

預定目標

[Running][5/28] map-reduce 程式設計 && reading "Thinking In JAVA "
[Running][6/1] 找 map-reduce 相關應用範例
[Planing][6/1] paper : IDS in Grid OR Parallel
[Planing][has not yet started] nutch 應用範例 -> 索引硬碟資料

工作日誌

6/6

map-reduce with hbase sample code 已解決之前的問題

程式說明：將檔案中的資料用map-reduce方式餵入hbase
解決方法：

由於檔案讀取時是以行為單位，因此大部分的sample code一行能parser的檔案一行只有兩個欄位，前面的欄位當key，後面的欄位當value，但我想並不是所有的應用都兩個欄位就可以，因此設計一parse三個欄位的程式。也因如此，從程式當中的取出的原始資料流為byte[] 格式，為了利用split()函數切割欄位的值需要把byte[]轉string ，parse 完後再將string 轉回byte[]。錯誤的關鍵在於，當byte[]轉string時用 Byte.toSring()函數，但後來測試發現此函數轉出來的皆為亂碼，亂碼在配合split()就會出現run time error了。故換成 String str = new String(byte);則可以轉出正常，之後string轉回byte則用String.getByte()即可。

小發現：

可以用網頁查看hbase的job 程序 http://localhost:60010?

6/5

參觀電腦展

6/4

試寫一 map-reduce with hbase sample code 但有錯誤錯誤訊息如下：

08/06/04 18:03:21 INFO mapred.FileInputFormat: Total input paths to process : 1
08/06/04 18:03:22 INFO mapred.JobClient: Running job: job_200805291341_0019
08/06/04 18:03:23 INFO mapred.JobClient:  map 0% reduce 0%
08/06/04 18:03:28 INFO mapred.JobClient:  map 100% reduce 0%
08/06/04 18:03:36 INFO mapred.JobClient: Task Id : task_200805291341_0019_r_000000_0, Status : FAILED
java.lang.ArrayIndexOutOfBoundsException: 1
	at tw.org.nchc.demo.DemoHBaseSink$ReduceClass.reduce(DemoHBaseSink.java:63)
	at tw.org.nchc.demo.DemoHBaseSink$ReduceClass.reduce(DemoHBaseSink.java:1)
	at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:333)
	at org.apache.hadoop.mapred.TaskTracker$Child.main(TaskTracker.java:2084)

6/3

the sample code 1 : only hbase integration

6/2

Paper Work

一直有個想法就是希望能夠在今年以前能寫篇paper來投稿，於是想想組內發展與grid有關，而之前研究所學的是security，因此前一陣子找了些Intrusion Detection System vs Grid 相關的paper來看，今天便抽空來看一看

Towards a Grid-wide Intrusion Detection System
- from : Journal of Future Generation Computer Systems , 2007
A performance Based Grid intrusion detection system
- from : IEEE COMPSAC'05
Design and Evaluation of a Grid computing based architecture for integration heterogeneous IDSs
- from : GLOBECOM '07. IEEE

大略看完這三篇，歸類了以下幾點：

既然有grid，就必定架構在globus之上，因此之間的資料傳輸使用gridFTP，試想是否將gridFTP換成速度更快更穩定的分散是磁碟系統，則效能是否能增加？
sensor , parser 的單元雖然沒有明寫，但我想應該是用snort來作，免費效率又快又不斷更新
也許是個common sense，但我覺得每篇的result僅秀出實驗結果但並沒有展現 IDS for Grid 誘人的優點為何? （偵測DDOS命中率？偵測出更多一般host ids無法偵測出的攻擊...）
要使整個grid有效率的運行必須要有好的dispatch Alg.，因此作這個題目的前提還是得熟悉globus的運作以及排班演算法（完全沒有經驗，糗～～）
目前真正做出成果的並不多，但有很多篇出自於東海大學楊朝棟老師的實驗室

五月份工作計畫

[完成 5/04] 檢查cps是否有錯誤
[完成 5/22] hadoop 範例教學 -> 字數統計
[完成 5/24] Building Nutch/Hadoop? project in eclipse
[完成 5/27] Programing map-reduce with eclipse 文件
[new 5/28 ] map-reduce 程式設計
[new ] nutch 應用範例 -> 索引硬碟資料

五月份工作日誌

一～四月工作日誌

五月以前工作紀錄

Download in other formats:

Plain Text