wiki:waue/2011/07

Context Navigation

七月份工作日誌

icas + 課程教材 + crawlzilla

總覽
01
04
05
06
07
08
11 ~ 12
13
14
15
18~22
25
26
27
28
29

總覽

* icas

完成網頁呈現部份
完成安裝 shell
完成與網路組ids(nk7admin)整合
完成整理黑名單部份
完成攻擊圖 / hour ; lists / period
完成圖資整理功能
5 bugs fixed （nk7admin資料亂碼、分類錯誤、優先權錯誤、crontab 設定、使用者權限）

* crawlzilla

完成 2 db merge auto complete shell
研究 nutch 1.3
研究 update db
1 bug fix ( opensuse java)
維護中心內網搜尋

* hadoop & hbase 進階課程

01

crawlweb2 已可運作
完成測試 install.sh
與網路組討論日誌上傳與黑名單傳送

04

upload.php 即時運算
classify bugfix
blacklist 只要最高優先，並略過 classify 欄位

05

blacklist 功能完成
priority bugfix

06

新增紀錄系統運作功能
圖資整理功能

07

架設檔案上傳 ftp
更新 install.sh
打包 icas 專案

08

準備課程教材

11 ~ 12

上課 html + js

13

icas 與 nk7admin 主機資料傳輸問題
- ftp 上傳空間內只有看到資料夾卻沒有log
- 檔頭有亂碼導致 parser 錯誤
- 惠敏 725

解決資料亂碼問題

資料夾為 ftp:///NK6000/時間/xxx.csv
ftp:///NK6000/2011071316/xxx.csv
程式該如何設計，每小時自動抓最新的檔案來parser 而不抓以前已經抓到過的。

14

[預計&完成] Crawlzilla : future work plan with fafa

[完成] nk7admin 的檔案parser

系統傳來的是 zip 檔
zip 檔解壓後檔名有亂碼
檔案內的文字也有亂碼

15

[完成] icas 與 nk7admin 的傳輸溝通

[預計] 課程教材整理

18~22

[完成] 課程教材

25

[預計&完成] crawlzilla opensuse bug fix

[研究] nutch crawl db merge error

26

[研究] nutch crawl db merge 2db

27

[研究] nutch1.3

28

研究 nutch 心得：
- 已經取消與 tomcat 結合的 war 檔，而使用 solr 的介面作搜尋，但明顯難用很多，solr 服務也需先打開
- 爬取結果也與之前 1.2 版本不同， 1.3 只有三個資料夾，1.2 以前則有五個資料夾
- mso,pdf,ooo 等檔案格式也不在plugin 內看到，猜測已用 tika （content analysis toolkit）全部整合取代
- 設定前需用 ant 編譯過後才可以使用，許多設定也與之前版本不同
結論：繼續使用 nutch 1.2 為 crawlzilla 的延伸

[debug] crawlzilla : mergecrawl (ok)

29

[debug] icas priority bug (ok)

[研究] ubuntu cron

[debug] icas nk7admin cron error

[維護] 中心內網搜尋引擎資料更新

Last modified 15 years ago Last modified on Jul 29, 2011, 3:55:42 PM

Download in other formats:

Plain Text