Version 18 (modified by waue, 13 years ago) (diff) |
---|
七月份工作日誌
icas + 課程教材 + crawlzilla
01
- crawlweb2 已可運作
- 完成測試 install.sh
- 與網路組討論 日誌上傳 與 黑名單傳送
04
- upload.php 即時運算
- classify bugfix
- blacklist 只要最高優先,並略過 classify 欄位
05
- blacklist 功能完成
- priority bugfix
06
- 新增 紀錄系統運作功能
- 圖資整理功能
07
- 架設檔案上傳 ftp
- 更新 install.sh
- 打包 icas 專案
08
- 準備課程教材
11 ~ 12
- 上課 html + js
13
- icas 與 nk7admin 主機資料傳輸問題
- ftp 上傳空間內只有 看到資料夾卻沒有log
- 檔頭有亂碼導致 parser 錯誤
- 惠敏 725
- 解決資料亂碼問題
資料夾為 ftp:///NK6000/時間/xxx.csv ftp:///NK6000/2011071316/xxx.csv 程式該如何設計,每小時自動抓最新的檔案來parser 而不抓以前已經抓到過的。
14
[預計&完成] Crawlzilla : future work plan with fafa
[完成] nk7admin 的檔案parser
- 系統傳來的是 zip 檔
- zip 檔解壓後檔名有亂碼
- 檔案內的文字也有亂碼
15
[完成] icas 與 nk7admin 的傳輸溝通
[預計] 課程教材整理
18~22
[完成] 課程教材
25
[預計&完成] crawlzilla opensuse bug fix
[研究] nutch crawl db merge error
26
[研究] nutch crawl db merge 2db
27
[研究] nutch1.3
28
- 研究 nutch 心得:
- 已經取消 與 tomcat 結合的 war 檔,而使用 solr 的介面作搜尋,但明顯難用很多,solr 服務也需先打開
- 爬取結果 也與之前 1.2 版本 不同, 1.3 只有三個資料夾,1.2 以前則有五個資料夾
- mso,pdf,ooo 等檔案格式也不在plugin 內看到,猜測已用 tika (content analysis toolkit) 全部整合取代
- 設定前需用 ant 編譯過後才可以使用,許多設定也與之前版本不同
- 結論 : 繼續使用 nutch 1.2 為 crawlzilla 的延伸
[debug] crawlzilla : mergecrawl [debug] icas priority bug