wiki:waue/2011/07

Version 21 (modified by waue, 13 years ago) (diff)

--

七月份工作日誌
icas + 課程教材 + crawlzilla

01

  • crawlweb2 已可運作
  • 完成測試 install.sh
  • 與網路組討論 日誌上傳 與 黑名單傳送

04

  • upload.php 即時運算
  • classify bugfix
  • blacklist 只要最高優先,並略過 classify 欄位

05

  • blacklist 功能完成
  • priority bugfix

06

  • 新增 紀錄系統運作功能
  • 圖資整理功能

07

  • 架設檔案上傳 ftp
  • 更新 install.sh
  • 打包 icas 專案

08

  • 準備課程教材

11 ~ 12

  • 上課 html + js

13

  • icas 與 nk7admin 主機資料傳輸問題
    • ftp 上傳空間內只有 看到資料夾卻沒有log
    • 檔頭有亂碼導致 parser 錯誤
    • 惠敏 725
  • 解決資料亂碼問題
    資料夾為 ftp:///NK6000/時間/xxx.csv
    ftp:///NK6000/2011071316/xxx.csv
    程式該如何設計,每小時自動抓最新的檔案來parser 而不抓以前已經抓到過的。
    

14

[預計&完成] Crawlzilla : future work plan with fafa

[完成] nk7admin 的檔案parser

  • 系統傳來的是 zip 檔
  • zip 檔解壓後檔名有亂碼
  • 檔案內的文字也有亂碼

15

[完成] icas 與 nk7admin 的傳輸溝通

[預計] 課程教材整理

18~22

[完成] 課程教材

25

[預計&完成] crawlzilla opensuse bug fix

[研究] nutch crawl db merge error

26

[研究] nutch crawl db merge 2db

27

[研究] nutch1.3

28

  • 研究 nutch 心得:
    • 已經取消 與 tomcat 結合的 war 檔,而使用 solr 的介面作搜尋,但明顯難用很多,solr 服務也需先打開
    • 爬取結果 也與之前 1.2 版本 不同, 1.3 只有三個資料夾,1.2 以前則有五個資料夾
    • mso,pdf,ooo 等檔案格式也不在plugin 內看到,猜測已用 tika (content analysis toolkit) 全部整合取代
    • 設定前需用 ant 編譯過後才可以使用,許多設定也與之前版本不同
  • 結論 : 繼續使用 nutch 1.2 為 crawlzilla 的延伸

[debug] crawlzilla : mergecrawl (ok)

29

[debug] icas priority bug (ok)

[研究] ubuntu cron

[debug] icas nk7admin cron error