wiki:waue/2011/07

Version 13 (modified by waue, 13 years ago) (diff)

--

七月份工作日誌
icas + 課程教材 + crawlzilla

01

  • crawlweb2 已可運作
  • 完成測試 install.sh
  • 與網路組討論 日誌上傳 與 黑名單傳送

04

  • upload.php 即時運算
  • classify bugfix
  • blacklist 只要最高優先,並略過 classify 欄位

05

  • blacklist 功能完成
  • priority bugfix

06

  • 新增 紀錄系統運作功能
  • 圖資整理功能

07

  • 架設檔案上傳 ftp
  • 更新 install.sh
  • 打包 icas 專案

08

  • 準備課程教材

11 ~ 12

  • 上課 html + js

13

  • icas 與 nk7admin 主機資料傳輸問題
    • ftp 上傳空間內只有 看到資料夾卻沒有log
    • 檔頭有亂碼導致 parser 錯誤
    • 惠敏 725
  • 解決資料亂碼問題
    資料夾為 ftp:///NK6000/時間/xxx.csv
    ftp:///NK6000/2011071316/xxx.csv
    程式該如何設計,每小時自動抓最新的檔案來parser 而不抓以前已經抓到過的。
    

14

[預計&完成] Crawlzilla : future work plan with fafa

[完成] nk7admin 的檔案parser

  • 系統傳來的是 zip 檔
  • zip 檔解壓後檔名有亂碼
  • 檔案內的文字也有亂碼

15

[完成] icas 與 nk7admin 的傳輸溝通

[預計] 課程教材整理

18~22

[完成] 課程教材

25

[預計&完成] crawlzilla opensuse bug fix

[研究] nutch crawl db merge error

26

[研究] nutch crawl db merge 2db

27

[研究] nutch crawl db merge n.db