{{{ #!html
七月份工作日誌
icas + 課程教材 + crawlzilla
}}} [[PageOutline]] = 01 = * crawlweb2 已可運作 * 完成測試 install.sh * 與網路組討論 日誌上傳 與 黑名單傳送 = 04 = * upload.php 即時運算 * classify bugfix * blacklist 只要最高優先,並略過 classify 欄位 = 05 = * blacklist 功能完成 * priority bugfix = 06 = * 新增 紀錄系統運作功能 * 圖資整理功能 = 07 = * 架設檔案上傳 ftp * 更新 install.sh * 打包 icas 專案 = 08 = * 準備課程教材 = 11 ~ 12 = * 上課 html + js = 13 = * icas 與 nk7admin 主機資料傳輸問題 * ftp 上傳空間內只有 看到資料夾卻沒有log * 檔頭有亂碼導致 parser 錯誤 * 惠敏 725 * 解決資料亂碼問題 {{{ #!text 資料夾為 ftp:///NK6000/時間/xxx.csv ftp:///NK6000/2011071316/xxx.csv 程式該如何設計,每小時自動抓最新的檔案來parser 而不抓以前已經抓到過的。 }}} = 14 = [預計&完成] Crawlzilla : future work plan with fafa [完成] nk7admin 的檔案parser * 系統傳來的是 zip 檔 * zip 檔解壓後檔名有亂碼 * 檔案內的文字也有亂碼 = 15 = [完成] icas 與 nk7admin 的傳輸溝通 [預計] 課程教材整理 = 18~22 = [完成] 課程教材 = 25 = [預計&完成] crawlzilla opensuse bug fix [研究] nutch crawl db merge [wiki:waue/2011/0725 error] = 26 = [研究] nutch crawl db merge 2db = 27 = [研究] [wiki:waue/2011/0727 nutch1.3] = 28 = * 研究 nutch 結論: * 已經取消 與 tomcat 結合的 war 檔,而使用 solr 的介面作搜尋,但明顯難用很多,solr 服務也需先打開 * 爬取結果 也與之前 1.2 版本 不同, 1.3 只有三個資料夾,1.2 以前則有五個資料夾 * mso,pdf,ooo 等檔案格式也不在plugin 內看到,猜測已用 tika ([http://tika.apache.org/ content analysis toolkit]) 全部整合取代 * 設定前需用 ant 編譯過後才可以使用,許多設定也與之前版本不同