wiki:crawlzilla-1.0

Version 2 (modified by waue, 13 years ago) (diff)

--

crawlzilla 新版
v 1.0

目標

  • 多人共用版本
  • 網頁介面更新
  • 加入排程等新功能
  • 更新 nutch 版本至 1.2
  • svn 庫上的安裝測試模式
  • slave安裝可搭配網頁引導

系統分析

目錄結構

  • /home/crawler/crawlzilla
目錄1 目錄2 說明
./user/admin/ ./IDB/XXX/meta admin 為預設資料夾,XXX 為新增索引庫, meta 放每個索引庫的相關檔案
./IDB/XXX/index~segments index~segments 為 lucene db 的必要五個資料夾
./user/UUU/ ./IDB/XXX/meta UUU 為新增使用者名稱,使用者新增移除由 console 端管控
./IDB/XXX/index~segments 其他設定與 admin相同
./system/ ./bin 放 crawlzilla 的系統檔
./system/ ./meta dialog 產生的中間檔
./slave/ 給 slave 安裝需要的檔案
./tmp/ 暫存檔
  • /opt/crawlzilla/
目錄1 目錄2 說明
./tomcat ./webapps/UUU/XXX 對應到 UUU 的 XXX 索引庫
./nutch nutch 的目錄
./workspace hadoop 的運算資料夾
  • /var/log/crawlzilla/
目錄1 目錄2 說明
./hadoop-logs
./hadoop-pids
./shell-logs
./tomcat-logs