| 1 | |
| 2 | {{{ |
| 3 | #!html |
| 4 | <div style="text-align: center; color:#151B8D"><big style="font-weight: bold;"><big><big> |
| 5 | crawlzilla 新版 |
| 6 | </big></big></big></div> <div style="text-align: center; color:#7E2217"><big style="font-weight: bold;"><big> |
| 7 | v 1.0 |
| 8 | </big></big></div> |
| 9 | }}} |
| 10 | [[PageOutline]] |
| 11 | |
| 12 | = 目標 = |
| 13 | |
| 14 | * 多人共用版本 |
| 15 | * 網頁介面更新 |
| 16 | * 加入排程等新功能 |
| 17 | * 更新 nutch 版本至 1.2 |
| 18 | * svn 庫上的安裝測試模式 |
| 19 | * slave安裝可搭配網頁引導 |
| 20 | |
| 21 | = 系統分析 = |
| 22 | |
| 23 | == 目錄結構 == |
| 24 | |
| 25 | * /home/crawler/crawlzilla |
| 26 | || 目錄1 || 目錄2 || 說明 || |
| 27 | || ./user/admin/ || ./IDB/XXX/meta || admin 為預設資料夾,XXX 為新增索引庫, meta 放每個索引庫的相關檔案 || |
| 28 | || || ./IDB/XXX/index~segments || index~segments 為 lucene db 的必要五個資料夾|| |
| 29 | || ./user/UUU/ || ./IDB/XXX/meta || UUU 為新增使用者名稱,使用者新增移除由 console 端管控 || |
| 30 | || || ./IDB/XXX/index~segments || 其他設定與 admin相同 || |
| 31 | || ./system/ || ./bin || 放 crawlzilla 的系統檔|| |
| 32 | || ./system/ || ./meta || dialog 產生的中間檔 || |
| 33 | || ./slave/ || || 給 slave 安裝需要的檔案 || |
| 34 | || ./tmp/ || || 暫存檔 || |
| 35 | |
| 36 | * /opt/crawlzilla/ |
| 37 | || 目錄1 || 目錄2 || 說明 || |
| 38 | || ./tomcat || ./webapps/UUU/XXX || 對應到 UUU 的 XXX 索引庫 || |
| 39 | || ./nutch || || nutch 的目錄 || |
| 40 | || ./workspace || || hadoop 的運算資料夾 || |
| 41 | |
| 42 | * /var/log/crawlzilla/ |
| 43 | || 目錄1 || 目錄2 || 說明 || |
| 44 | || ./hadoop-logs || || || |
| 45 | || ./hadoop-pids || || || |
| 46 | || ./shell-logs || || || |
| 47 | || ./tomcat-logs || || || |