Crawlzilla 相關文件
- 2013-04-24 CrawlzillaV2.1安裝使用手冊
- 2011-07-07 Crawlzillav1.0 作業系統測試紀錄
- 2011-07-04 Crawlzillav1.0 Release Note
- Crawl參考數據
- v1.0設計文件
- 2010-09-23 上傳ICOS'10 簡報檔及PDF檔
- 2011-10-20 Crawlzillav1.0 網頁功能清單
Crawlzilla 2.1(單機版)開發進度
項目 | 進度 | 備註 |
安裝 | 95%(套件檢查未完成) | shell script |
SH管理 | 5% | 項目訂定 |
管理 | 90% | web介面(JQuery mobile?) |
CrawlJob 流程狀態
- 1. 正常流程為藍色區塊,紅色區塊代表非正常流程
- 2. Fair Job仍可Re-Index或直接刪除此次爬取之檔案
判斷Job是否可以修復
- Step1:檢查crawlDB資料夾是否存在DB Name
- Step2:檢查solr.xml及solr資料夾是否存在DB Name,均存在則可執行Step3.a,若不存在則必須執行Step3.b,砍掉重練
- Step3.a:執行reindex程序
- Step3.b:若存在以下資料,則刪除
crawlDB/DB_Name solr.xml solr folder
狀況
找不到solrconfig.xml
: java.io.IOException:java.io.IOException: Can't find resource 'solrconfig.xml' in classpath or '/conf/', cwd=/opt/crawlzilla/solr/example Please check your logs for more information
網頁啟動Solr
- 系統有順利啟動,查的到pid,但solr網頁無法順利開啟
- 目前可work,時好時壞,原因不明
不穩定之服務2013/04/15
- 網頁啟動Solr
- JavaBean? 呼叫shell
待測試及新增項目
- (v) 多搜尋引擎
- 加入中文分詞套件庫
- (測試中,尚未穩定) 本機檔案搜尋
- 檔案伺服器
- 檢查相同索引庫名稱,避免衝突
- tomcat + solr
- Search UIajax-solr, 測試後無法正常使用(url "#"號問題),待測tomcat
V2.1 Bata Release Todo List
- (v)[Web] delete, fix function
- (v)[Web] change PW
- (v)tar crawlzilla-v2.1-bata.tar.gz
V2.1 Test Note
- 網址重導頁須檢查
- Download Link速度太慢
- 第一次爬取失敗,但reindex shell可發揮效用
- 網頁執行shell有時不能work
Last modified 12 years ago
Last modified on May 18, 2013, 11:10:50 PM
Attachments (3)
- Crawlzilla@ICOS2010(2010-09-17~19).pptx (2.8 MB) - added by shunfa 14 years ago.
- Crawlzilla@ICOS2010(2010-09-17~19).pdf (16.6 MB) - added by shunfa 14 years ago.
- V2.1-CrawlJobStatus.png (37.5 KB) - added by shunfa 12 years ago.