= Crawlzilla 相關文件 = * 2013-04-24 [wiki:crawlzilla/crawlzillaV2.1-usage CrawlzillaV2.1安裝使用手冊] * 2011-07-07 [wiki:crawlzilla/v1.0_TestingReport Crawlzillav1.0 作業系統測試紀錄] * 2011-07-04 [wiki:crawlzilla/v1.0_relasedNote Crawlzillav1.0 Release Note] * [wiki:crawlzilla/crawl_statistics Crawl參考數據] * [wiki:crawlzilla-1.0 v1.0設計文件] * 2010-09-23 上傳ICOS'10 簡報檔及PDF檔 * 2011-10-20 [wiki:/crawlzilla/v1.0_webfunctions Crawlzillav1.0 網頁功能清單] = Crawlzilla 2.1(單機版)開發進度 = || 項目 || 進度 || 備註 || || 安裝 || 95%(套件檢查未完成) || shell script|| || SH管理 || 5% || 項目訂定 || || 管理 || 90% || web介面(JQuery mobile?) || == !CrawlJob 流程狀態 == * 1. 正常流程為藍色區塊,紅色區塊代表非正常流程 * 2. Fair Job仍可Re-Index或直接刪除此次爬取之檔案 [[Image(V2.1-CrawlJobStatus.png)]] == 判斷Job是否可以修復 == * Step1:檢查crawlDB資料夾是否存在DB Name * Step2:檢查solr.xml及solr資料夾是否存在DB Name,均存在則可執行Step3.a,若不存在則必須執行Step3.b,砍掉重練 * Step3.a:執行reindex程序 * Step3.b:若存在以下資料,則刪除 {{{ #!text crawlDB/DB_Name solr.xml solr folder }}} == 狀況 == === 找不到solrconfig.xml === {{{ #!text : java.io.IOException:java.io.IOException: Can't find resource 'solrconfig.xml' in classpath or '/conf/', cwd=/opt/crawlzilla/solr/example Please check your logs for more information }}} === 網頁啟動Solr === * 系統有順利啟動,查的到pid,但solr網頁無法順利開啟 * 目前可work,時好時壞,原因不明 === 不穩定之服務2013/04/15 === * 網頁啟動Solr * JavaBean 呼叫shell == 待測試及新增項目 == * (v) 多搜尋引擎 * 加入中文分詞套件庫 * (測試中,尚未穩定) 本機檔案搜尋 * 檔案伺服器 * 檢查相同索引庫名稱,避免衝突 === V2.1 Bata Release Todo List === * (v)[Web] delete, fix function * (v)[Web] change PW * (v)tar crawlzilla-v2.1-bata.tar.gz === V2.1 Test Note === * 網址重導頁須檢查 * Download Link速度太慢 * 第一次爬取失敗,但reindex shell可發揮效用 * 網頁執行shell有時不能work