- crawlzilla 改進
- javascript 加強
10/01 (五)
- demo.crawlzilla.info 網站維護與修改 (https)
10/03 (一)
- demo.crawlzilla.info 網站維護與修改 (jsvc)
10/04 (二)
- icas 網站維護 (sendmail 修正 與 src file backup error)
- crawzilla 測試 tomcat/webapps/XXX/WEB-INF/lib/*.jar 與 tomcat/lib/*.jar 的關係
- crawlzilla 管理網頁:
tomcat/webapps/crawlizlla/WEB-INF/lib/*.jar 全搬到 tomcat/lib/ 可以正常運作
- nutch 搜尋頁面:
即使 tomcat/webapps/crawlizlla/WEB-INF/lib/*.jar 全搬到 tomcat/lib/ 會出錯,tomcat/webapps/crawlizlla/WEB-INF/lib/ 下至少保留一個 nutch-1.2.jar
tomcat/webapps/XXX/WEB-INF/lib/ tomcat/lib/ crawlzilla 管理頁面 空 {mail , ika, lukeall, crawlzilla}.jar nutch 搜尋網頁 nutch-1.2.jar {...}.jar
- crawlzilla 中 crawlzilla.jar 不可少, nutch 中 hadoop*.jar 也不可少
- tomcat/webapps/XXX/WEB-INF/classes/plugins/ 可以用連結 (此資料夾 33M)
10/12 (三)
- 整理 demo.crawlzilla.info 帳號,因為發發發現帳號與索引庫將造成tomcat 無法負荷以至於異常的情形
- 思考 user 將 idb 打包出來之後,最方便的匯入自己系統的方式。
- 如:一個 a.war 中有 搜尋頁面與索引庫,則使用者只需將此war 放到他自己的tomcat 就能使用。
- 然而 /opt/crawlzilla/tomcat/webapp/xxx/WEB-INF/classes/nutch-site.xml 中的searher.dir 之 value 為系統絕對路徑,而非 該網頁的相對路徑,造成idb定位困擾
- 若要解決以上問題,需改寫 nutch-1.2/src 內的 ./java/org/apache/nutch/searcher/DistributedSegmentBean.java
...@91 line... public NutchBean(Configuration conf, Path dir) throws IOException { this.conf = conf; this.fs = FileSystem.get(this.conf); if (dir == null) { dir = new Path(this.conf.get("searcher.dir", "crawl")); } ....
10/18 (二)
Last modified 13 years ago
Last modified on Oct 18, 2011, 4:07:43 PM