* crawlzilla 改進 * javascript 加強 = 10/01 (五) = * demo.crawlzilla.info 網站維護與修改 (https) = 10/03 (一) = * demo.crawlzilla.info 網站維護與修改 (jsvc) = 10/04 (二) = * icas 網站維護 (sendmail 修正 與 src file backup error) * crawzilla 測試 tomcat/webapps/XXX/WEB-INF/lib/*.jar 與 tomcat/lib/*.jar 的關係 * crawlzilla 管理網頁: tomcat/webapps/crawlizlla/WEB-INF/lib/*.jar 全搬到 tomcat/lib/ 可以正常運作 * nutch 搜尋頁面: 即使 tomcat/webapps/crawlizlla/WEB-INF/lib/*.jar 全搬到 tomcat/lib/ 會出錯,tomcat/webapps/crawlizlla/WEB-INF/lib/ 下至少保留一個 nutch-1.2.jar || || tomcat/webapps/XXX/WEB-INF/lib/ || tomcat/lib/ || || crawlzilla 管理頁面 || 空 || {mail , ika, lukeall, crawlzilla}.jar || || nutch 搜尋網頁 || nutch-1.2.jar || {...}.jar || * crawlzilla 中 crawlzilla.jar 不可少, nutch 中 hadoop*.jar 也不可少 * tomcat/webapps/XXX/WEB-INF/classes/plugins/ 可以用連結 (此資料夾 33M) = 10/12 (三) = * 整理 demo.crawlzilla.info 帳號,因為發發發現帳號與索引庫將造成tomcat 無法負荷以至於異常的情形 * 思考 user 將 idb 打包出來之後,最方便的匯入自己系統的方式。 * 如:一個 a.war 中有 搜尋頁面與索引庫,則使用者只需將此war 放到他自己的tomcat 就能使用。 * 然而 /opt/crawlzilla/tomcat/webapp/xxx/WEB-INF/classes/nutch-site.xml 中的searher.dir 之 value 為系統絕對路徑,而非 該網頁的相對路徑,造成idb定位困擾 * 若要解決以上問題,需改寫 nutch-1.2/src 內的 ./java/org/apache/nutch/searcher/DistributedSegmentBean.java {{{ #!java ...@91 line... public NutchBean(Configuration conf, Path dir) throws IOException { this.conf = conf; this.fs = FileSystem.get(this.conf); if (dir == null) { dir = new Path(this.conf.get("searcher.dir", "crawl")); } .... }}} = 10/18 (二) = [wiki:waue/2011/10/1018 fix Eclipse Tomcat Utf8 bug ]