wiki:waue/2011/10

Version 9 (modified by waue, 12 years ago) (diff)

--

  • crawlzilla 改進
  • javascript 加強

10/01 (五)

  • demo.crawlzilla.info 網站維護與修改 (https)

10/03 (一)

  • demo.crawlzilla.info 網站維護與修改 (jsvc)

10/04 (二)

  • icas 網站維護 (sendmail 修正 與 src file backup error)
  • crawzilla 測試 tomcat/webapps/XXX/WEB-INF/lib/*.jar 與 tomcat/lib/*.jar 的關係
    • crawlzilla 管理網頁:

tomcat/webapps/crawlizlla/WEB-INF/lib/*.jar 全搬到 tomcat/lib/ 可以正常運作

  • nutch 搜尋頁面:

即使 tomcat/webapps/crawlizlla/WEB-INF/lib/*.jar 全搬到 tomcat/lib/ 會出錯,tomcat/webapps/crawlizlla/WEB-INF/lib/ 下至少保留一個 nutch-1.2.jar

tomcat/webapps/XXX/WEB-INF/lib/ tomcat/lib/
crawlzilla 管理頁面 {mail , ika, lukeall, crawlzilla}.jar
nutch 搜尋網頁 nutch-1.2.jar {...}.jar
  • crawlzilla 中 crawlzilla.jar 不可少, nutch 中 hadoop*.jar 也不可少
  • tomcat/webapps/XXX/WEB-INF/classes/plugins/ 可以用連結 (此資料夾 33M)

10/12 (三)

  • 整理 demo.crawlzilla.info 帳號,因為發發發現帳號與索引庫將造成tomcat 無法負荷以至於異常的情形
  • 思考 user 將 idb 打包出來之後,最方便的匯入自己系統的方式。
    • 如:一個 a.war 中有 搜尋頁面與索引庫,則使用者只需將此war 放到他自己的tomcat 就能使用。
    • 然而 /opt/crawlzilla/tomcat/webapp/xxx/WEB-INF/classes/nutch-site.xml 中的searher.dir 之 value 為系統絕對路徑,而非 該網頁的相對路徑,造成idb定位困擾
    • 若要解決以上問題,需改寫 nutch-1.2/src 內的 ./java/org/apache/nutch/searcher/DistributedSegmentBean.java
      ...@91 line...
        public NutchBean(Configuration conf, Path dir) throws IOException {
          this.conf = conf;
          this.fs = FileSystem.get(this.conf);
          if (dir == null) {
            dir = new Path(this.conf.get("searcher.dir", "crawl"));
          }
      ....
      

10/18 (二)

fix Eclipse Tomcat Utf8 bug