wiki:waue/2011/10

Context Navigation

crawlzilla 改進
javascript 加強

10/01 (五)

demo.crawlzilla.info 網站維護與修改（https）

10/03 (一)

demo.crawlzilla.info 網站維護與修改（jsvc）

10/04 (二)

icas 網站維護（sendmail 修正與 src file backup error）

crawzilla 測試 tomcat/webapps/XXX/WEB-INF/lib/*.jar 與 tomcat/lib/*.jar 的關係
- crawlzilla 管理網頁：

tomcat/webapps/crawlizlla/WEB-INF/lib/*.jar 全搬到 tomcat/lib/ 可以正常運作

nutch 搜尋頁面：

即使 tomcat/webapps/crawlizlla/WEB-INF/lib/*.jar 全搬到 tomcat/lib/ 會出錯，tomcat/webapps/crawlizlla/WEB-INF/lib/ 下至少保留一個 nutch-1.2.jar

tomcat/webapps/XXX/WEB-INF/lib/ tomcat/lib/
crawlzilla 管理頁面空 {mail , ika, lukeall, crawlzilla}.jar
nutch 搜尋網頁 nutch-1.2.jar {...}.jar

crawlzilla 中 crawlzilla.jar 不可少, nutch 中 hadoop*.jar 也不可少
tomcat/webapps/XXX/WEB-INF/classes/plugins/ 可以用連結 (此資料夾 33M)

10/12 (三)

整理 demo.crawlzilla.info 帳號，因為發發發現帳號與索引庫將造成tomcat 無法負荷以至於異常的情形

思考 user 將 idb 打包出來之後，最方便的匯入自己系統的方式。
- 如：一個 a.war 中有搜尋頁面與索引庫，則使用者只需將此war 放到他自己的tomcat 就能使用。
- 然而 /opt/crawlzilla/tomcat/webapp/xxx/WEB-INF/classes/nutch-site.xml 中的searher.dir 之 value 為系統絕對路徑，而非該網頁的相對路徑，造成idb定位困擾
- 若要解決以上問題，需改寫 nutch-1.2/src 內的 ./java/org/apache/nutch/searcher/DistributedSegmentBean.java
```
...@91 line...
  public NutchBean(Configuration conf, Path dir) throws IOException {
    this.conf = conf;
    this.fs = FileSystem.get(this.conf);
    if (dir == null) {
      dir = new Path(this.conf.get("searcher.dir", "crawl"));
    }
....
```

10/18 (二)

fix Eclipse Tomcat Utf8 bug

Last modified 15 years ago Last modified on Oct 18, 2011, 4:07:43 PM

Download in other formats:

Plain Text