wiki:nutch1.2

Version 1 (modified by waue, 13 years ago) (diff)

--

nutch 1.2 的改變

與nutch 1.0 有許多差異,lucene 的更新,以及索引自庫的關聯方式都不同,try 出以下可能可以完成的方式:

前提

假設索引自庫已經用 bin/nutch crawl 完 http://www.nchc.org.tw/tw/ 後,下載到local 端,路徑為 ~/kkk 。(因此kkk/ 內有 index, indexes,segments,crawldb,linkdb )

tomcat 安裝於 /opt/tomcat/

nutch 安裝於 /opt/nutch/

假設創立一個 0311test的搜尋頁面,

步驟

/opt/tomcat/bin/catalina.sh stop
mkdir /opt/tomcat/webapps/0311test/
cp /opt/nutch/nutch-1.2.war /opt/tomcat/webapps/0311test
cd /opt/tomcat/webapps/0311test/
jar xvf ./nutch-1.2.war 
rm nutch-1.2.war;
cp -rf ~/kkk ./crawl
/opt/tomcat/bin/catalina.sh start 

官方網站 http://wiki.apache.org/nutch/NutchTutorial說,訣竅在於,當我們執行 /opt/tomcat/bin/catalina.sh start 時,本身所在目錄要有 crawl 這個資料夾,nutch 搜尋才會正確對應到索引自庫。

Then visit: http://localhost:8080/0311test