nutch 測試成功小計
- 環境 ubuntu 7.10 + tomcat 5.5 + jdk 1.5 + nutch 0.9 主機 (hd01~hd04).nchc.org.tw
- 目錄環境 ::
- /nutch -
- -/filesystem
- -/search
- -/local
- -/filesystem
- /nutch -
- 修改
- /nutch/search/conf/nutch.site.xml
- /nutch/search/conf/hadoop.site.xml
- /nutch/search/conf/hadoop.env.sh
- /nutch/search/conf/crawl-urlfilter.txt
- /nutch/search/conf/slaves
- /nutch/search/urls/urls.txt urls.txt
- 指令需按照順序先後 (在/nutch/search/ 目錄下)
- scp -r /nutch/* hd02:/nutch/ /* 重複hd03~hd04 */ ps: 居然不用 bin/hadoop namenode -format ? 神奇
- bin/start-all.sh
- bin/hadoop -put urls urls
- bin/nutch crawl urls -dir crawl01 -depth 3 >& logs/crawl01.log
- bin/hadoop dfs -copyToLocal crawl01 /nutch/local/
- Tomcat設定
- 安裝Tomcat到hd01(只要一台即可) :
- tar -zxvf apache-tomcate5.5.tar.gz -C /nutch/
- mv /nutch/apache-tomcat5.5 /nutch/tomcat
- 解開nutch網頁套件到/nutch/tomcat/webapps/ROOT/中
- jar -xvf nutch-0.9.war
- 修改Tomcat 設定
- /nutch/tomcat/webapps/ROOT/WEB-INF/classes/nutch.site.xml 不同於/nutch/search/conf
- /nutch/tomcat/conf/server.xml
- 瀏覽網頁 hd01.nchc.org.tw:8080
Last modified 16 years ago
Last modified on Apr 6, 2009, 5:24:02 PM