wiki:nutch

nutch 測試成功小計

  1. 環境 ubuntu 7.10 + tomcat 5.5 + jdk 1.5 + nutch 0.9 主機 (hd01~hd04).nchc.org.tw
  2. 目錄環境 ::
    • /nutch -
      • -/filesystem
      • -/search
      • -/local
  3. 修改
  4. 指令需按照順序先後 (在/nutch/search/ 目錄下)
    1. scp -r /nutch/* hd02:/nutch/ /* 重複hd03~hd04 */ ps: 居然不用 bin/hadoop namenode -format ? 神奇
    2. bin/start-all.sh
    3. bin/hadoop -put urls urls
    4. bin/nutch crawl urls -dir crawl01 -depth 3 >& logs/crawl01.log
    5. bin/hadoop dfs -copyToLocal crawl01 /nutch/local/
  1. Tomcat設定
  • 安裝Tomcat到hd01(只要一台即可) :
    • tar -zxvf apache-tomcate5.5.tar.gz -C /nutch/
    • mv /nutch/apache-tomcat5.5 /nutch/tomcat
  • 解開nutch網頁套件到/nutch/tomcat/webapps/ROOT/中
    • jar -xvf nutch-0.9.war
Last modified 12 years ago Last modified on Apr 6, 2009, 5:24:02 PM