wiki:waue/2009/0406

Version 1 (modified by waue, 15 years ago) (diff)

--

Nutch 安裝測試

  • 之前有安裝過nutch (version 0.9)並成功運作於四台主機上。由於想到之後上課可能有需要,再重新操作一次
  • 這次的測試與之前的測試不同點在於:
    1. 版本是新的(nutch 1.0)
    2. 之前是空的環境下直接安裝nutch,也沒有hadoop的基礎來安裝,因此目錄結構都用nutch官網介紹的;然而這次的安裝測試在於把nutch運行在已經有的hadoop之上。不過測試的結果是失敗了,錯誤訊息在於找不到dfs之類的訊息。
  • 於是又再退回最原始的方法,用空的環境架nutch,並且所有的安裝都用最簡單的設定,步驟如下:

step 1 登入免密碼

  • 這是最基本的,怎麼做就不贅述。

step 2 下載與安裝

  • 下載 java 1.6
    $ sudo apt-get install sun-java6-bin
    
  • 下載 nutch 1.0 (2009/03/28)
    $ wget http://ftp.twaren.net/Unix/Web/apache/lucene/nutch/nutch-1.0.tar.gz
    

step 3 編輯設定檔

  • 所有的設定檔都在 $NUTCH_HOME/conf 下

3.1 hadoop-env.sh

3.2 hadoop-site.xml

3.3 nutch-site.xml

3.4 slaves

3.5 crawl-urlfilter.txt

step 4 執行

4.1 編輯url清單

4.2 開啟HDFS

4.3 上傳清單到HDFS

4.4 執行nutch crawl

step 5 web瀏覽

5.1 安裝tomcat

5.2 瀏覽crawl結果