Changes between Initial Version and Version 1 of waue/2009/0406


Ignore:
Timestamp:
Apr 6, 2009, 5:41:18 PM (15 years ago)
Author:
waue
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • waue/2009/0406

    v1 v1  
     1= Nutch 安裝測試 =
     2
     3 * 之前有安裝過nutch (version 0.9)並成功運作於四台主機上。由於想到之後上課可能有需要,再重新操作一次
     4    * 網址 : [wiki:nutch]
     5 * 這次的測試與之前的測試不同點在於:
     6    1. 版本是新的(nutch 1.0)
     7    2. 之前是空的環境下直接安裝nutch,也沒有hadoop的基礎來安裝,因此目錄結構都用nutch官網介紹的;然而這次的安裝測試在於把nutch運行在已經有的hadoop之上。不過測試的結果是失敗了,錯誤訊息在於找不到dfs之類的訊息。
     8 * 於是又再退回最原始的方法,用空的環境架nutch,並且所有的安裝都用最簡單的設定,步驟如下:
     9
     10== step 1 登入免密碼 ==
     11
     12 * 這是最基本的,怎麼做就不贅述。
     13
     14== step 2 下載與安裝 ==
     15 
     16 * 下載 java 1.6
     17{{{
     18$ sudo apt-get install sun-java6-bin
     19}}}
     20 * 下載 nutch 1.0 (2009/03/28)
     21{{{
     22$ wget http://ftp.twaren.net/Unix/Web/apache/lucene/nutch/nutch-1.0.tar.gz
     23}}}
     24
     25== step 3 編輯設定檔 ==
     26 * 所有的設定檔都在 $NUTCH_HOME/conf 下
     27=== 3.1 hadoop-env.sh ===
     28=== 3.2 hadoop-site.xml ===
     29=== 3.3 nutch-site.xml ===
     30=== 3.4 slaves ===
     31=== 3.5 crawl-urlfilter.txt ===
     32
     33
     34== step 4 執行 ==
     35=== 4.1 編輯url清單 ===
     36
     37=== 4.2 開啟HDFS
     38
     39=== 4.3 上傳清單到HDFS ===
     40
     41=== 4.4 執行nutch crawl ===
     42
     43== step 5 web瀏覽 ==
     44
     45=== 5.1 安裝tomcat ===
     46
     47=== 5.2 瀏覽crawl結果 ===