Context Navigation

0406

                       v1
+= Nutch 安裝測試 =
+ * 之前有安裝過nutch （version 0.9）並成功運作於四台主機上。由於想到之後上課可能有需要，再重新操作一次
+    * 網址 ： [wiki:nutch]
+ * 這次的測試與之前的測試不同點在於：
+. 版本是新的（nutch 1.0）
+. 之前是空的環境下直接安裝nutch，也沒有hadoop的基礎來安裝，因此目錄結構都用nutch官網介紹的；然而這次的安裝測試在於把nutch運行在已經有的hadoop之上。不過測試的結果是失敗了，錯誤訊息在於找不到dfs之類的訊息。
+ * 於是又再退回最原始的方法，用空的環境架nutch，並且所有的安裝都用最簡單的設定，步驟如下：
+== step 1 登入免密碼 ==
+ * 這是最基本的，怎麼做就不贅述。
+== step 2 下載與安裝 ==
+ * 下載 java 1.6
+{{{
+$ sudo apt-get install sun-java6-bin
+}}}
+ * 下載 nutch 1.0 (2009/03/28)
+{{{
+$ wget http://ftp.twaren.net/Unix/Web/apache/lucene/nutch/nutch-1.0.tar.gz
+}}}
+== step 3 編輯設定檔 ==
+ * 所有的設定檔都在 $NUTCH_HOME/conf 下
+=== 3.1 hadoop-env.sh ===
+=== 3.2 hadoop-site.xml ===
+=== 3.3 nutch-site.xml ===
+=== 3.4 slaves ===
+=== 3.5 crawl-urlfilter.txt ===
+== step 4 執行 ==
+=== 4.1 編輯url清單 ===
+=== 4.2 開啟HDFS
+=== 4.3 上傳清單到HDFS ===
+=== 4.4 執行nutch crawl ===
+== step 5 web瀏覽 ==
+=== 5.1 安裝tomcat ===
+=== 5.2 瀏覽crawl結果 ===