Context Navigation

0409

Timestamp:: Apr 9, 2009, 6:31:49 PM (16 years ago)
Author:: waue
Comment:: --

Legend:

: Unmodified
: Added
: Removed
: Modified

waue/2009/0409

-                      v4
+                      v5
+ *
 == step 1 安裝好Hadoop叢集 ==
+= step 1 安裝好Hadoop叢集 =
  * 可以參考這篇 [wiki:0330Hadoop_Lab3 hadoop叢集安裝]
 …
  * 安裝好hadoop 叢集之後，/opt/的權限就是使用者的了，並且ssh登入兩台都免密碼，hadoop也能正常執行，並且安裝於/opt/hadoop下，設定檔在 /opt/conf
 == step 2 下載與安裝 ==
  === 2.1 下載 nutch 並解壓縮 ===
+= step 2 下載與安裝 =
+ == 2.1 下載 nutch 並解壓縮 ==
  *  nutch 1.0 (2009/03/28 release )
 {{{
 …
 $ mv nutch-1.0.tar.gz nutch
 }}}
  === 2.2 部屬hadoop,nutch目錄結構 ===
+ == 2.2 部屬hadoop,nutch目錄結構 ==
 {{{
 $ mv nutch/conf ./nutch_conf
 …
  * 以上的目錄結構在於nutch與hadoop分離，主程式與設定檔分離，（日誌檔則統一被紀錄到/tmp中），這樣的目的在於，要刪除nutch的話直接移除目錄就好，不會動到原本的hadoop。
 == step 3 編輯設定檔 ==
+= step 3 編輯設定檔 =
  * 所有的設定檔都在 /opt/nutch_conf 下
 === 3.1 hadoop-env.sh ===
+== 3.1 hadoop-env.sh ==
  * 將原本的檔案hadoop-env.sh任意處填入
 {{{
 …
  * ps：強烈建議寫入 /etc/bash.bashrc 中比較萬無一失！！
 === 3.2 hadoop-site.xml ===
+== 3.2 hadoop-site.xml ==
 {{{
 #!sh
 <configuration>
   <property>
     <name>fs.default.name</name>
     <value>hdfs://node1:9000/</value>
     <description> </description>
   </property>
   <property>
     <name>mapred.job.tracker</name>
     <value>node1:9001</value>
     <description>  </description>
   </property>
   <property>
     <name>hadoop.tmp.dir</name>
     <value>/tmp/hadoop/hadoop-${user.name}</value>
     <description> </description>
   </property>
 </configuration>
 }}}
 === 3.3 nutch-site.xml ===
  * 重要的設定檔，新增了必要的內容於內，然而想要了解更多參數資訊，請見nutch-default.xml
+== 3.3 nutch-site.xml ==
+ * 重要的設定檔，新增了必要的內容於內，然而想要瞭解更多參數資訊，請見nutch-default.xml
 {{{
 #!sh
 …
 </property>
 <property>
   <name>plugin.folders</name>
   <value>/opt/nutch/plugins</value>
   <description>Directories where nutch plugins are located. </description>
+</property>
+<property>
+</property>
+<property>
   <name>plugin.includes</name>
   <value>protocol-(http|httpclient)|urlfilter-regex|parse-(text|html|js|ext|msexcel|mspowerpoint|msword|oo|pdf|rss|swf|zip)|index-(more|basic|anchor)|query-(more|basic|site|url)|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)</value>
   <description> Regular expression naming plugin directory names</description>
+ </property>
+ </property>
  <property>
   <name>parse.plugin.file</name>
   <value>parse-plugins.xml</value>
   <description>The name of the file that defines the associations between
   content-types and parsers.</description>
+ </property>
+ </property>
  <property>
    <name>db.max.outlinks.per.page</name>
    <value>-1</value>
    <description> </description>
+ </property>
+ </property>
  <property>
    <name>http.content.limit</name>
    <value>-1</value>
+ </property>
+<property>
+<property>
+ </property>
+<property>
+<property>
   <name>indexer.mergeFactor</name>
   <value>500</value>
+  <description>The factor that determines the frequency of Lucene segment
+  merges. </description>
+</property>
+<property>
+  <description>The factor that determines the frequency of Lucene segment merges. </description>
+</property>
+<property>
   <name>indexer.minMergeDocs</name>
   <value>500</value>
   <description>This number determines the minimum number of Lucene. </description>
+</property>
+</property>
 </configuration>
 }}}
 === 3.4 slaves ===
+== 3.4 slaves ==
  * 這個檔不用設定，因為依照hadoop的叢集環境，下面列出我們環境所設定的
 …
 node2
 }}}
 === 3.5 crawl-urlfilter.txt ===
+== 3.5 crawl-urlfilter.txt ==
  * 重新編輯爬檔規則，此檔重要在於若設定不好，則爬出來的結果幾乎是空的，也就是說最後你的搜尋引擎都找不到資料啦！
 {{{
 …
 }}}
 === 3.6 regex-urlfilter.txt ===
+== 3.6 regex-urlfilter.txt ==
  * 雖然官方網站鮮少介紹到此檔，但是crawl-urlfilter.txt用來設定爬intranet的規則，而regex-urlfilter.txt則是用來設定爬internet的規則
 …
 }}}
 == step 4 執行nutch ==
+= step 4 執行nutch =
  * 在此假設你已經把hadoop 啟動並且正在運作了。因此nutch是利用這個已經在運做的平台上
 …
 }}}
 === 4.1 編輯url清單 ===
+== 4.1 編輯url清單 ==
 {{{
 $ mkdir urls
 …
 }}}
 === 4.2 上傳清單到HDFS ===
+== 4.2 上傳清單到HDFS ==
 {{{
 $ bin/hadoop -put urls urls
 }}}
 === 4.3 執行nutch crawl ===
+== 4.3 執行nutch crawl ==
  * 用下面的指令就可以命令nutch開始工作了，之後map reduce會瘋狂工作
 {{{
 …
  * 在nutch運作的同時，可以在node1節點用瀏覽器，透過 [http://localhost:50030 job管理頁面],[http://localhost:50070 hdfs管理頁面],[http://localhost:50060 程序運作頁面] 來監看程序。
 == step 5 瀏覽搜尋結果 ==
+= step 5 瀏覽搜尋結果 =
  * nutch 在 step 4 的工作是把你寫在urls.txt檔內的網址，用map reduce的程序來進行資料分析，但是分析完之後，要透過tomcat來觀看結果。以下就是安裝與設定你的客製化搜尋引擎的步驟。
 === 5.1 安裝tomcat ===
+== 5.1 安裝tomcat ==
  * 下載tomcat
 {{{
 …
 }}}
 === 5.1 tomcat server設定 ===
+== 5.1 tomcat server設定 ==
  * 修改 /opt/tomcat/conf/server.xml 以修正中文亂碼問題
 …
                useBodyEncodingForURI="true" />
 }}}
 === 5.3 下載crawl結果===
+== 5.3 下載crawl結果 ==
  * 先把放在hdfs上，nutch的運算結果下載到local端
 …
 }}}
 === 5.4 設定nutch的搜尋引擎頁面到tomcat ===
+== 5.4 設定nutch的搜尋引擎頁面到tomcat ==
  * 把nutch的搜尋引擎頁面取代為tomcat的webapps/ROOT
 …
 $ mv /opt/nutch/web /opt/tomcat/webapps/ROOT
 }}}
 === 5.5  設定搜尋引擎內容的來源路徑 ===
+== 5.5  設定搜尋引擎內容的來源路徑 ==
  * 5.4的步驟雖然設定好搜尋引擎的頁面，然而其只能當作是介面而已，因此這個步驟把要搜尋的內容與搜尋介面做個連結
 {{{
 …
 }}}
 === 5.6 啟動tomcat ===
+== 5.6 啟動tomcat ==
 {{{
 $ /opt/tomcat/bin/startup.sh
 }}}
 == step 6 享受結果 ==
+= step 6 享受結果 =
 Enjoy ! [http://localhost:8080]