wiki:nutchez2_talk

Version 4 (modified by waue, 14 years ago) (diff)

--

1st

waue * read nutch -> by lucene reader : luke
* 系統架構圖
* 企劃書
* 專案規劃&系統分析
* nutch cluster howto
fafa * how to install hadoop cluster easily !

2st

  • 決議
    • 建立統一的使用者名稱 :nutchuser
waue 提供nutch資訊
研究tomcat權限問題
linux 版本描述檔為 /etc/lsb-release
shunfa 規劃安裝流程

3st (5/17)

  • 討論事項
    • 圖形介面
    • 安裝步驟
    • 簡介系統流程
  • 決議
    • 目前有三個功能要完成: 1. 安裝前制步驟檢查 (check_root.sh) 2. 安裝程式碼(Install.sh)3. 管理網頁(admin.php or admin.jsp)
  • 下次進度
    • 討論方式與svn、程式架構圖、流程設計、時程表
waue survey 網頁管理框架
shunfa 實做Install.sh 主邏輯
rock 實做 check_root.sh 主邏輯

4st (5/21)

waue nutchez.sh 規劃
fafa master_install
rock client_install

5st (5/28)

rock

Slave 安裝程式demo

fafa

Master 安裝程式demo

waue

  • 下載修改後 nutch 叢集版 的壓縮檔
    • 設定叢集驅動模式( /opt/nutchez/nutch/conf/ 的 hadoop-site.xml )
      <configuration>
        <property>
          <name>fs.default.name</name>
          <value>hdfs://localhost:9000</value>
        </property>
        <property>
          <name>mapred.job.tracker</name>
          <value>localhost:9001</value>
        </property>
        <property>
          <name>hadoop.tmp.dir</name>
          <value>/var/nutchez/nutch-nutchuser</value>
        </property>
      </configuration>
      
    • 設定 最後的搜尋結果 ( /opt/nutchez/tomcat/webapps/ROOT/WEB-INF/classes/ 的 nutch-site.xml )
      <configuration>
          <property>
              <name>searcher.dir</name>
              <value>/home/nutchuser/nutchez/search</value>
          </property>
      </configuration>
      
    • 使 nutch 主程式引入環境變數 (改 /opt/nutchez/nutch/bin/nutch )
      NUTCH_HOME=/opt/nutchez/nutch
      NUTCH_CONF_DIR=/opt/nutchez/nutch/conf
      NUTCH_LOG_DIR=/var/nutchez/logs
      
    • 叢集版的 nutch ,要使用之前,要先執行 hadoop format 與 start-all.sh