wiki:nutchez2

Version 16 (modified by waue, 14 years ago) (diff)

--

NutchEz V2 開發者網頁
國網中心自由軟體實驗室

一、討論內容

之前討論歸檔

4st (5/21)

waue nutchez.sh 規劃
fafa master_install
rock client_install

5st (5/28)

rock

Slave 安裝程式demo

fafa

Master 安裝程式demo

waue

  • 目錄架構
說明 路徑 擁有者身份
nutchez 家目錄 /opt/nutchez/ nutchuser
nutch 家目錄 /opt/nutchez/nutch nutchuser
nutch 工作目錄 /var/nutchez/nutch-nutchuser nutchuser
nutch 日誌檔 /var/nutchez/logs nutchuser
nutch 設定檔 /opt/nutchez/nutch/conf nutchuser
tomcat 家目錄 /opt/nutchez/tomcat nutchuser
nutchez 使用者目錄 /home/nutchuser/nutchez/ nutchuser
nutchez 索引資料庫 /home/nutchuser/nutchez/search/ 由nutch完成crawl後產生
  • 下載修改後 nutch 叢集版 的壓縮檔
    • 設定叢集驅動模式( /opt/nutchez/nutch/conf/ 的 hadoop-site.xml )
      <configuration>
        <property>
          <name>fs.default.name</name>
          <value>hdfs://localhost:9000</value>
        </property>
        <property>
          <name>mapred.job.tracker</name>
          <value>localhost:9001</value>
        </property>
        <property>
          <name>hadoop.tmp.dir</name>
          <value>/var/nutchez/nutch-nutchuser</value>
        </property>
      </configuration>
      
    • 設定 最後的搜尋結果 ( /opt/nutchez/tomcat/webapps/ROOT/WEB-INF/classes/ 的 nutch-site.xml )
      <configuration>
          <property>
              <name>searcher.dir</name>
              <value>/home/nutchuser/nutchez/search</value>
          </property>
      </configuration>
      
    • 使 nutch 主程式引入環境變數 (改 /opt/nutchez/nutch/bin/nutch )
      NUTCH_HOME=/opt/nutchez/nutch
      NUTCH_CONF_DIR=/opt/nutchez/nutch/conf
      NUTCH_LOG_DIR=/var/nutchez/logs
      
    • 叢集版的 nutch ,要使用之前,要先執行 hadoop format 與 start-all.sh

二、系統架構(編輯)

WikiInclude(waue/2010/nutchez2_archi)?

三、各元件流程圖 (編輯)

WikiInclude(waue/2010/nutchez2_procedure)?

四、專案管理

  • 第 0 步驟是第一次下載整個專案的時候執行
  • 1~3 步驟 是每次要讓專案同步時需要做的

0. 下載專案

  • 列出 svn 內有什麼資料夾
    svn ls https://trac.nchc.org.tw/svn/cloud/
    
    接著會問一大堆認證密碼什麼鬼的,密碼正確才可以列出檔案
  • 下載 nutchez 0.2 的專案
    cd /opt/svn_project/
    svn co https://trac.nchc.org.tw/svn/cloud/nutchez-0.2
    

1. 更新專案

cd nutchez-0.2
svn update

2. 加入檔案、資料夾的指令

svn mkdir aaa
svn add bbb.txt

3. 專案內容上傳

svn ci

五、時間表

項目 預計 開始 完成
企劃書 5/3~5/4 5/3 5/5
survey 5/3~5/7 5/3
開發 5/10~9/1
試用與除錯 9/1~9/20
專案完成 9/20

六、相關連結

Attachments (1)

Download all attachments as: .zip