wiki:nutchez2_talk

Version 11 (modified by waue, 14 years ago) (diff)

--

ID級別 程式 行數  問題  解法 狀態
1 B nutchez 36  無 su 失敗的錯誤提示  新增 if 判斷,失敗及跳出管理介面 已解決
2 C nutchez     每次執行前都會詢問更新的訊息  增加 nutch_nodes 的判斷,若有更新則要求使用者更新 已解決
3 nutchez     無 ALL 和 Part 選單  增加 ALL 和 Part 選單 已解決
4 nutchez       新增 restart 選項到 tasknode 和 tasktracker 已解決
5 B install 安裝完無法沒有出現 nutchez_nodes 檔案造成nutchez 出現錯誤 已解決
6 D nutchez Nutchez 子程序選完應該回到主選單,真要離開由主選單離開 已解決
7 D nutchez 其他使用者執行nutchez時,輸入nutchuser的密碼後即可執行 已解決
8 D nutchez Tomcat若已經執行,則Tomcat選項不應該還有"啟動",反之亦然 已解決

1st

waue * read nutch -> by lucene reader : luke
* 系統架構圖
* 企劃書
* 專案規劃&系統分析
* nutch cluster howto
fafa * how to install hadoop cluster easily !

2st

  • 決議
    • 建立統一的使用者名稱 :nutchuser
waue 提供nutch資訊
研究tomcat權限問題
linux 版本描述檔為 /etc/lsb-release
shunfa 規劃安裝流程

3st (5/17)

  • 討論事項
    • 圖形介面
    • 安裝步驟
    • 簡介系統流程
  • 決議
    • 目前有三個功能要完成: 1. 安裝前制步驟檢查 (check_root.sh) 2. 安裝程式碼(Install.sh)3. 管理網頁(admin.php or admin.jsp)
  • 下次進度
    • 討論方式與svn、程式架構圖、流程設計、時程表
waue survey 網頁管理框架
shunfa 實做Install.sh 主邏輯
rock 實做 check_root.sh 主邏輯

4st (5/21)

waue nutchez.sh 規劃
fafa master_install
rock client_install

5st (5/28)

rock

Slave 安裝程式demo

fafa

Master 安裝程式demo

waue

  • 下載修改後 nutch 叢集版 的壓縮檔
    • 設定叢集驅動模式( /opt/nutchez/nutch/conf/ 的 hadoop-site.xml )
      <configuration>
        <property>
          <name>fs.default.name</name>
          <value>hdfs://localhost:9000</value>
        </property>
        <property>
          <name>mapred.job.tracker</name>
          <value>localhost:9001</value>
        </property>
        <property>
          <name>hadoop.tmp.dir</name>
          <value>/var/nutchez/nutch-nutchuser</value>
        </property>
      </configuration>
      
    • 設定 最後的搜尋結果 ( /opt/nutchez/tomcat/webapps/ROOT/WEB-INF/classes/ 的 nutch-site.xml )
      <configuration>
          <property>
              <name>searcher.dir</name>
              <value>/home/nutchuser/nutchez/search</value>
          </property>
      </configuration>
      
    • 使 nutch 主程式引入環境變數 (改 /opt/nutchez/nutch/bin/nutch )
      NUTCH_HOME=/opt/nutchez/nutch
      NUTCH_CONF_DIR=/opt/nutchez/nutch/conf
      NUTCH_LOG_DIR=/var/nutchez/logs
      
    • 叢集版的 nutch ,要使用之前,要先執行 hadoop format 與 start-all.sh

6st (6/4)

  • 流程演練與討論
  • 報名 & 企劃書 修改
  • nutchez 叢集總管介面 開發討論
  • nutchez web管理頁面 開發討論

需修改部份

Install.sh
1.  IP 沒有被紀錄
2.  預設安裝 gij 的問題
3.  nutchez 的 tar.gz 包修正
4.  將 自己的 hostname & ip 紀錄到 nutch_nodes
5.  ssh-add /home/nutchuser/.ssh/id_rsa 以免ubuntu9.10之後無法登入
Client_Install.sh
1. 預設安裝 gij 的問題
2.  ssh-add /home/nutchuser/.ssh/id_rsa 以免ubuntu9.10之後無法登入
3.  slave的 /etc/hosts 被填寫兩次 client ip & name

其他:
Merge nutch nodes

7st (6/11)

  • NutchEz 系統管理 shell bug修改
  • 檔案移除

o del user o 還原 /etc/hosts o master, client個別移除

8st (6/18)

  • 寫一個shell打包需要的安裝套件(waue)
  • 語言檔merge成一個檔並用link方式連結
  • 計劃書目前進度約50%

9st (6/30) [last 10.5]

10st (7/8) [last 9 weeks]

將 go.sh -> crawl.java rock/waue
列出nutch資料檔,並秀出更多資訊 waue
在shell的安裝程序時,將master ip融入web連結中 fafa
選擇nutch的資料庫 rock
nutch 鍊結到 nutchez fafa
將web包裝進nutchez-pack.tar.gz fafa
多國語系支援 later