wiki:nutchez2_talk
ID級別 程式 行數  問題  解法 狀態
1 B nutchez 36  無 su 失敗的錯誤提示  新增 if 判斷,失敗及跳出管理介面 已解決
2 C nutchez     每次執行前都會詢問更新的訊息  增加 nutch_nodes 的判斷,若有更新則要求使用者更新 已解決
3 nutchez     無 ALL 和 Part 選單  增加 ALL 和 Part 選單 已解決
4 nutchez       新增 restart 選項到 tasknode 和 tasktracker 已解決
5 B install 安裝完無法沒有出現 nutchez_nodes 檔案造成nutchez 出現錯誤 已解決
6 D nutchez Nutchez 子程序選完應該回到主選單,真要離開由主選單離開 已解決
7 D nutchez 其他使用者執行nutchez時,輸入nutchuser的密碼後即可執行 已解決
8 D nutchez Tomcat若已經執行,則Tomcat選項不應該還有"啟動",反之亦然 已解決

1st

waue * read nutch -> by lucene reader : luke
* 系統架構圖
* 企劃書
* 專案規劃&系統分析
* nutch cluster howto
fafa * how to install hadoop cluster easily !

2st

  • 決議
    • 建立統一的使用者名稱 :nutchuser
waue 提供nutch資訊
研究tomcat權限問題
linux 版本描述檔為 /etc/lsb-release
shunfa 規劃安裝流程

3st (5/17)

  • 討論事項
    • 圖形介面
    • 安裝步驟
    • 簡介系統流程
  • 決議
    • 目前有三個功能要完成: 1. 安裝前制步驟檢查 (check_root.sh) 2. 安裝程式碼(Install.sh)3. 管理網頁(admin.php or admin.jsp)
  • 下次進度
    • 討論方式與svn、程式架構圖、流程設計、時程表
waue survey 網頁管理框架
shunfa 實做Install.sh 主邏輯
rock 實做 check_root.sh 主邏輯

4st (5/21)

waue nutchez.sh 規劃
fafa master_install
rock client_install

5st (5/28)

rock

Slave 安裝程式demo

fafa

Master 安裝程式demo

waue

  • 下載修改後 nutch 叢集版 的壓縮檔
    • 設定叢集驅動模式( /opt/nutchez/nutch/conf/ 的 hadoop-site.xml )
      <configuration>
        <property>
          <name>fs.default.name</name>
          <value>hdfs://localhost:9000</value>
        </property>
        <property>
          <name>mapred.job.tracker</name>
          <value>localhost:9001</value>
        </property>
        <property>
          <name>hadoop.tmp.dir</name>
          <value>/var/nutchez/nutch-nutchuser</value>
        </property>
      </configuration>
      
    • 設定 最後的搜尋結果 ( /opt/nutchez/tomcat/webapps/ROOT/WEB-INF/classes/ 的 nutch-site.xml )
      <configuration>
          <property>
              <name>searcher.dir</name>
              <value>/home/nutchuser/nutchez/search</value>
          </property>
      </configuration>
      
    • 使 nutch 主程式引入環境變數 (改 /opt/nutchez/nutch/bin/nutch )
      NUTCH_HOME=/opt/nutchez/nutch
      NUTCH_CONF_DIR=/opt/nutchez/nutch/conf
      NUTCH_LOG_DIR=/var/nutchez/logs
      
    • 叢集版的 nutch ,要使用之前,要先執行 hadoop format 與 start-all.sh

6st (6/4)

  • 流程演練與討論
  • 報名 & 企劃書 修改
  • nutchez 叢集總管介面 開發討論
  • nutchez web管理頁面 開發討論

需修改部份

Install.sh
1.  IP 沒有被紀錄
2.  預設安裝 gij 的問題
3.  nutchez 的 tar.gz 包修正
4.  將 自己的 hostname & ip 紀錄到 nutch_nodes
5.  ssh-add /home/nutchuser/.ssh/id_rsa 以免ubuntu9.10之後無法登入
Client_Install.sh
1. 預設安裝 gij 的問題
2.  ssh-add /home/nutchuser/.ssh/id_rsa 以免ubuntu9.10之後無法登入
3.  slave的 /etc/hosts 被填寫兩次 client ip & name

其他:
Merge nutch nodes

7st (6/11)

  • NutchEz 系統管理 shell bug修改
  • 檔案移除

o del user o 還原 /etc/hosts o master, client個別移除

8st (6/18)

  • 寫一個shell打包需要的安裝套件(waue)
  • 語言檔merge成一個檔並用link方式連結
  • 計劃書目前進度約50%

9st (6/30) [last 10.5]

10st (7/8) [last 9 weeks]

將 go.sh -> crawl.java rock/waue
列出nutch資料檔,並秀出更多資訊 waue
在shell的安裝程序時,將master ip融入web連結中 fafa
選擇nutch的資料庫 rock
nutch 鍊結到 nutchez fafa
將web包裝進nutchez-pack.tar.gz fafa
多國語系支援 later

第 11 次討論 (7/15) [last 8 weeks]

01 fafa nutch 的 zh 有"<"
02 fafa 第一次執行nutchez 需要root / passwd
03 fafa 第一次開往頁直接出現修改密碼
04 rock DB name 的設定需檢查檔名是否重複
05 waue go.sh 需使用資料夾名稱,否則無法多工
06 rock 修正delete 功能錯誤
07 waue 整合DB setup & statistics 介面
08 rock DB 介面,加入tomcat restart 的按鈕
09 fafa status 加入鍊結與調大iframe
10 fafa 多國語系支援
11 rock 動態顯示網頁的說明
12 waue 中文分詞
Last modified 14 years ago Last modified on Aug 2, 2010, 3:46:38 PM