waue | * read nutch -> by lucene reader : luke * 系統架構圖 * 企劃書 * 專案規劃&系統分析 * nutch cluster howto
|
fafa | * how to install hadoop cluster easily !
|
waue | 提供nutch資訊 研究tomcat權限問題 | linux 版本描述檔為 /etc/lsb-release
|
shunfa | 規劃安裝流程 |
|
3st (5/17)
- 討論事項
- 決議
- 目前有三個功能要完成: 1. 安裝前制步驟檢查 (check_root.sh) 2. 安裝程式碼(Install.sh)3. 管理網頁(admin.php or admin.jsp)
- 下次進度
waue | survey 網頁管理框架 |
|
shunfa | 實做Install.sh 主邏輯 |
|
rock | 實做 check_root.sh 主邏輯 |
|
4st (5/21)
waue | nutchez.sh 規劃 |
|
fafa | master_install |
|
rock | client_install |
|
5st (5/28)
rock
Slave 安裝程式demo
fafa
Master 安裝程式demo
waue
- 下載修改後 nutch 叢集版 的壓縮檔
- 設定叢集驅動模式( /opt/nutchez/nutch/conf/ 的 hadoop-site.xml )
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/var/nutchez/nutch-nutchuser</value>
</property>
</configuration>
- 設定 最後的搜尋結果 ( /opt/nutchez/tomcat/webapps/ROOT/WEB-INF/classes/ 的 nutch-site.xml )
<configuration>
<property>
<name>searcher.dir</name>
<value>/home/nutchuser/nutchez/search</value>
</property>
</configuration>
- 使 nutch 主程式引入環境變數 (改 /opt/nutchez/nutch/bin/nutch )
NUTCH_HOME=/opt/nutchez/nutch
NUTCH_CONF_DIR=/opt/nutchez/nutch/conf
NUTCH_LOG_DIR=/var/nutchez/logs
- 叢集版的 nutch ,要使用之前,要先執行 hadoop format 與 start-all.sh
6st (6/4)
- 流程演練與討論
- 報名 & 企劃書 修改
- nutchez 叢集總管介面 開發討論
- nutchez web管理頁面 開發討論
需修改部份
Install.sh
1. IP 沒有被紀錄
2. 預設安裝 gij 的問題
3. nutchez 的 tar.gz 包修正
4. 將 自己的 hostname & ip 紀錄到 nutch_nodes
5. ssh-add /home/nutchuser/.ssh/id_rsa 以免ubuntu9.10之後無法登入
Client_Install.sh
1. 預設安裝 gij 的問題
2. ssh-add /home/nutchuser/.ssh/id_rsa 以免ubuntu9.10之後無法登入
3. slave的 /etc/hosts 被填寫兩次 client ip & name
其他:
Merge nutch nodes
7st (6/11)
- NutchEz系統管理shell bug修改
- 檔案移除
- del user
- 還原 /etc/hosts
- master, client個別移除
- 跑trac上的範例(model2)
- 找網頁樣板
- 切網頁分工