waue/2009/0407 – Cloud Computing

wiki:waue/2009/0407

Context Navigation

今天要來研究如何把nutch加入到已經在運作的hadoop上
續昨天，目錄結構如下

/opt/nutch	nutch 家目錄
/opt/nutch_conf	nutch設定檔
/opt/hadoop	hadoop家目錄
/opt/conf	hadoop設定檔
/tmp/	日誌檔、中間檔與暫存檔

有可能的原因是nutch付的hadoop (0.19.1) 與我目前環境的hadoop (0.18.3)版本不同
由於大部分的情況是，我已經安裝了hadoop平台並且讓他工作一段時間之後，才要來加入nutch的測試，因此不可能在把以前的東西都刪掉，只為了測試nutch...
目前用nutch官方文件所提供的概念，把nutch內的hadoop都替換為原本主機已經運行的hadoop，設定檔要設定對，並且注意把hadoop-env.sh的export參數都寫入bash.bashrc內，這麼做可以正確執行。

$ cp -rf /opt/hadoop/* /opt/nutch/
$ vim /opt/nutch_conf/slaves
$ vim /opt/nutch_conf/nutch-site.xml
$ vim /opt/nutch_conf/hadoop-site.xml
$ scp -rc /opt/nutch_conf dx7200:/opt/nutch_conf
$ scp -rc /opt/nutch dx7200:/opt/nutch

其他大致如昨天，但發現其實收尋的能力有限，幾乎只有到一層，需要解決搜尋能力的問題
- 目前已修改 nutch-site.xml的plugin.folder 與 plugin.plugin兩個屬性的值
- urls內的urls.txt也許也需要修改對應的網址
- 執行指令也有差
```
bin/nutch crawl urls -dir search -thread 5 -depth 5 -topN 5
```
- 目前正辛苦的運作中. good

Last modified 17 years ago Last modified on Apr 7, 2009, 6:30:38 PM

Download in other formats:

Plain Text