nutchez 目前進度
- 目前的版本 nutchez_0.1 已經可以順暢的運作
- menu --> ok
- crawl web --> ok
- tomcat --> ok
- multi-user --> ok
增加功能
- 判斷中英文,模式:初學者(較多說明)、使用者(快速設定使用)、除錯(細部訊息)
- 說明資訊
- nutch-site.xml的更多設定
需改進
- 搜尋第二次就會超久
- 猜測是繼承第一次的網址繼續爬網
- 加個選項:承續前一次or重新爬網
- 加個選項:只爬固定網址下的網頁
- 在搜尋的時候會有些java的error
- 鎖定只爬取某些網頁
- 減肥
- nutch = 80M , tomcat = 40M , total => 120M , 每個使用者又把tomcat複製到自己的家目錄下
- 用link的方式,執行檔都用/opt/nutch/tomcat 但/opt/nutch/tomcat/conf 用自己家目錄的設定
Last modified 16 years ago
Last modified on Jun 5, 2009, 4:33:37 PM
Attachments (8)
- 1.png (16.2 KB) - added by waue 16 years ago.
- 2.png (12.2 KB) - added by waue 16 years ago.
- 3.png (10.6 KB) - added by waue 16 years ago.
- 4.png (11.7 KB) - added by waue 16 years ago.
- 5.png (29.7 KB) - added by waue 16 years ago.
- 6.png (169.3 KB) - added by waue 16 years ago.
- 7.png (27.5 KB) - added by waue 16 years ago.
- 8.png (81.2 KB) - added by waue 16 years ago.
Download all attachments as: .zip