1 | | {{{ |
2 | | #!html |
3 | | <div style="text-align: center;"><big |
4 | | style="font-weight: bold;"><big><big> NutchEz : 讓你更輕鬆自在的玩 Nutch </big></big></big></div> |
5 | | }}} |
6 | | |
7 | | [[PageOutline]] |
8 | | |
9 | | = 簡介 = |
10 | | |
11 | | * Nutch 是目前最知名也是最好的opensource 搜尋引擎專案之一,想製作自己的客製化搜尋引擎? 用Nutch就對了![http://nutch.sourceforge.net/docs/zh/ Nutch簡介] |
12 | | * 不過Nutch的設定繁瑣,加上還要搭配Tomcat,在入手前需要花不少時間研究如何安裝使用 |
13 | | * 所以就把Nutch要用到的東西化繁為簡,打包成一個deb檔讓大家使用,目前先名為NutchEz |
14 | | * !NutchEz 顧名思義就是Nutch Easy,只要安裝NutchEz後就,再加上幾個指令,就可以輕鬆的產生出你自己的搜尋引擎囉! |
15 | | * 現在下載的檔案還是叫做nutch,等之後調整較多並加入ui再改名 |
16 | | |
17 | | = 安裝方法 = |
18 | | |
19 | | * 下載 [http://hadoop.nchc.org.tw/~waue/nutch_1.0-1_i386.deb NutchEz 的deb檔] |
20 | | * 滑鼠點兩下安裝 |
21 | | |
22 | | = 使用方法 = |
23 | | |
24 | | {{{ |
25 | | $ sudo su - |
26 | | # cd /opt/nutch |
27 | | }}} |
28 | | * 輸入或修改你要爬取的網址 |
29 | | |
30 | | {{{ |
31 | | # vim urls/urls.txt |
32 | | }}} |
33 | | |
34 | | * 開始爬取 |
35 | | |
36 | | {{{ |
37 | | # bin/nutch crawl urls -dir search -depth 4 -topN 50 |
38 | | # tomcat/bin/startup.sh |
39 | | }}} |
40 | | |
41 | | * OK ! 你可以到 [http://localhost:8080] 看你的成果囉 |
42 | | |
43 | | = 預覽 = |
44 | | |
45 | | [[Image(1.png)]] |
46 | | [[Image(2.png)]] |
47 | | |
48 | | = 改進 = |
49 | | * [wiki:NutchEz-dev] |
50 | | |
51 | | = 參考 = |
52 | | * [wiki:jazz/Hadoop_deb Jazz的deb打包教學] |
53 | | * [wiki:waue/2009/0512 如何製作Nutch deb] |
| 1 | [[WikiInclude(NutchEz)]] |