1 | | [[WikiInclude(waue/2009/0513)]] |
| 1 | {{{ |
| 2 | #!html |
| 3 | <div style="text-align: center;"><big |
| 4 | style="font-weight: bold;"><big><big> NutchEz : 讓你更輕鬆自在的玩 Nutch </big></big></big></div> |
| 5 | }}} |
| 6 | |
| 7 | [[PageOutline]] |
| 8 | |
| 9 | = 簡介 = |
| 10 | |
| 11 | * Nutch 是目前最知名也是最好的opensource 搜尋引擎專案之一,想製作自己的客製化搜尋引擎? 用Nutch就對了![http://nutch.sourceforge.net/docs/zh/ Nutch簡介] |
| 12 | * 不過Nutch的設定繁瑣,加上還要搭配Tomcat,在入手前需要花不少時間研究如何安裝使用 |
| 13 | * 所以就把Nutch要用到的東西化繁為簡,打包成一個deb檔讓大家使用,目前先名為NutchEz |
| 14 | * !NutchEz 顧名思義就是Nutch Easy,只要安裝NutchEz後就,再加上幾個指令,就可以輕鬆的產生出你自己的搜尋引擎囉! |
| 15 | * 現在下載的檔案還是叫做nutch,等之後調整較多並加入ui再改名 |
| 16 | |
| 17 | = 安裝方法 = |
| 18 | |
| 19 | * 下載 [http://hadoop.nchc.org.tw/~waue/nutch_1.0-1_i386.deb NutchEz 的deb檔] |
| 20 | * 滑鼠點兩下安裝 |
| 21 | |
| 22 | = 使用方法 = |
| 23 | |
| 24 | {{{ |
| 25 | $ sudo su - |
| 26 | # cd /opt/nutch |
| 27 | }}} |
| 28 | * 輸入或修改你要爬取的網址 |
| 29 | |
| 30 | {{{ |
| 31 | # vim urls/urls.txt |
| 32 | }}} |
| 33 | |
| 34 | * 開始爬取 |
| 35 | |
| 36 | {{{ |
| 37 | # bin/nutch crawl urls -dir search -depth 4 -topN 50 |
| 38 | # tomcat/bin/startup.sh |
| 39 | }}} |
| 40 | |
| 41 | * OK ! 你可以到 [http://localhost:8080] 看你的成果囉 |
| 42 | |
| 43 | = 預覽 = |
| 44 | |
| 45 | [[Image(1.png)]] |
| 46 | [[Image(2.png)]] |
| 47 | |
| 48 | = Future Work = |
| 49 | * 加入Dialog 及流程設計 |
| 50 | |
| 51 | = 參考 = |
| 52 | * [wiki:jazz/Hadoop_deb Jazz的deb打包教學] |
| 53 | * [wiki:waue/2009/0512 如何製作Nutch deb] |