{{{ #!html
NutchEz 中文版: 打造你專屬的搜尋引擎
}}} [[PageOutline]] = 簡介 = * 本專案已移至 [http://code.google.com/p/nutchez/ Google Code 專案平台] * Nutch 是目前最知名也是最好的opensource 搜尋引擎專案之一,想製作自己的客製化搜尋引擎? 用Nutch就對了![http://nutch.sourceforge.net/docs/zh/ Nutch簡介] * 不過Nutch的設定繁瑣,加上還要搭配Tomcat,在入手前需要花不少時間研究如何安裝使用 * !NutchEz 顧名思義就是Nutch Easy,只要安裝NutchEz後就,再加上幾個指令,就可以輕鬆的產生出你自己的搜尋引擎囉! * 若有任何問題歡迎寫信與我們聯絡 || 單位 || 作者 || Mail || || 國家高速網路中心-格網技術組 || Wei-Yu Chen || waue @ nchc.org.tw || = 適用平台 = * Ubuntu ( 8.04 up) * Debian ( 5.0 up) = 安裝方法 = 方法一(圖形介面): * 下載 NutchEz 的deb檔 [http://trac.nchc.org.tw/cloud/export/107/package/nutchez_0.1-3_i386.deb i386 版]、[http://trac.nchc.org.tw/cloud/export/107/package/nutchez_0.1-3_amd64.deb 64位元版],存於 Ubuntu 桌面上 * 滑鼠點兩下 nutchez_*.deb 進行安裝 方法二(文字介面): * 在 console 端,執行以下命令: {{{ # 32位元請下載 $ wget http://trac.nchc.org.tw/cloud/export/107/package/nutchez_0.1-3_i386.deb # 64位元請下載 $ wget http://trac.nchc.org.tw/cloud/export/107/package/nutchez_0.1-3_amd64.deb }}} 然後執行 {{{ $ sudo dpkg -i nutchez_0.1-*.deb }}} = 使用方法 = * 0. 輸入指令nutchez {{{ $ nutchez }}} ------ * 1. 中文版的主選單 [[Image(wiki:NutchEz:1.png)]] ------ * 2-1. 輸入或修改你要爬取的網址,一行一個網址 [[Image(wiki:NutchEz:2-1.png)]] ------ * 2-2. 輸入你搜尋機器人的名字 [[Image(wiki:NutchEz:2-2.png)]] ------ * 2-3. 輸入你要的收尋深度 (以http://www.nchc.org.tw/tw/為例,當深度為2,就能抓取上千個網址) [[Image(wiki:NutchEz:2-3.png)]] ------ * 2-4. 輸入你的搜尋網頁所要用的port (當8080 port已被佔用的時候,請輸入其他port) [[Image(wiki:NutchEz:2-4.png)]] ------ * 2-5. 是否清除上次的搜尋,第一次使用不會出現 [[Image(wiki:NutchEz:2-5.png)]] ------ * 2-6. 確認以上輸入的資訊是否正確,正確請按"ok",不正確的話選擇"reset",跳出程式可以選擇"exit" [[Image(wiki:NutchEz:2-6.png)]] ------ * 2-7. 當前一步驟按了ok後,程式開始執行 [[Image(wiki:NutchEz:6.png)]] ------ * 2-7.1. 若2-5選擇要清除上次的搜尋結果,則會提醒使用者,資料夾被更名 [[Image(wiki:NutchEz:2-7.1.png)]] ------ * 2-8. 運作完成後,自動開啟瀏覽器到 [http://localhost:8080] [[Image(wiki:NutchEz:7.png)]] ------ * 2-9. Enjoy NutchEz ! [[Image(wiki:NutchEz:8.png)]] ------ * 3-1. 若選擇 管理NutchEz的網頁伺服器 ! [[Image(wiki:NutchEz:3-1.png)]] ------ * 3-2. 程式會自動偵測是否有開啟,只要選擇要不要開啟或要不要關閉即可 ! [[Image(wiki:NutchEz:3-2.png)]] = 2009/09/01 news ! bug fixed = * 問題: * 安裝nutchez後執行 nutchez會出現以下錯誤 {{{ > /usr/bin/nutchez: line 58: [: too many arguments > /usr/bin/nutchez: line 92: [: too many arguments }}} * 解決: * 因為有相依套件 dialog 沒有安裝,目前提供的 nutchez 新版 deb 檔已修正這個問題。之前下載過的使用者可以手動安裝 dialog 套件便得以解決。 {{{ ~$ sudo apt-get install dialog }}} = 2009 07 08 新增功能 = * 有主選單以提供開啟或關閉Tomcat * 中文顯示 * 選擇是否不繼續上次的搜尋內容 * 工作目錄結構較為簡潔 * 新增 README file = 參考 = * [wiki:jazz/Hadoop_deb Jazz的deb打包教學] * [wiki:waue/2009/0512 如何製作Nutch deb]