說明
- Nutch 是目前最知名也是最好的opensource 搜尋引擎專案之一,想製作自己的客製化搜尋引擎? 用Nutch就對了!
- 但是Nutch的設定繁瑣,因此我們之前試著開發 NutchEz 來幫助簡化安裝、設定以及操作的步驟
- NutchEz 顧名思義就是Nutch Easy,只要安裝NutchEz後就,再加上幾個指令,就可以輕鬆的產生出你自己的搜尋引擎囉!
- 目前正開始第二版本的NutchEz v0.2 ,希望能開發出功能更強,選項更多,但操作更人性化的專案
適用於
已經有很多搜尋引擎了,為什麼我們還要自己建?
原因有兩點(以下內容取自於家裡敦雲端搜尋公司 ):
- 商業必然廣告
搜尋幾乎是現代人上網時必做的事項之一,各大入口網站也無不絞盡腦汁提供更貼近人性化的搜尋。好用的搜尋讓人如魚得水,難以割捨;不好用的則將怨聲載道,眾叛親離。讀者們或許有過如下經驗:使用某大商業搜尋引擎時,列出的結果總是塞了一堆行銷和廣告,我們得用眼睛過濾掉這些無用的資訊並多翻個幾頁才可能找到想要的資料。
當然我們不該指責這些提供搜尋的公司,公司本為了獲利而生存,在需獲利又不能跟使用者收費的前提下,勢必得提供廣告版面給買主,或是將廣告行為秘密地安插至搜尋結果中,但這些行為依舊會影響到使用者的操作便利性。其實搜尋引擎不必然非得由大公司把持,即使是個人網站或企業內部,也可建置出相當客製化的搜尋引擎,而不必屈就於商業搜尋引擎。
- 建立自己的搜尋
部份個人或企業內部在架設網站時或許有些機密資料並不希望被商業搜尋引擎挖掘到,但仍需提供搜尋欄位給使用者找尋站內或其他相關網站的資料,這時候建立一個自己的搜尋引擎會是一個不錯的方案。
當然筆者傳授的不會是需要讀者花錢的玩意兒,只要讀者可以連接到網路,一切搞定。搜尋引擎固然可以自己打造,但矛盾的是網海無涯,區區一台電腦怎麼在短時間內對網路上的資訊做蒐集檢索?筆者在此也不建議對整個網路做全面性的分析,即使是超級電腦也要運算好一段時間。我們可針對特定網站進行分析檢索,並運用目前熱門的雲端平台來加速分析的進行,讓讀者們更加瞭解雲端運算的好用之處。以下將介紹可建立搜尋引擎的開放原始碼軟體Nutch,以及上期簡單介紹過可發揮雲端力量的分散式運算軟體Hadoop。
第一版本NutchEz 說明
- NutchEz V 0.1 的特色
- 專為 debian 系統開發,因此打包成 deb 檔,使用者只要點兩下即可安裝
- 已整合所有需要用到的套件 (Nutch + Hadoop + Tomcat),並調整過中文支援設定
- 使用 linux 的 dialog (cdialog) 介面,好處是開發容易,並且遠端登入的使用者也能使用此圖形介面
- 步驟簡單,大約五個步驟,完成前有設定參數確認頁,確認系統即開始建構搜尋引擎
- 連結
第二版本NutchEz 的新增功能
網頁管理
- 網頁管理介面,提供更多選項、更完整的資訊,並可遠端操作
簡易安裝
- 安裝設定利用 dialog ,簡單又可遠端操作
支援叢集運算
- 支援在叢集上透過平行分散式方法抓取分析網頁
適用汎 Linux 平台
- 支援多種 Linux Distribution
多種語言
- 介面支援多國語言
中文最佳化
- 增加中文分詞
- 解決中文亂碼
修正部份 bug
- 包括 Nutch or NutchEz v0.1
其他連結
- luke - nutch 的統計頁面
- Iframe - 網頁鑲嵌其他網頁,用以整合cluster資訊
- nutchez 的 google code site 專案
- 賽程資訊
- nutch 詳細安裝