Changes between Version 3 and Version 4 of nutchez2


Ignore:
Timestamp:
May 18, 2010, 2:42:18 PM (15 years ago)
Author:
waue
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • nutchez2

    v3 v4  
    1717
    1818= 適用於 =
    19  
     19已經有很多搜尋引擎了,為什麼我們還要自己建?[[BR]]
     20原因有兩點(以下內容取自於[http://www.techbang.com.tw/posts/1559 家裡敦雲端搜尋公司] ):
     21 * 商業必然廣告
     22搜尋幾乎是現代人上網時必做的事項之一,各大入口網站也無不絞盡腦汁提供更貼近人性化的搜尋。好用的搜尋讓人如魚得水,難以割捨;不好用的則將怨聲載道,眾叛親離。讀者們或許有過如下經驗:使用某大商業搜尋引擎時,列出的結果總是塞了一堆行銷和廣告,我們得用眼睛過濾掉這些無用的資訊並多翻個幾頁才可能找到想要的資料。[[BR]]
     23當然我們不該指責這些提供搜尋的公司,公司本為了獲利而生存,在需獲利又不能跟使用者收費的前提下,勢必得提供廣告版面給買主,或是將廣告行為秘密地安插至搜尋結果中,但這些行為依舊會影響到使用者的操作便利性。其實搜尋引擎不必然非得由大公司把持,即使是個人網站或企業內部,也可建置出相當客製化的搜尋引擎,而不必屈就於商業搜尋引擎。[[BR]]
     24 * 建立自己的搜尋
     25部份個人或企業內部在架設網站時或許有些機密資料並不希望被商業搜尋引擎挖掘到,但仍需提供搜尋欄位給使用者找尋站內或其他相關網站的資料,這時候建立一個自己的搜尋引擎會是一個不錯的方案。
     26當然筆者傳授的不會是需要讀者花錢的玩意兒,只要讀者可以連接到網路,一切搞定。搜尋引擎固然可以自己打造,但矛盾的是網海無涯,區區一台電腦怎麼在短時間內對網路上的資訊做蒐集檢索?筆者在此也不建議對整個網路做全面性的分析,即使是超級電腦也要運算好一段時間。我們可針對特定網站進行分析檢索,並運用目前熱門的雲端平台來加速分析的進行,讓讀者們更加瞭解雲端運算的好用之處。以下將介紹可建立搜尋引擎的開放原始碼軟體Nutch,以及上期簡單介紹過可發揮雲端力量的分散式運算軟體Hadoop。
     27
    2028== 第一版本NutchEz 說明 ==
    2129 * NutchEz V 0.1 的特色