| 2 | |
| 3 | == Hadoop, Nutch, Solr, Droids == |
| 4 | |
| 5 | * 目前 Nutch 基於 Hadoop, Lucene 在處理搜尋引擎的部份,其中 Hadoop 負責執行 crawler Job, 而 Lucene 負責建立 index 索引。 |
| 6 | * 目前 Apache 基金會有一些新專案,例如 [http://lucene.apache.org/solr/ Solr] 是 Lucene 的子專案,是用來建立 index 的,而 [http://incubator.apache.org/droids/ Droids] 則定位為給使用者自行撰寫 crawler 的工具。 |
| 7 | * 在[Using Nutch with Solr] 一文中,這樣示意圖可以大致了解,運用 Solr 取代 Lucene 的位置。 |
| 8 | * [[Image(http://www.lucidimagination.com/blog/wp-content/uploads/2009/03/solr-nutch-setup.png,width=800)]] |
| 9 | * 在[http://www.slideshare.net/sematext/projecthub sematext ProjectHub 投影片中],則介紹了如何打造 http://search-hadoop.com/ 與 http://search-lucene.com/ 這些網站背後的架構。 |
| 10 | * [[Image(sematext_architecture.png,width=800)]] |