wiki:jazz/10-11-23

Version 6 (modified by jazz, 14 years ago) (diff)

--

2010-11-23

Lightweight web crawler

Nutch, Droids, Tika, Solr

  • Droids 則定位為給使用者自行撰寫 crawler 的工具。(2010-10-17)
  • Apache Tika - a content analysis toolkit
    • Tika 使用來解析 metadata 的工具,爬完之後,應該就是要經過 Tika 的解析來了解內容。
  • Solr 是 Lucene 的子專案,是用來建立 index 的工具。(2010-10-17) 從文件上看起來,感覺 Solr 比 Lucene 特殊的地方在於支援資料庫。目前 Debian/Ubuntu? 有多個 solr 相關的套件
  • 安裝 Droids - [參考] Droids 安裝文件
    ~$ sudo apt-get install maven2 subversion
    ~$ mkdir droids
    ~$ cd droids
    ~/droids$ svn co https://svn.apache.org/repos/asf/incubator/droids/trunk .
    ~/droids$ mvn clean install