Version 9 (modified by jazz, 14 years ago) (diff) |
---|
2010-11-23
- 電腦教室 DRBL 新增硬碟 - 用 rsync 搬資料。
jazz@drbl:~$ sudo rsync -avzr --partial --progress /home/partimag/* /mnt/
Lightweight web crawler
- 當然有人推薦 Perl, 有人推薦 PHP ... 不過,爬完之後怎麼分析,才是個難解的問題 :)
- What is the ideal program language for a web-crawler?
- PHPCrawl - a set of classes written in PHP for crawling/spidering websites
- Java
- Apache HttpClient
- TagSoup - 可以解析 HTML DOM
Nutch, Droids, Tika, Solr
- Droids 則定位為給使用者自行撰寫 crawler 的工具。(2010-10-17)
- Apache Tika - a content analysis toolkit
- Tika 使用來解析 metadata 的工具,爬完之後,應該就是要經過 Tika 的解析來了解內容。
- Solr 是 Lucene 的子專案,是用來建立 index 的工具。(2010-10-17) 從文件上看起來,感覺 Solr 比 Lucene 特殊的地方在於支援資料庫。目前 Debian/Ubuntu? 有多個 solr 相關的套件
- libwebservice-solr-perl - Perl interface for the Solr (Lucene) web service
- solr-common - enterprise search server based on Lucene - common files
- solr-jetty - enterprise search server based on Lucene - Jetty integration
- solr-tomcat - enterprise search server based on Lucene - Tomcat integration
- 安裝 Droids - [參考] Droids 安裝文件
~$ sudo apt-get install maven2 subversion ~$ mkdir droids ~$ cd droids ~/droids$ svn co https://svn.apache.org/repos/asf/incubator/droids/trunk . ~/droids$ mvn clean install