= 2010-11-23 = * 電腦教室 DRBL 新增硬碟 - 用 rsync 搬資料。 {{{ jazz@drbl:~$ sudo rsync -avzr --partial --progress /home/partimag/* /mnt/ }}} == Lightweight web crawler == * [http://www.yeeach.com/2009/05/16/%E5%9F%BA%E4%BA%8Epython%E7%9A%84crawler/ 基於 python 的 crawler] * http://scrapy.org/ * 當然有人推薦 Perl, 有人推薦 PHP ... 不過,爬完之後怎麼分析,才是個難解的問題 :) * [http://stackoverflow.com/questions/977597/what-is-the-ideal-program-language-for-a-web-crawler What is the ideal program language for a web-crawler?] * [http://phpcrawl.cuab.de/ PHPCrawl] - a set of classes written in PHP for crawling/spidering websites * Java * [http://hc.apache.org/httpclient-3.x/ Apache HttpClient] * [http://home.ccil.org/~cowan/XML/tagsoup/ TagSoup] - 可以解析 HTML DOM == Nutch, Droids, Tika, Solr == * Droids 則定位為給使用者自行撰寫 crawler 的工具。([wiki:jazz/10-10-17 2010-10-17]) * [http://tika.apache.org/ Apache Tika] - a content analysis toolkit * Tika 使用來解析 metadata 的工具,爬完之後,應該就是要經過 Tika 的解析來了解內容。 * Solr 是 Lucene 的子專案,是用來建立 index 的工具。([wiki:jazz/10-10-17 2010-10-17]) 從文件上看起來,感覺 Solr 比 Lucene 特殊的地方在於支援資料庫。目前 Debian/Ubuntu 有多個 solr 相關的套件 * [http://packages.debian.org/libwebservice-solr-perl libwebservice-solr-perl] - Perl interface for the Solr (Lucene) web service * [http://packages.debian.org/solr-common solr-common] - enterprise search server based on Lucene - common files * [http://packages.debian.org/solr-jetty solr-jetty] - enterprise search server based on Lucene - Jetty integration * [http://packages.debian.org/solr-tomcat solr-tomcat] - enterprise search server based on Lucene - Tomcat integration * 安裝 Droids - [參考] [https://cwiki.apache.org/confluence/display/DROIDS/installation Droids 安裝文件] {{{ ~$ sudo apt-get install maven2 subversion ~$ mkdir droids ~$ cd droids ~/droids$ svn co https://svn.apache.org/repos/asf/incubator/droids/trunk . ~/droids$ mvn clean install }}}