= 2010-11-23 =

 * 電腦教室 DRBL 新增硬碟 - 用 rsync 搬資料。
{{{
jazz@drbl:~$ sudo rsync -avzr --partial --progress /home/partimag/* /mnt/
}}}

== Lightweight web crawler ==

 * [http://www.yeeach.com/2009/05/16/%E5%9F%BA%E4%BA%8Epython%E7%9A%84crawler/ 基於 python 的 crawler]
   * http://scrapy.org/

 * 當然有人推薦 Perl, 有人推薦 PHP ... 不過，爬完之後怎麼分析，才是個難解的問題 :)
   * [http://stackoverflow.com/questions/977597/what-is-the-ideal-program-language-for-a-web-crawler What is the ideal program language for a web-crawler?]
   * [http://phpcrawl.cuab.de/ PHPCrawl] - a set of classes written in PHP for crawling/spidering websites

 * Java
  * [http://hc.apache.org/httpclient-3.x/ Apache HttpClient]
  * [http://home.ccil.org/~cowan/XML/tagsoup/ TagSoup] - 可以解析 HTML DOM
 
== Nutch, Droids, Tika, Solr ==

 * Droids 則定位為給使用者自行撰寫 crawler 的工具。([wiki:jazz/10-10-17 2010-10-17])
 * [http://tika.apache.org/ Apache Tika] - a content analysis toolkit
   * Tika 使用來解析 metadata 的工具，爬完之後，應該就是要經過 Tika 的解析來了解內容。
 * Solr 是 Lucene 的子專案，是用來建立 index 的工具。([wiki:jazz/10-10-17 2010-10-17]) 從文件上看起來，感覺 Solr 比 Lucene 特殊的地方在於支援資料庫。目前 Debian/Ubuntu 有多個 solr 相關的套件
  * [http://packages.debian.org/libwebservice-solr-perl libwebservice-solr-perl] - Perl interface for the Solr (Lucene) web service
  * [http://packages.debian.org/solr-common solr-common] - enterprise search server based on Lucene - common files
  * [http://packages.debian.org/solr-jetty solr-jetty] - enterprise search server based on Lucene - Jetty integration
  * [http://packages.debian.org/solr-tomcat solr-tomcat] - enterprise search server based on Lucene - Tomcat integration

 * 安裝 Droids - [參考] [https://cwiki.apache.org/confluence/display/DROIDS/installation Droids 安裝文件]
{{{
~$ sudo apt-get install maven2 subversion
~$ mkdir droids
~$ cd droids
~/droids$ svn co https://svn.apache.org/repos/asf/incubator/droids/trunk .
~/droids$ mvn clean install
}}}