Changes between Version 16 and Version 17 of waue/2011/07


Ignore:
Timestamp:
Jul 28, 2011, 2:28:31 PM (13 years ago)
Author:
waue
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • waue/2011/07

    v16 v17  
    9898= 28 =
    9999
    100  * 研究 nutch 結論
     100 * 研究 nutch 心得
    101101   * 已經取消 與 tomcat 結合的 war 檔,而使用 solr 的介面作搜尋,但明顯難用很多,solr 服務也需先打開
    102102   * 爬取結果 也與之前 1.2 版本 不同, 1.3 只有三個資料夾,1.2 以前則有五個資料夾
    103103   * mso,pdf,ooo 等檔案格式也不在plugin 內看到,猜測已用 tika ([http://tika.apache.org/ content analysis toolkit]) 全部整合取代
    104104   * 設定前需用 ant 編譯過後才可以使用,許多設定也與之前版本不同
    105 
     105 * 結論 : 繼續使用 nutch 1.2 為 crawlzilla 的延伸