Changes between Version 2 and Version 3 of waue/2010/1125


Ignore:
Timestamp:
Nov 25, 2010, 4:34:38 PM (13 years ago)
Author:
waue
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • waue/2010/1125

    v2 v3  
    2121 = 解析器 tika =
    2222[http://www.ibm.com/developerworks/cn/opensource/tutorials/os-apache-tika/index.html 用 Apache Tika 理解信息内容]
     23nutch 1.2 所附得 pdf 解析器為 pdfbox 0.7.3 ,現在最新的版本為 1.3.1 ,也許置換成最新的就可以解決部份中文不支援的問題,但是更換需要改寫程式碼