Changes between Version 5 and Version 6 of waue/2010/1125


Ignore:
Timestamp:
Nov 25, 2010, 5:02:03 PM (13 years ago)
Author:
waue
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • waue/2010/1125

    v5 v6  
    2121 = 解析器 tika =
    2222[http://www.ibm.com/developerworks/cn/opensource/tutorials/os-apache-tika/index.html 用 Apache Tika 理解信息内容]
     23 * [http://www.oschina.net/p/tika 内容抽取工具集合 Apache Tika]
    2324nutch 1.2 所附得 pdf 解析器為 pdfbox 0.7.3 ,現在最新的版本為 1.3.1 ,也許置換成最新的就可以解決部份中文不支援的問題,但是更換需要改寫程式碼
    2425
    2526 * [http://blog.ring.idv.tw/comment.ser?i=316 當大象遇上PDFBox...]
    2627 * [http://blog.ring.idv.tw/comment.ser?i=309 PDFBox - 擷取PDF檔案中的純文字]
     28 * [http://blog.csdn.net/allenshi_szl/archive/2009/12/06/4953302.aspx lucene pdf+doc+ppt+xls+txt+多层文件]
     29 * [http://blog.csdn.net/allenshi_szl/archive/2009/12/13/4951564.aspx 使用PDFBox处理PDF文档]
     30 * [http://blog.csdn.net/fuyangchang/archive/2007/06/11/1647774.aspx JAVA读取WORD,EXCEL,POWERPOINT,PDF文件的方法]
     31 * [http://blog.csdn.net/weijie_search/archive/2008/07/16/2662189.aspx 用Java读取pdf中的数据]