Changes between Version 7 and Version 8 of waue/2010/1125


Ignore:
Timestamp:
Nov 25, 2010, 6:16:19 PM (13 years ago)
Author:
waue
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • waue/2010/1125

    v7 v8  
    4242 * [http://blog.csdn.net/fuyangchang/archive/2007/06/11/1647774.aspx JAVA读取WORD,EXCEL,POWERPOINT,PDF文件的方法]
    4343 * [http://blog.csdn.net/weijie_search/archive/2008/07/16/2662189.aspx 用Java读取pdf中的数据]
     44
     45 = 重新編譯 parse-pdf =
     46 * 進入 $nutch/src/plugin/parse-pdf/
     47   * 清空 lib 內的 jar ,將[http://pdfbox.apache.org/download.html#pdfbox pdfbox]最新版下載下來(選擇 pdfbox-app-xxx.jar) 下載到 lib ,
     48   * plugin.xml 改成lib 有的檔名pdfbox-app-xxx.jar
     49   * 用  ant 編譯一下,出錯則是 org.pdfbox 找不到 --> 改成 org.apache.pdfbox
     50 * 到 $nutch/src/plugin/ 執行 ant ,如果編譯完成,新的資料匯出現在 $nutch/build/plugin/parse-pdf/ 的 parse-pdf.jar (此檔就是新編譯出來的)
     51 * 將新得取代掉舊得 parse-pdf.jar 再爬看看結果如何
     52