Changes between Version 7 and Version 8 of waue/2010/1125
- Timestamp:
- Nov 25, 2010, 6:16:19 PM (13 years ago)
Legend:
- Unmodified
- Added
- Removed
- Modified
-
waue/2010/1125
v7 v8 42 42 * [http://blog.csdn.net/fuyangchang/archive/2007/06/11/1647774.aspx JAVA读取WORD,EXCEL,POWERPOINT,PDF文件的方法] 43 43 * [http://blog.csdn.net/weijie_search/archive/2008/07/16/2662189.aspx 用Java读取pdf中的数据] 44 45 = 重新編譯 parse-pdf = 46 * 進入 $nutch/src/plugin/parse-pdf/ 47 * 清空 lib 內的 jar ,將[http://pdfbox.apache.org/download.html#pdfbox pdfbox]最新版下載下來(選擇 pdfbox-app-xxx.jar) 下載到 lib , 48 * plugin.xml 改成lib 有的檔名pdfbox-app-xxx.jar 49 * 用 ant 編譯一下,出錯則是 org.pdfbox 找不到 --> 改成 org.apache.pdfbox 50 * 到 $nutch/src/plugin/ 執行 ant ,如果編譯完成,新的資料匯出現在 $nutch/build/plugin/parse-pdf/ 的 parse-pdf.jar (此檔就是新編譯出來的) 51 * 將新得取代掉舊得 parse-pdf.jar 再爬看看結果如何 52