nutch 1.2 survey
並加測 protocal : ftp, file , 功能: pdf , url-filter
File 測試
搜尋時,不會自動列出該目錄的內容並從而深入進去,需要檔案一個一個指定於url.txt中,並且file 無法跟 http 一起使用
FTP 測試
ok , 深度也沒問題,但是某些 pdf , word 無法解析,但 html , txt 都 ok
過濾器 t
conf/crawl-urlfilter.txt
- 修改此一檔案即可
+^http://([a-z0-9]*\.)*nchc.org.tw
+ 為必要,- 略過 http:// 開頭為 http:// [a-z0-9] a-z 26個英文字母,與 0-9 十個數字 [string]* 重複 string \. . ([a-z0-9]*\.)* aa.bb.皆可 +http://([a-z0-9]*\.)*nchc.org.tw (任何英數皆可的).nchc.org.tw,因此此網域不支援 -_大寫英文等網域名稱
- 以下沒有過濾效果
# accept hosts in MY.DOMAIN.NAME +^http://([a-z0-9]*\.)*.nchc.org.tw/ +^http://([a-z0-9]*\.)*.narl.org.tw/ # skip everything else #-. # accept everything +.*
解析器 tika
nutch 1.2 所附得 pdf 解析器為 pdfbox 0.7.3 ,現在最新的版本為 1.3.1 ,也許置換成最新的就可以解決部份中文不支援的問題,但是更換需要改寫程式碼
- 當大象遇上PDFBox...
- PDFBox - 擷取PDF檔案中的純文字
- lucene pdf+doc+ppt+xls+txt+多层文件
- 使用PDFBox处理PDF文档
- JAVA读取WORD,EXCEL,POWERPOINT,PDF文件的方法
- 用Java读取pdf中的数据
重新編譯 parse-pdf
- 進入 $nutch/src/plugin/parse-pdf/
- 清空 lib 內的 jar ,將pdfbox最新版下載下來(選擇 pdfbox-app-xxx.jar) 下載到 lib ,
- plugin.xml 改成lib 有的檔名pdfbox-app-xxx.jar
- 用 ant 編譯一下,出錯則是 org.pdfbox 找不到 --> 改成 org.apache.pdfbox
- 到 $nutch/src/plugin/ 執行 ant ,如果編譯完成,新的資料匯出現在 $nutch/build/plugin/parse-pdf/ 的 parse-pdf.jar (此檔就是新編譯出來的)
- 將新得取代掉舊得 parse-pdf.jar 再爬看看結果如何
Last modified 14 years ago
Last modified on Nov 26, 2010, 4:42:39 PM