wiki:waue/2010/1125

Context Navigation

nutch 1.2 survey

並加測 protocal : ftp, file , 功能： pdf , url-filter

File 測試
FTP 測試
過濾器 t
1. conf/crawl-urlfilter.txt
解析器 tika
重新編譯 parse-pdf

File 測試

搜尋時，不會自動列出該目錄的內容並從而深入進去，需要檔案一個一個指定於url.txt中，並且file 無法跟 http 一起使用

FTP 測試

ok , 深度也沒問題，但是某些 pdf , word 無法解析，但 html , txt 都 ok

過濾器 t

conf/crawl-urlfilter.txt

修改此一檔案即可
```
+^http://([a-z0-9]*\.)*nchc.org.tw
```

+ 為必要，- 略過
^http:// 開頭為 http://
[a-z0-9] a-z 26個英文字母，與 0-9 十個數字
[string]* 重複 string
\. .
([a-z0-9]*\.)* aa.bb.皆可
+http://([a-z0-9]*\.)*nchc.org.tw (任何英數皆可的).nchc.org.tw，因此此網域不支援 -_大寫英文等網域名稱

以下沒有過濾效果

# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*.nchc.org.tw/
+^http://([a-z0-9]*\.)*.narl.org.tw/

# skip everything else
#-.
# accept everything
+.*

解析器 tika

用 Apache Tika 理解信息内容

内容抽取工具集合 Apache Tika

nutch 1.2 所附得 pdf 解析器為 pdfbox 0.7.3 ，現在最新的版本為 1.3.1 ，也許置換成最新的就可以解決部份中文不支援的問題，但是更換需要改寫程式碼

重新編譯 parse-pdf

進入 $nutch/src/plugin/parse-pdf/
- 清空 lib 內的 jar ，將pdfbox最新版下載下來（選擇 pdfbox-app-xxx.jar) 下載到 lib ，
- plugin.xml 改成lib 有的檔名pdfbox-app-xxx.jar
- 用 ant 編譯一下，出錯則是 org.pdfbox 找不到 --> 改成 org.apache.pdfbox
到 $nutch/src/plugin/ 執行 ant ，如果編譯完成，新的資料匯出現在 $nutch/build/plugin/parse-pdf/ 的 parse-pdf.jar (此檔就是新編譯出來的)
將新得取代掉舊得 parse-pdf.jar 再爬看看結果如何

Last modified 15 years ago Last modified on Nov 26, 2010, 4:42:39 PM

Download in other formats:

Plain Text

+	為必要，- 略過
^http://	開頭為 http://
[a-z0-9]	a-z 26個英文字母，與 0-9 十個數字
[string]*	重複 string
\.	.
([a-z0-9]\.)	aa.bb.皆可
+http://([a-z0-9]\.)nchc.org.tw	(任何英數皆可的).nchc.org.tw，因此此網域不支援 -_大寫英文等網域名稱