Version 2 (modified by waue, 17 years ago) (diff) |
---|
五月份 工作計畫
預定目標
- Building Nutch/Hadoop? project in eclipse
- 完成hadoop 範例教學 -> 字數統計
- 完成nutch 應用範例 ->
工作里程
5/12.
- 完成 nchc cp/cps v.1.13 (apgrid 同意) 版本 於 ca網站及trac
主要麻煩為:最後經weicheng確認並認可的是word檔,要轉成html且wiki格式的步驟流程
- cps 1.1.3 on doc format -> new.txt文字檔
- cps 1.1.0 on html format in trac -> old.txt文字檔
- vimdiff new.txt old.txt 檢視不同資訊 並修改 trac上舊的cps 1.1.0資訊成新版的
- 將新的cps 1.1.3 從trac存到local 並用KompoZer編輯成原ca網站上的格式
- 上傳並取代舊版
5/8
- 基於資安問題將nutch限制瀏覽ip,修改conf/server.xml檔,加入
<Context path="/path/to/secret_files" ...> <Valve className="org.apache.catalina.valves.RemoteAddrValve" allow="127.0.0.1" deny=""/> </Context>
5/7
- nutch 運作於 管理規範專區成功,並parse進pdf,word內容 改法為在nutch.site.xml加入內容
<property> <name>plugin.includes</name> <value>protocol-http|urlfilter-regex|parse-(text|html|js|pdf|msword|rss|rtf|oo|msexcel|parse-mspowerpoint)|index-basic|query-(basic|site|url)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)</value> <description>... </description> </property>
parse-(text|html|js|pdf|msword|rss|rtf|oo|msexcel|parse-mspowerpoint)內的檔名需要對應plugins中parse-XXX的名稱而定
5/5
- nutch 運作於 管理規範專區成功,但內容卻不包含pdf, word, ...