= 五月份 工作計畫 =
== 預定目標 ==
* Building Nutch/Hadoop project in eclipse
* 完成hadoop 範例教學 -> 字數統計
* 完成nutch 應用範例 -> 索引硬碟資料
* 檢查cps是否有錯誤
== 工作里程 ==
=== 5/13 ===
1. 檢查並修改trac 上得cps是否為維誠給的 [apgrid同意版]
1. 將word檔內容貼到文字檔 ori.txt
2. 將trac上得內容貼到文字檔 new.txt
3. 消除不同的格式 (如 "\n\n"->" ^ M " (換兩行->換一行)、"._"、 "___*_"、":_\n")
4. vimdiff new.txt ori.txt
5. 檢查結果如下 http://trac.nchc.org.tw/gocca/wiki/CPSnew?action=diff&version=27&old_version=26
=== 5/12 ===
1. 完成 [http://trac.nchc.org.tw/gocca/wiki/CPSnew nchc cp/cps v.1.13] (apgrid 同意) 版本 於 ca網站及trac
主要麻煩為:最後經weicheng確認並認可的是word檔,要轉成html且wiki格式的步驟流程
1. cps 1.1.3 on doc format -> new.txt文字檔
2. cps 1.1.0 on html format in trac -> old.txt文字檔
3. vimdiff new.txt old.txt 檢視不同資訊 並修改 trac上舊的cps 1.1.0資訊成新版的
4. 將新的cps 1.1.3 從trac存到local 並用KompoZer編輯成原ca網站上的格式
5. 上傳並取代舊版
=== 5/8 ===
1. 基於資安問題將nutch限制瀏覽ip,修改conf/server.xml檔,加入
{{{
}}}
2. tomcat 調校方法
[http://www.oreilly.com.tw/column_editor.php?id=e137 中文] 、 [http://www.onjava.com/lpt/a/3909 英文]
=== 5/7 ===
1. nutch 運作於 管理規範專區成功,並parse進pdf,word內容 改法為在nutch.site.xml加入內容
{{{
plugin.includes
protocol-http|urlfilter-regex|parse-(text|html|js|pdf|msword|rss|rtf|oo|msexcel|parse-mspowerpoint)|index-basic|query-(basic|site|url)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)
...
}}}
parse-(text|html|js|pdf|msword|rss|rtf|oo|msexcel|parse-mspowerpoint)內的檔名需要對應plugins中parse-XXX的名稱而定
=== 5/5 ===
1. nutch 運作於 管理規範專區成功,但內容卻不包含pdf, word, ...
= 五月份以前 =
[http://trac.nchc.org.tw/gocca/wiki/waue 五月以前工作紀錄]