= 五月份 工作計畫 = == 預定目標 == * Building Nutch/Hadoop project in eclipse * 完成hadoop 範例教學 -> 字數統計 * 完成nutch 應用範例 -> 索引硬碟資料 * 檢查cps是否有錯誤 == 工作里程 == === 5/13 === 1. 檢查並修改trac 上得cps是否為維誠給的 [apgrid同意版] 1. 將word檔內容貼到文字檔 ori.txt 2. 將trac上得內容貼到文字檔 new.txt 3. 消除不同的格式 (如 "\n\n"->" ^ M " (換兩行->換一行)、"._"、 "___*_"、":_\n") 4. vimdiff new.txt ori.txt 5. 檢查結果如下 http://trac.nchc.org.tw/gocca/wiki/CPSnew?action=diff&version=27&old_version=26 === 5/12 === 1. 完成 [http://trac.nchc.org.tw/gocca/wiki/CPSnew nchc cp/cps v.1.13] (apgrid 同意) 版本 於 ca網站及trac 主要麻煩為:最後經weicheng確認並認可的是word檔,要轉成html且wiki格式的步驟流程 1. cps 1.1.3 on doc format -> new.txt文字檔 2. cps 1.1.0 on html format in trac -> old.txt文字檔 3. vimdiff new.txt old.txt 檢視不同資訊 並修改 trac上舊的cps 1.1.0資訊成新版的 4. 將新的cps 1.1.3 從trac存到local 並用KompoZer編輯成原ca網站上的格式 5. 上傳並取代舊版 === 5/8 === 1. 基於資安問題將nutch限制瀏覽ip,修改conf/server.xml檔,加入 {{{    }}} 2. tomcat 調校方法 [http://www.oreilly.com.tw/column_editor.php?id=e137 中文] 、 [http://www.onjava.com/lpt/a/3909 英文] === 5/7 === 1. nutch 運作於 管理規範專區成功,並parse進pdf,word內容 改法為在nutch.site.xml加入內容 {{{ plugin.includes protocol-http|urlfilter-regex|parse-(text|html|js|pdf|msword|rss|rtf|oo|msexcel|parse-mspowerpoint)|index-basic|query-(basic|site|url)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic) ... }}} parse-(text|html|js|pdf|msword|rss|rtf|oo|msexcel|parse-mspowerpoint)內的檔名需要對應plugins中parse-XXX的名稱而定 === 5/5 === 1. nutch 運作於 管理規範專區成功,但內容卻不包含pdf, word, ... = 五月份以前 = [http://trac.nchc.org.tw/gocca/wiki/waue 五月以前工作紀錄]