wiki:waue

Version 5 (modified by waue, 16 years ago) (diff)

--

五月份 工作計畫

預定目標

  • Building Nutch/Hadoop? project in eclipse
  • 完成hadoop 範例教學 -> 字數統計
  • 完成nutch 應用範例 -> 索引硬碟資料
  • 檢查cps是否有錯誤

工作里程

5/13

  1. 檢查並修改trac 上得cps是否為維誠給的 [apgrid同意版]
    1. 將word檔內容貼到文字檔 ori.txt
    2. 將trac上得內容貼到文字檔 new.txt
    3. 消除不同的格式 (如 "\n\n"->" M " (換兩行->換一行)、"._"、 "_*_"、":_\n")
    4. vimdiff new.txt ori.txt
    5. 檢查結果如下 http://trac.nchc.org.tw/gocca/wiki/CPSnew?action=diff&version=27&old_version=26

5/12

  1. 完成 nchc cp/cps v.1.13 (apgrid 同意) 版本 於 ca網站及trac 主要麻煩為:最後經weicheng確認並認可的是word檔,要轉成html且wiki格式的步驟流程
    1. cps 1.1.3 on doc format -> new.txt文字檔
    2. cps 1.1.0 on html format in trac -> old.txt文字檔
    3. vimdiff new.txt old.txt 檢視不同資訊 並修改 trac上舊的cps 1.1.0資訊成新版的
    4. 將新的cps 1.1.3 從trac存到local 並用KompoZer編輯成原ca網站上的格式
    5. 上傳並取代舊版

5/8

  1. 基於資安問題將nutch限制瀏覽ip,修改conf/server.xml檔,加入
    <Context path="/path/to/secret_files" ...>
      <Valve className="org.apache.catalina.valves.RemoteAddrValve"
        allow="127.0.0.1" deny=""/>
    </Context>
    
  1. tomcat 調校方法 中文英文

5/7

  1. nutch 運作於 管理規範專區成功,並parse進pdf,word內容 改法為在nutch.site.xml加入內容
<property>
  <name>plugin.includes</name>
  <value>protocol-http|urlfilter-regex|parse-(text|html|js|pdf|msword|rss|rtf|oo|msexcel|parse-mspowerpoint)|index-basic|query-(basic|site|url)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)</value>
  <description>...
  </description>
</property>

parse-(text|html|js|pdf|msword|rss|rtf|oo|msexcel|parse-mspowerpoint)內的檔名需要對應plugins中parse-XXX的名稱而定

5/5

  1. nutch 運作於 管理規範專區成功,但內容卻不包含pdf, word, ...

五月份以前

五月以前工作紀錄