wiki:nutchez2

Version 15 (modified by waue, 15 years ago) (diff)

--

NutchEz V2 開發者網頁
國網中心自由軟體實驗室

一、討論內容

之前討論歸檔

4st (5/21)

waue nutchez.sh 規劃
fafa master_install
rock client_install

5st (5/28)

  • 測試Master & Slave 安裝程式
說明 路徑 擁有者身份
nutchez 家目錄 /opt/nutchez/ nutchuser
nutch 家目錄 /opt/nutchez/nutch nutchuser
nutch 工作目錄 /var/nutchez/nutch-nutchuser nutchuser
nutch 日誌檔 /var/nutchez/logs nutchuser
nutch 設定檔 /opt/nutchez/nutch/conf nutchuser
tomcat 家目錄 /opt/nutchez/tomcat nutchuser
nutchez 使用者目錄 /home/nutchuser/nutchez/ nutchuser
nutchez 索引資料庫 /home/nutchuser/nutchez/search/ 由nutch完成crawl後產生
  • 修改 /opt/nutchez/nutch/conf/ 的 hadoop-site.xml
    <configuration>
      <property>
        <name>fs.default.name</name>
        <value>hdfs://secuse.nchc.org.tw:9000</value>
      </property>
      <property>
        <name>mapred.job.tracker</name>
        <value>secuse.nchc.org.tw:9001</value>
      </property>
      <property>
        <name>hadoop.tmp.dir</name>
        <value>/var/nutchez/nutch-nutchuser</value>
      </property>
    </configuration>
    
  • 改tomcat port => /opt/nutchez/tomcat/conf/ 的 server.xml
   <Connector port="8080" protocol="HTTP/1.1"
               connectionTimeout="20000"
               redirectPort="8443" URIEncoding="UTF-8"
               useBodyEncodingForURI="true" />
  • 最後的搜尋結果 => /opt/nutchez/tomcat/webapps/ROOT/WEB-INF/classes/ 的 nutch-site.xml
<configuration>
    <property>
        <name>searcher.dir</name>
        <value>/home/nutchuser/nutchez/search</value>
    </property>
</configuration>
  • /opt/nutchez/nutch/bin/nutch 執行檔有改
NUTCH_HOME=/opt/nutchez/nutch
NUTCH_CONF_DIR=/opt/nutchez/nutch/conf
NUTCH_LOG_DIR=/var/nutchez/logs
  • 用 改版的 nutchez 的 hadoop 還是要format 與 start-all.sh

二、系統架構(編輯)

WikiInclude(waue/2010/nutchez2_archi)?

三、各元件流程圖 (編輯)

WikiInclude(waue/2010/nutchez2_procedure)?

四、專案管理

  • 第 0 步驟是第一次下載整個專案的時候執行
  • 1~3 步驟 是每次要讓專案同步時需要做的

0. 下載專案

  • 列出 svn 內有什麼資料夾
    svn ls https://trac.nchc.org.tw/svn/cloud/
    
    接著會問一大堆認證密碼什麼鬼的,密碼正確才可以列出檔案
  • 下載 nutchez 0.2 的專案
    cd /opt/svn_project/
    svn co https://trac.nchc.org.tw/svn/cloud/nutchez-0.2
    

1. 更新專案

cd nutchez-0.2
svn update

2. 加入檔案、資料夾的指令

svn mkdir aaa
svn add bbb.txt

3. 專案內容上傳

svn ci

五、時間表

項目 預計 開始 完成
企劃書 5/3~5/4 5/3 5/5
survey 5/3~5/7 5/3
開發 5/10~9/1
試用與除錯 9/1~9/20
專案完成 9/20

六、相關連結

Attachments (1)

Download all attachments as: .zip