Version 21 (modified by waue, 15 years ago) (diff) |
---|
NutchEz V2 開發者網頁
國網中心自由軟體實驗室
一、討論內容
之前討論歸檔
4st (5/21)
- 討論事項
- subversion 專案管理
- 多國語言方案
- 目錄決定
- 更改安裝流程
waue nutchez.sh 規劃 fafa master_install rock client_install
5st (5/28)
rock
Slave 安裝程式demo
fafa
Master 安裝程式demo
waue
- 討論 web 要用 tomcat 5 + php 4 或 tomcat 6 + jsp
- 討論 目錄架構
說明 路徑 擁有者身份 nutchez 家目錄 /opt/nutchez/ nutchuser nutch 家目錄 /opt/nutchez/nutch nutchuser nutch 工作目錄 /var/nutchez/nutch-nutchuser nutchuser nutch 日誌檔 /var/nutchez/logs nutchuser nutch 設定檔 /opt/nutchez/nutch/conf nutchuser tomcat 家目錄 /opt/nutchez/tomcat nutchuser nutchez 使用者目錄 /home/nutchuser/nutchez/ nutchuser nutchez 索引資料庫 /home/nutchuser/nutchez/search/ 由nutch完成crawl後產生
- 下載修改後 nutch 叢集版 的壓縮檔
- 設定叢集驅動模式( /opt/nutchez/nutch/conf/ 的 hadoop-site.xml )
<configuration> <property> <name>fs.default.name</name> <value>hdfs://localhost:9000</value> </property> <property> <name>mapred.job.tracker</name> <value>localhost:9001</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/var/nutchez/nutch-nutchuser</value> </property> </configuration>
- 設定 最後的搜尋結果 ( /opt/nutchez/tomcat/webapps/ROOT/WEB-INF/classes/ 的 nutch-site.xml )
<configuration> <property> <name>searcher.dir</name> <value>/home/nutchuser/nutchez/search</value> </property> </configuration>
- 使 nutch 主程式引入環境變數 (改 /opt/nutchez/nutch/bin/nutch )
NUTCH_HOME=/opt/nutchez/nutch NUTCH_CONF_DIR=/opt/nutchez/nutch/conf NUTCH_LOG_DIR=/var/nutchez/logs
- 叢集版的 nutch ,要使用之前,要先執行 hadoop format 與 start-all.sh
- 設定叢集驅動模式( /opt/nutchez/nutch/conf/ 的 hadoop-site.xml )
二、系統架構(編輯)
WikiInclude(waue/2010/nutchez2_archi)?
三、各元件流程圖 (編輯)
WikiInclude(waue/2010/nutchez2_procedure)?
四、專案管理
- 第 0 步驟是第一次下載整個專案的時候執行
- 1~3 步驟 是每次要讓專案同步時需要做的
0. 下載專案
- 列出 svn 內有什麼資料夾
svn ls https://trac.nchc.org.tw/svn/cloud/
接著會問一大堆認證密碼什麼鬼的,密碼正確才可以列出檔案
- 下載 nutchez 0.2 的專案
cd /opt/svn_project/ svn co https://trac.nchc.org.tw/svn/cloud/nutchez-0.2
1. 更新專案
cd nutchez-0.2 svn update
2. 加入檔案、資料夾的指令
svn mkdir aaa svn add bbb.txt
3. 專案內容上傳
svn ci
五、時間表
項目 預計 開始 完成 企劃書 5/3~5/4 5/3 5/5 survey 5/3~5/7 5/3 開發 5/10~9/1 試用與除錯 9/1~9/20 專案完成 9/20
六、相關連結
- nutchez v2 的介紹連結
- luke - nutch 的統計頁面
- Iframe - 網頁鑲嵌其他網頁,用以整合cluster資訊
- nutchez 的 google code site 專案
- 賽程資訊
- nutch 詳細安裝
- plugin central
新增目標
- 穿透帳號密碼登入 .. httpclient
- ftp: login 設定
- MS File Share Folder ( samba ) - https://issues.apache.org/jira/browse/NUTCH-427
Attachments (1)
- mvc.zip (46.8 KB) - added by waue 14 years ago.
Download all attachments as: .zip