{{{ #!html
NutchEz V2 開發者網頁
國網中心自由軟體實驗室
}}} [[PageOutline]] = 一、討論內容 = == [http://trac.nchc.org.tw/cloud/wiki/nutchez2_talk 之前討論歸檔] == == 4st (5/21) == * 討論事項 * [wiki:nutchez_svn subversion 專案管理] * 多國語言方案 * 目錄決定 * 更改安裝流程 || || || || || waue || nutchez.sh 規劃 || || || fafa || master_install || || || rock || client_install || || == 5st (5/28) == === rock === Slave 安裝程式demo === fafa === Master 安裝程式demo === waue === * 討論 web 要用 [http://wiki.apache.org/tomcat/UsingPhp tomcat 5 + php 4 ] 或 tomcat 6 + jsp * 討論 目錄架構 || 說明 || 路徑 || 擁有者身份 || || nutchez 家目錄 || /opt/nutchez/ || nutchuser || || nutch 家目錄 || /opt/nutchez/nutch || nutchuser || || nutch 工作目錄 || /var/nutchez/nutch-nutchuser || nutchuser || || nutch 日誌檔 || /var/nutchez/logs || nutchuser || || nutch 設定檔 || /opt/nutchez/nutch/conf || nutchuser || || tomcat 家目錄 || /opt/nutchez/tomcat || nutchuser || || nutchez 使用者目錄 || /home/nutchuser/nutchez/ || nutchuser || || nutchez 索引資料庫 || /home/nutchuser/nutchez/search/ || 由nutch完成crawl後產生 || * [http://trac.nchc.org.tw/cloud/export/124/nutchez-0.2/package/nutchez-0.2-20100524.tar.gz 下載修改後 nutch 叢集版 的壓縮檔] * 設定叢集驅動模式( /opt/nutchez/nutch/conf/ 的 hadoop-site.xml ) {{{ #!xml fs.default.name hdfs://localhost:9000 mapred.job.tracker localhost:9001 hadoop.tmp.dir /var/nutchez/nutch-nutchuser }}} * 設定 最後的搜尋結果 ( /opt/nutchez/tomcat/webapps/ROOT/WEB-INF/classes/ 的 nutch-site.xml ) {{{ #!xml searcher.dir /home/nutchuser/nutchez/search }}} * 使 nutch 主程式引入環境變數 (改 /opt/nutchez/nutch/bin/nutch ) {{{ #!sh NUTCH_HOME=/opt/nutchez/nutch NUTCH_CONF_DIR=/opt/nutchez/nutch/conf NUTCH_LOG_DIR=/var/nutchez/logs }}} * 叢集版的 nutch ,要使用之前,要先執行 hadoop format 與 start-all.sh = [wiki:waue/2010/nutchez2_archi 二、系統架構(編輯)] = [[WikiInclude(waue/2010/nutchez2_archi)]] = [wiki:waue/2010/nutchez2_procedure 三、各元件流程圖 (編輯)] = [[WikiInclude(waue/2010/nutchez2_procedure)]] = 四、專案管理 = * 第 0 步驟是第一次下載整個專案的時候執行 * 1~3 步驟 是每次要讓專案同步時需要做的 == 0. 下載專案 == * 列出 svn 內有什麼資料夾 {{{ svn ls https://trac.nchc.org.tw/svn/cloud/ }}} 接著會問一大堆認證密碼什麼鬼的,密碼正確才可以列出檔案 * 下載 nutchez 0.2 的專案 {{{ cd /opt/svn_project/ svn co https://trac.nchc.org.tw/svn/cloud/nutchez-0.2 }}} == 1. 更新專案 == {{{ cd nutchez-0.2 svn update }}} == 2. 加入檔案、資料夾的指令 == {{{ svn mkdir aaa svn add bbb.txt }}} == 3. 專案內容上傳 == {{{ svn ci }}} = 五、時間表 = || 項目 || 預計 || 開始 || 完成 || || 企劃書 || 5/3~5/4 || 5/3 || 5/5 || || survey || 5/3~5/7 || 5/3 || || || 開發 || 5/10~9/1 || || || || 試用與除錯 || 9/1~9/20 || || || || 專案完成 || 9/20 || || || = 六、相關連結 = * [wiki:nutchez2_intro nutchez v2 的介紹連結] * luke - [http://www.getopt.org/luke/ nutch 的統計頁面] * Iframe - 網頁鑲嵌其他網頁,用以整合cluster資訊 * [http://code.google.com/p/nutchez/ nutchez 的 google code site 專案 ] * [wiki:waue/2010/0430 賽程資訊] * [wiki:waue/2009/nutch_install nutch 詳細安裝]