= 1. 安裝流程 = == 1.1 流程解說 == 1. 在 master node 下載 nutchez v0.2.tar.gz 檔,並解開壓縮檔 2. 在 master node 執行 master_install 檔進行安裝 (詳細安裝步驟於1.2) 3. 安裝成功會產生client_install 的安裝檔 4. 在 slave node 上執行此 client_install 安裝檔 (詳細安裝步驟於1.3) 5. 所有 slave node 都分別執行了此 client_install 皆正確無誤後,叢集安裝完成 == 1.2 Master Install 安裝細部流程圖 == * Master Install {{{ #!graphviz digraph G { rankdir="LR"; node[shape=box]; "用root\n身份執行" -> "跳出" [label="no"]; "用root\n身份執行" -> "檢查相\n依程式" [label="yes"]; "檢查相\n依程式" -> "詢問必\n要資訊" [label="ok"]; "檢查相\n依程式" -> "印出缺\n少項目" [label="fault"]; "詢問必\n要資訊" -> "使用者\n確認" [label="使用者需\n輸入資訊"]; "使用者\n確認" -> "建立\n nutchuser\n帳號" [label="yes"]; "使用者\n確認" -> "詢問必\n要資訊" [label="no"]; "建立\n nutchuser\n帳號" -> "建立.ssh\n公鑰與\n私鑰" [label="使用者需\n輸入密碼"]; "建立.ssh\n公鑰與\n私鑰" -> "安裝\nnutchez\n軟體"-> "產生\nClient\ninstall"-> "製作\n客戶\npackage"-> "啟動\n hadoop \n服務" } }}} == 1.3 Client Install 安裝細部流程圖 == * Client Install {{{ #!graphviz digraph G { size ="4,0"; rankdir="LR"; node[shape=box]; "用root\n身份執行" -> "跳出" [label="no"]; "用root\n身份執行" -> "檢查相\n依程式" [label="yes"]; "檢查相\n依程式" -> "輸入ssh\n到master的\nnutchuser\n密碼" [label="ok"]; "檢查相\n依程式" -> "印出缺\n少項目" [label="fault"]; "輸入ssh\n到master的\nnutchuser\n密碼" -> "建立\nnutchuser\n帳號" [label="正確"]; "輸入ssh\n到master的\nnutchuser\n密碼" -> "安裝不成功" [label="錯誤三次"]; "建立\nnutchuser\n帳號" -> "拷貝\nnutchuser\n在master \n 的key" -> "從master拷\npackage\n來安裝" -> "傳送\nhostname \n與ip到\nmaster" -> "完成"; } }}} = 2. 管理設定介面 = * Nutchez 設定: nutchez * 設置叢集: cluster_setup * 設置 datanode 與 tasktracker 節點 * 網頁伺服器開關: tomcat_switch * 自動開啟關閉tomcat * 網頁伺服器port 號改變:tomcat_port {{{ #!graphviz digraph G { rankdir="LR"; node[shape=box]; "是否更新 /etc/hosts" -> "切換 root\n編輯" [label="yes"]; "是否更新 /etc/hosts" -> "功能選單(main_menu)" [label="預設值:no\n(直接使用 nutchuser)"]; "切換 root\n編輯" -> "功能選單(main_menu)" ; "功能選單(main_menu)" -> "設定 datanode 和 trsktrackernode" [label="cluster_setup"]; "功能選單(main_menu)" -> "tomcat start/stop/restart" [label="tomcat_switch"]; "功能選單(main_menu)" -> "輸入 tomcat port" [label="tomcat_port"] ; "功能選單(main_menu)" -> "語系轉換" [label="lang_switch"]; "設定 datanode 和 trsktrackernode" -> "/opt/nutchez/nutch/bin/hadoop-daemon.sh start datanode\n/opt/nutchez/nutch/bin/hadoop-daemon.sh start tasktracker" [label="start"]; "設定 datanode 和 trsktrackernode" -> "/opt/nutchez/nutch/bin/hadoop-daemon.sh stop datanode\n/opt/nutchez/nutch/bin/hadoop-daemon.sh stop tasktracker" [label="stop"]; "tomcat start/stop/restart" -> "/opt/nutchez/tomcat/bin/startup.sh" [label="sart"]; "tomcat start/stop/restart" -> "/opt/nutchez/tomcat/bin/shudown.sh" [label="stop"]; "tomcat start/stop/restart" -> "shudown.sh -> startup.sh" [label="restart"]; "輸入 tomcat port" -> "修改 server.xml"; } }}} * !BugList || Bug ID|| 錯誤等級 || 程式 || 行數 || 問題 || 解法 || 狀態 || || 1|| B  || nutchez || 36 || 無 su 失敗的錯誤提示 || 新增 if 判斷,失敗及跳出管理介面 || 已解決 || || 2|| C  || nutchez ||    || 每次執行前都會詢問更新的訊息 || 增加 nutch_nodes 的判斷,若有更新則要求使用者更新 || 已解決 || || 3|| D  || nutchez ||    || 無 ALL 和 Part 選單 || 增加 ALL 和 Part 選單 || 已解決 || || 4|| D  || nutchez ||    ||  || 新增 restart 選項到 tasknode 和 tasktracker || 已解決 || = 3. Nutch 網頁管理介面 = * 管理介面 admin.php * 管理帳號登入: login.php * 搜尋選項設定與啟動:crawl.php * 各種nutch 選項、crontab 排班、重新or繼上次搜尋 * 統計資料:statistics.php * url 有多少列、網頁多少個、資料大小、搜尋工作時間 * 叢集狀態:cluster_status.php * datanode , tasktracker 狀態