wiki:waue/2010/nutchez2_archi

Version 7 (modified by waue, 14 years ago) (diff)

--

check_install.sh 安裝檢查程序
install.sh 安裝程序
remove.sh 移除 nutchez
nutchez Nutchez 設定
cluster_setup 設置 datanode 與 tasktracker 節點
tomcat_switch 網站伺服器開關
tomcat_port 網站伺服器換port
admin.php 管理介面
login.php 帳號登入
crawl.php 抓取設定
statistics.php 搜尋資料庫統計資料
cluster_status.php hadoop叢集狀態

列表說明

  • 安裝檢查程序: check_install.sh
    1. 檢查執行此檔的權限是否為 root
    2. 檢查是否有安裝 java, ssh , dialog, php...
    3. 建立 nutchuser 帳號
    4. 建立 ssh 的 private & public key
    5. 建立資料夾
    6. 設定權限
  • 安裝程序: install.sh
  • 移除 nutchez :remove.sh
    • 移除nutchez 並備份搜尋資料
  • Nutchez 設定: nutchez
    • 設置叢集: cluster_setup
      • 設置 datanode 與 tasktracker 節點
    • 網頁伺服器開關: tomcat_switch
      • 自動開啟關閉tomcat
    • 網頁伺服器port 號改變:tomcat_port
  • 管理介面 admin.php
    • 管理帳號登入: login.php
    • 搜尋選項設定與啟動:crawl.php
      • 各種nutch 選項、crontab 排班、重新or繼上次搜尋
    • 統計資料:statistics.php
      • url 有多少列、網頁多少個、資料大小、搜尋工作時間
    • 叢集狀態:cluster_status.php
      • datanode , tasktracker 狀態