Crawlzilla 於Ubuntu 10.4下安裝說明
單機及叢集三分鐘快速安裝教學影片版
安裝環境
執行安裝程式前請確認以下套件是否安裝,以避免相關套件檢查時中斷安裝程序。
- Sun Java(註:crawlzilla執行環境必須於Sun Java中執行,Ubuntu 10.04換成sun-java-jdk可參考以下指令)
sudo add-apt-repository "deb http://archive.canonical.com/ lucid partner" sudo apt-get update sudo apt-get install sun-java6-jdk sun-java6-plugin sudo update-java-alternatives -s java-6-sun
- openssh及openssh-server
- dialog
安裝步驟
單機安裝
此一安裝過程將假設欲安裝crawlzilla單機版於PC1中
Step1. 取得安裝檔
- 於Crawlzilla@GoogleCode或Crawlzilla@SourceForge中取得crawlzilla最新安裝檔
Step2. 解壓縮並執行安裝程式
- 參考指令如下:
tzr zxvf Crawlzilla-0.2-100813-Shell.tar.gz ./Crawlzilla_Install/install
Step3. 設定密碼及確認網路資訊
- 此一步驟將會在系統中新建一組user帳號-crawler,系統服務及叢集間的溝通將會已此一帳號密碼作為執行身份。
- 設定密碼並確認網路狀態資訊後,等候完成安裝即可。
- 畫面如下:
- 待出現"恭喜您完成Crawlzilla安裝,按Enter鍵離開..."即表示單機環境已安裝完成!安裝完成後開啟網頁將會顯示畫面如下:
叢集安裝
此一叢集安裝將於上述之PC1加入叢集運算節點PC2之安裝流程。
Step1. 透過PC1取得安裝提示
- 於client端執行"ssh PC1",並執行 "crawlzilla" 指令,找到"client安裝步驟",如下圖所示:
- 相關提示字元範例如下:
$ scp crawler@PC1:/home/crawler/crawlzilla/source/client_deploy.sh . $ ./client_deploy.sh
- 由於此一步驟需以crawler的身份ssh至PC1,因此過程中約需輸入1~2次crawler密碼
Step2. 於PC2執行上述之提示字元
- 取得提示執行後輸入主機之clawer密碼兩次並確認網路資訊即可自動完成安裝
執行畫面如下:
- 確認安裝資訊
- 輸入密碼
- 安裝完成
Step3. 驗證是否安裝成功
- 於PC1執行指令-"crawlzilla",出現以下畫面後選擇 "檢查Cluster 狀態",畫面如下:
- 若出現2個運算節點表示安裝成功!
註解
- 單機版安裝程序完成後,系統將會自動開啟tomcat服務及hadoop中的namenode及jobtracker,若要執行網頁crawl功能需自行透過系統管理介面開啟datanode及tasktracker。
- 叢集版安裝完成後,需回PC1執行系統管理介面開啟運算服務後才可加入crawl運算分派資源中。
- 系統管理介面操作方式請參考此頁說明
last modified: 2010/08/19
Last modified 14 years ago
Last modified on Aug 19, 2010, 9:32:20 AM
Attachments (8)
- 1.png (185.6 KB) - added by shunfa 14 years ago.
- 2.png (62.0 KB) - added by shunfa 14 years ago.
- 3.png (124.9 KB) - added by shunfa 14 years ago.
- 4.png (131.7 KB) - added by shunfa 14 years ago.
- 5.png (98.7 KB) - added by shunfa 14 years ago.
- 6.png (115.7 KB) - added by shunfa 14 years ago.
- 7.png (55.1 KB) - added by shunfa 14 years ago.
- 8.png (33.0 KB) - added by shunfa 14 years ago.
Download all attachments as: .zip