[[PageOutline]] = Crawlzilla 網頁執行介面 = 管理介面預設網址為:http://localhost:8080 或 http://ServerIP:8080,登入後首頁如下: [[Image(1.png)]] == 設定網頁管理者密碼 == 首次進入網頁介面時,必須先重設管理者密碼(預設密碼為:crawler),設定密碼點選送出並重新登入後就可執行系統。 [[Image(2.png)]] == 建立第一個搜尋引擎 == === Step1. 開啟所有運算服務 === 由於執行Crawl必須透過Hadoop運算,因此執行Crawl前請先依序確認以下服務是否已開啟,若為關閉狀態,請依序開啟這些服務。 * Namenode and Jobtracker * Datanode and Tasktracker(需開啟全部的運算節點) 若不熟悉開啟步驟,請參考[wiki:crawlzilla/sysmanagement_zh 系統管理介面操作說明] === Step2. 至Crawl網頁中設定爬取項目 === 依序填入:索引庫名稱,欲抓取的網址(可多行,如圖所示)及設定爬取深度即可送出 [[Image(3.png)]] 送出後如圖所示,等候時間需視視每台主機的運算速度而定。 [[Image(4.png)]] === Step3. 瀏覽網頁爬取進度 === 透過系統狀態頁面,可即時了解網頁爬取進度 [[Image(5.png)]] 待出現"Finish"表示索引庫已建立,並可將此一訊息刪除 [[Image(6.png)]] * 完成此一步驟,第一個搜尋引擎已建置,右側快速連結中的"tracCloud_and_nchcTW_3"即為此次所建立的搜尋引擎。 === Step4. 測試搜尋引擎功能 === 點選右側快速連結中的"tracCloud_and_nchcTW_3"進入搜尋引擎後,輸入一組關鍵字測試搜尋結果,下圖為輸入"nchc"為例: [[Image(7.png)]] 搜尋結果: [[Image(8.png)]] == 其他功能 == === 索引庫管理 === ==== 索引庫瀏覽 ==== ==== 索引庫刪除 ==== === 網頁多工爬取 === === 同時存在多個搜訊引擎 === === 在網頁中嵌入搜尋引擎 === last modified: 2010/08/20