wiki:crawlzilla/webui_zh

Crawlzilla 網頁執行介面

管理介面預設網址為:http://localhost:8080http://ServerIP:8080,登入後首頁如下

設定網頁管理者密碼

首次進入網頁介面時,必須先重設管理者密碼(預設密碼為:crawler),設定密碼點選送出並重新登入後就可執行系統。

建立第一個搜尋引擎

Step1. 開啟所有運算服務

由於執行Crawl必須透過Hadoop運算,因此執行Crawl前請先依序確認以下服務是否已開啟,若為關閉狀態,請依序開啟這些服務。

  • Namenode and Jobtracker
  • Datanode and Tasktracker(需開啟全部的運算節點)

若不熟悉開啟步驟,請參考系統管理介面操作說明

Step2. 至Crawl網頁中設定爬取項目

依序填入:索引庫名稱,欲抓取的網址(可多行,如圖所示)及設定爬取深度即可送出

送出後如圖所示,等候時間需視視每台主機的運算速度而定。

Step3. 瀏覽網頁爬取進度

透過系統狀態頁面,可即時了解網頁爬取進度

待出現"Finish"表示索引庫已建立,並可將此一訊息刪除

  • 完成此一步驟,第一個搜尋引擎已建置,右側快速連結中的"tracCloud_and_nchcTW_3"即為此次所建立的搜尋引擎。

Step4. 測試搜尋引擎功能

點選右側快速連結中的"tracCloud_and_nchcTW_3"進入搜尋引擎後,輸入一組關鍵字測試搜尋結果,下圖為輸入"nchc"為例:

搜尋結果:

其他功能

索引庫管理

索引庫管理頁面中將會顯示目前已建立的所有索引庫,管理者可於此頁面進行瀏覽,刪除及提供網頁嵌入語法,如下圖所示:

索引庫瀏覽

進入索引庫管理頁面後,在欲瀏覽的索引庫欄位點選"preview"即可瀏覽此一索引庫的資訊,目前提供瀏覽的資訊包括:

  • 爬取網址
  • 爬取文字數
  • 爬取文件數
  • 相關索引排名

如下圖所示:

由於有加入中文分詞功能,因此可以明顯看出索引庫的建立是以"中文字詞"作為基本單位

索引庫刪除

在欲刪除的索引庫中點選刪除,確認後即完成刪除索引庫

網頁多工爬取

  • 待編

在網頁中嵌入搜尋引擎

若企業內部有需要將Search Bar整合於企業首頁中,則可使用此一功能,方式如下:

Step1. 開啟索引庫管理頁面

Step2. 點選embed code

Step3. 複製後貼在欲整合Search Bar的頁面

embed code範例:

<img src="http://140.110.138.186:8080/crawlzilla/img/logo.png" ><form name="search" action="http://140.110.138.186:8080/nchc-en_3/search.jsp" method="get"><input name="query" size=15></form>

last modified: 2010/08/24

Last modified 14 years ago Last modified on Aug 24, 2010, 4:36:32 PM

Attachments (14)

Download all attachments as: .zip