[[PageOutline]]


= Crawlzilla 網頁執行介面 =

管理介面預設網址為：http://localhost:8080 或 http://ServerIP:8080，登入後首頁如下：

[[Image(1.png)]]

== 設定網頁管理者密碼 ==

首次進入網頁介面時，必須先重設管理者密碼（預設密碼為：crawler），設定密碼點選送出並重新登入後就可執行系統。

[[Image(2.png)]]

== 建立第一個搜尋引擎 ==

=== Step1. 開啟所有運算服務 ===

由於執行Crawl必須透過Hadoop運算，因此執行Crawl前請先依序確認以下服務是否已開啟，若為關閉狀態，請依序開啟這些服務。

 * Namenode and Jobtracker
 * Datanode and Tasktracker(需開啟全部的運算節點)

若不熟悉開啟步驟，請參考[wiki:crawlzilla/sysmanagement_zh 系統管理介面操作說明]

=== Step2. 至Crawl網頁中設定爬取項目 ===

依序填入：索引庫名稱，欲抓取的網址（可多行，如圖所示）及設定爬取深度即可送出

[[Image(3.png)]]

送出後如圖所示，等候時間需視視每台主機的運算速度而定。

[[Image(4.png)]]

=== Step3. 瀏覽網頁爬取進度 ===

透過系統狀態頁面，可即時了解網頁爬取進度

[[Image(5.png)]]

待出現"Finish"表示索引庫已建立，並可將此一訊息刪除

[[Image(6.png)]]

 * 完成此一步驟，第一個搜尋引擎已建置，右側快速連結中的"tracCloud_and_nchcTW_3"即為此次所建立的搜尋引擎。

=== Step4. 測試搜尋引擎功能 ===

點選右側快速連結中的"tracCloud_and_nchcTW_3"進入搜尋引擎後，輸入一組關鍵字測試搜尋結果，下圖為輸入"nchc"為例：

[[Image(7.png)]]

搜尋結果：

[[Image(8.png)]]


== 其他功能 ==

=== 索引庫管理 ===

索引庫管理頁面中將會顯示目前已建立的所有索引庫，管理者可於此頁面進行瀏覽，刪除及提供網頁嵌入語法，如下圖所示：

[[Image(9.png)]]

==== 索引庫瀏覽 ====

進入索引庫管理頁面後，在欲瀏覽的索引庫欄位點選"preview"即可瀏覽此一索引庫的資訊，目前提供瀏覽的資訊包括：
 * 爬取網址
 * 爬取文字數
 * 爬取文件數
 * 相關索引排名
如下圖所示：

[[Image(10.png)]]

由於有加入中文分詞功能，因此可以明顯看出索引庫的建立是以"中文字詞"作為基本單位

[[Image(11.png)]]

==== 索引庫刪除 ====

在欲刪除的索引庫中點選刪除，確認後即完成刪除索引庫

[[Image(12.png)]]

=== 網頁多工爬取 ===

此一功能存在的主要目的為增加網頁爬取排程的效率，若叢集環境中有大於一台運算主機，則同時可爬取兩個以上的Job，如果僅有一台運算主機，雖無同時執行爬取的功能，但仍會將管理者的任務排入工作佇列中，下圖以兩個運算節點為例，可以看到系統同時執行兩個Job，節省系統爬取時間。

[[Image(13.png)]]

=== 在網頁中嵌入搜尋引擎 ===

若企業內部有需要將Search Bar整合於企業首頁中，則可使用此一功能，方式如下：

==== Step1. 開啟索引庫管理頁面 ====

[[Image(14.png)]]

==== Step2. 點選embed code ====

[[Image(15.png)]]

==== Step3. 複製後貼在欲整合Search Bar的頁面 ====

embed code範例：
{{{
<img src="http://140.110.138.186:8080/crawlzilla/img/logo.png" ><form name="search" action="http://140.110.138.186:8080/nchc-en_3/search.jsp" method="get"><input name="query" size=15></form>
}}}

last modified: 2010/08/24