Context Navigation

Version 9 (modified by shunfa, 16 years ago) (diff)
--

Crawlzilla 網頁執行介面

首次進入網頁介面時，必須先重設管理者密碼（預設密碼為：crawler），設定密碼點選送出並重新登入後就可執行系統。

由於執行Crawl必須透過Hadoop運算，因此執行Crawl前請先依序確認以下服務是否已開啟，若為關閉狀態，請依序開啟這些服務。

若不熟悉開啟步驟，請參考系統管理介面操作說明

依序填入：索引庫名稱，欲抓取的網址（可多行，如圖所示）及設定爬取深度即可送出

送出後如圖所示，等候時間需視視每台主機的運算速度而定。

透過系統狀態頁面，可即時了解網頁爬取進度

待出現"Finish"表示索引庫已建立，並可將此一訊息刪除

點選右側快速連結中的"tracCloud_and_nchcTW_3"進入搜尋引擎後，輸入一組關鍵字測試搜尋結果，下圖為輸入"nchc"為例：

搜尋結果：

索引庫管理頁面中將會顯示目前已建立的所有索引庫，管理者可於此頁面進行瀏覽，刪除及提供網頁嵌入語法，如下圖所示：

進入索引庫管理頁面後，在欲瀏覽的索引庫欄位點選"preview"即可瀏覽此一索引庫的資訊，目前提供瀏覽的資訊包括：

如下圖所示：

在欲刪除的索引庫中點選刪除，確認後即完成刪除索引庫

此一功能存在的主要目的為增加網頁爬取排程的效率，若叢集環境中有大於一台運算主機，則同時可爬取兩個以上的Job，如果僅有一台運算主機，雖無同時執行爬取的功能，但仍會將管理者的任務排入工作佇列中，下圖以兩個運算節點為例，可以看到系統同時執行兩個Job，節省系統爬取時間。

若企業內部有需要將Search Bar整合於企業首頁中，則可使用此一功能，方式如下：

last modified: 2010/08/24

2.png (115.7 KB) - added by shunfa 16 years ago.
3.png (141.9 KB) - added by shunfa 16 years ago.
4.png (117.9 KB) - added by shunfa 16 years ago.
5.png (146.4 KB) - added by shunfa 16 years ago.
1.png (113.1 KB) - added by shunfa 16 years ago.
6.png (130.4 KB) - added by shunfa 16 years ago.
7.png (84.5 KB) - added by shunfa 16 years ago.
8.png (137.7 KB) - added by shunfa 16 years ago.
9.png (148.1 KB) - added by shunfa 16 years ago.
10.png (185.3 KB) - added by shunfa 16 years ago.
11.png (151.6 KB) - added by shunfa 16 years ago.
12.png (166.1 KB) - added by shunfa 16 years ago.
14.png (164.9 KB) - added by shunfa 16 years ago.
15.png (18.3 KB) - added by shunfa 16 years ago.

Download all attachments as: .zip