wiki:crawlzilla/crawl_statistics

Version 5 (modified by shunfa, 14 years ago) (diff)

--

Crawlzilla爬取數據參考

單機測試

主機資訊

CPU: Intel® Core™ i7-920 Processor

記憶體: 12GiB

作業系統:

Ubuntu 10.04(lucid)

Linux 2.6.32-26-generic

Cralzilla版本: 0.3.0-101115 安裝於一台主機上

測試方式: 各別summit job,前一crawl job完成後再執行下一個job,非同時summit全部job

起始位址: http://udn.com/NEWS/mainpage.shtml

測試結果

DepthExec. Time(HR)Crawl FilesCrawl Words
30.88459989742
41.588903126229
52.8313498171480
69.1216744204349
79.6121324312669
810.2824984356119
99.328044413921
109.4431981431790

叢集測試

計算節點數量: 6

主機資訊

CPU:

記憶體: 8GiB

作業系統:

Ubuntu 10.04(lucid)

Linux Kernel:

Cralzilla版本: 0.3.0-101116

測試方式: shell script 執行爬取3~10層的Job

起始位址: http://udn.com/NEWS/mainpage.shtml

測試結果

DepthExec. Time(HR)Crawl FilesCrawl Words
30.9464289168
42.028212123186
52.9812517163206
63.9516220210714
76.2319577319898
8
9
10