wiki:jazz/11-10-28

Version 9 (modified by jazz, 13 years ago) (diff)

--

2011-10-28

Sematic Web & Crawlzilla

  • 延續 2010-11-14
    • 由於注意到 Google Reader 訂閱時會出現歷史的紀錄,因此最近在思考能否從歷史 RSS 當作爬取資料的來源(Ex. 給抓抓龍用),所以查了一下有沒有類似的作法。Google 的文章解釋了可行的作法:
  • 延續 2010-11-15
  • Evernote 的 API - 如果有用 Evernote 寫筆記的人,應該也可以拿來統計筆記的內容

Crawlzilla

  • <應用> 書籤分析!!
  • 我從 readitlater 的網站上,使用 export HTML 功能,把未讀的書籤匯出成 HTML 檔,並上傳到 http://cloud.nchc.org.tw/~jazz/ril_export.html
  • 使用 demo.crawlzilla.info 設定爬兩層,
    索引庫名稱 ril
    搜尋引擎連結位置 /home/crawler/crawlzilla/user/jazz/IDB/ril/index
    搜尋引擎狀態 OK
    爬取深度 2
    建立時間 20111028-16:57:36
    執行時間 0:19:4
    起始連結 http://cloud.nchc.org.tw/~jazz/ril_export.html
    總共文字數 241996
    文件檔數量 3677
    
  • 產生的索引庫 - http://demo.crawlzilla.info/jazz_ril/zh/
  • 從統計結果可以知道我觀察的前五十大資料來源:
0http://www.digitimes.com.tw204
1http://www.bnext.com.tw112
2http://groups.google.com74
3http://www.theregister.co.uk56
4http://highscalability.com52
5http://www.ithome.com.tw49
6http://www.cloudera.com48
7http://gigaom.com44
8http://www.networkworld.com38
9http://en.wikipedia.org38
10http://www.zdnet.com.tw36
11http://www.howtoforge.com33
12http://wiki.apache.org32
13http://www.ibm.com28
14http://nosql.mypopescu.com28
15http://www.freegroup.org28
16http://ajaxian.com27
17http://www.linuxfordevices.com25
18http://news.networkmagazine.com.tw24
19http://ieeexplore.ieee.org24
20http://insidehpc.com23
21http://www.readwriteweb.com23
22http://www.linux-mag.com23
23http://www.nosqldatabases.com21
24http://only-perception.blogspot.com21
25http://www.inside.com.tw19
26http://www.linkedin.com19
27http://www.openfoundry.org18
28http://www.sys-con.com17
29http://www.hortonworks.com16
30http://news.cnet.com16
31http://people.debian.org.tw16
32http://www.h-online.com16
33http://www.slideshare.net15
34http://blog.sematext.com15
35http://packages.debian.org14
36http://lwn.net14
37http://sourceforge.net14
38http://virtualization.info13
39http://www.infoq.com13
40http://radar.oreilly.com13
41http://blog.gslin.org13
42http://gevaperry.typepad.com13
43http://www.cyberciti.biz12
44http://blog.roodo.com12
45http://www.libthomas.org12
46http://www.runpc.com.tw11
47http://blog.opennebula.org11
48http://cloudsecurity.trendmicro.com11
49http://developer.yahoo.com11