2011-10-28
Sematic Web & Crawlzilla
- 延續 2010-11-14
- 由於注意到 Google Reader 訂閱時會出現歷史的紀錄,因此最近在思考能否從歷史 RSS 當作爬取資料的來源(Ex. 給抓抓龍用),所以查了一下有沒有類似的作法。Google 的文章解釋了可行的作法:
- Reconstruct a Feed's History Using Google Reader
http://www.google.com/reader/atom/feed/FEED_URL?r=n&n=NUMBER_OF_ITEMS
- Reconstruct a Feed's History Using Google Reader
- 由於注意到 Google Reader 訂閱時會出現歷史的紀錄,因此最近在思考能否從歷史 RSS 當作爬取資料的來源(Ex. 給抓抓龍用),所以查了一下有沒有類似的作法。Google 的文章解釋了可行的作法:
- 延續 2010-11-15
- ReadItLater 的 API - 拿來爬平常標記起來的網址
- Evernote 的 API - 如果有用 Evernote 寫筆記的人,應該也可以拿來統計筆記的內容
Crawlzilla
- <應用> 書籤分析!!
- 我從 readitlater 的網站上,使用 export HTML 功能,把未讀的書籤匯出成 HTML 檔,並上傳到 http://cloud.nchc.org.tw/~jazz/ril_export.html
- 使用 demo.crawlzilla.info 設定爬兩層,
索引庫名稱 ril 搜尋引擎連結位置 /home/crawler/crawlzilla/user/jazz/IDB/ril/index 搜尋引擎狀態 OK 爬取深度 2 建立時間 20111028-16:57:36 執行時間 0:19:4 起始連結 http://cloud.nchc.org.tw/~jazz/ril_export.html 總共文字數 241996 文件檔數量 3677
- 產生的索引庫 - http://demo.crawlzilla.info/jazz_ril/zh/
- 從統計結果可以知道我觀察的前五十大資料來源:
Git & SVN
- 底下這篇文章是介紹 git 跟 svn 的指令對應,對於學習 git 有不錯的幫助
- 底下這兩篇文章是介紹怎麼從 SVN 移植到 Git,並且使用 git-svn 當作 SVN 的上傳工具。看起來不錯~
- github-trac - 讓 trac 支援 github
Last modified 13 years ago
Last modified on Oct 28, 2011, 10:29:16 PM