wiki:jazz/10-10-17

2010-10-17

Hadoop, Nutch, Solr, Droids

  • 目前 Nutch 基於 Hadoop, Lucene 在處理搜尋引擎的部份,其中 Hadoop 負責執行 crawler Job, 而 Lucene 負責建立 index 索引。
  • 目前 Apache 基金會有一些新專案,例如 Solr 是 Lucene 的子專案,是用來建立 index 的,而 Droids 則定位為給使用者自行撰寫 crawler 的工具。
  • Using Nutch with Solr 一文中,這樣示意圖可以大致了解,運用 Solr 取代 Lucene 的位置。
    • http://www.lucidimagination.com/blog/wp-content/uploads/2009/03/solr-nutch-setup.png
  • sematext ProjectHub 投影片中,則介紹了如何打造 http://search-hadoop.com/http://search-lucene.com/ 這些網站背後的架構。
  • 合適使用 Droids 的實機:資料量相對小,爬很窄的範圍,沒有擴充性需求。- [參考] Solr and Nutch/Droids - to use or not to use?
    From what I know, Droids is just the crawler with an in-memory queue + link extractor. We did use it for crawling Lucene project sites (for the index on http://search-lucene.com/ ), but that is because the data volume is low, the crawl very narrow, scaling requirements low, etc.
    
  • 另外這篇文章解釋了我一直有疑惑的 AJAX 爬取問題
    • Crawling AJAX
      Shreeraj Shah's paper, Crawling Ajax-driven Web 2.0 Applications, does a nice job of 
      describing the "event-driven" approach to web crawling.
      
      It has following three key components
      
      1. Javascript analysis and interpretation with linking to Ajax
      2. DOM event handling and dispatching
      3. Dynamic DOM content extraction
      
      The easiest way to implement an AJAX-enabled, event-driven crawler is to use Watir and 
      Crowbar, that will allow you to control Firefox or IE from code, allowing you to extract 
      page data after it has processed any Javascript.
      
    • 可以用的工具包括基於 Ruby 可以控制 IE 的 Watir,跟可以用 GET/PUT 方式控制 Firefox 的 Crowbar,兩個的授權都是 BSD。

簡報技巧

  • 最近去中華電信訓練所學到可以使用的軟體電子白板程式 - ZoomIt
  • ZoomIt - 微軟提供的放大鏡、白板筆工具與休息時間倒數(中斷)
    • ZoomIt 4.0 中文版 (4.1 英文版)
    • 缺點:只支援英文打字
    • 用法:
      • 放大鏡(Zoom, 預設快捷鍵→Ctrl+1)、放大後的畫面(此時用滑鼠可移動畫面位置,滾輪變更倍率,Esc解除效果)。
      • 螢幕塗鴉(Draw, 預設快捷鍵→Ctrl+2)
        • 變換畫筆顏色:r(紅色)、g(綠色)、b(藍色)、o(橘色)、y(黃色)、p(粉紅色)
        • 變換背景顏色:w(背景變白色)、k(背景變黑色)
        • 直線:按著 Shift
        • 矩形:按著 Ctrl
        • 圓形:按著 Tab
        • 鍵頭直線:Shift+Ctrl
        • 畫面另存新檔:Ctrl+s
        • 打字:t
        • 畫筆置中:space(空白鍵)
      • 倒數計時器(Break Timer, 預設快捷鍵→Ctrl+3)
    • 與其他套軟體的比較 - [參考] Meme -- 教學與反省 一個生物老師的教學日誌
功能 ZoomIt Screen Marker Pointofix
輸入文字 祇可輸入英文 不可 可輸入中文
螢幕放大 按下 Ctrl-1 放大 不可 工具列的 +、-
畫面存檔 按 Ctrl-S 存檔 不可 按 Ctrl-S 存檔
播放影片 不可 影片可播放 不可
捲動頁面 不可 可捲動頁面 不可
系統資源 需求低 需求很高 需求低
安裝模式 單一檔案即可執行 單一檔案即可執行 單一檔案即可執行

Last modified 13 years ago Last modified on May 17, 2011, 9:28:14 PM

Attachments (1)

Download all attachments as: .zip