= 2010-10-17 = == Hadoop, Nutch, Solr, Droids == * 目前 Nutch 基於 Hadoop, Lucene 在處理搜尋引擎的部份,其中 Hadoop 負責執行 crawler Job, 而 Lucene 負責建立 index 索引。 * 目前 Apache 基金會有一些新專案,例如 [http://lucene.apache.org/solr/ Solr] 是 Lucene 的子專案,是用來建立 index 的,而 [http://incubator.apache.org/droids/ Droids] 則定位為給使用者自行撰寫 crawler 的工具。 * 在[Using Nutch with Solr] 一文中,這樣示意圖可以大致了解,運用 Solr 取代 Lucene 的位置。 * [[Image(http://www.lucidimagination.com/blog/wp-content/uploads/2009/03/solr-nutch-setup.png)]] * 在[http://www.slideshare.net/sematext/projecthub sematext ProjectHub 投影片中],則介紹了如何打造 http://search-hadoop.com/ 與 http://search-lucene.com/ 這些網站背後的架構。 * [[Image(sematext_architecture.png,width=800)]] * 合適使用 Droids 的實機:資料量相對小,爬很窄的範圍,沒有擴充性需求。- [參考] [http://www.listware.net/201006/lucene-solr-user/60153-solr-and-nutchdroids-to-use-or-not-to-use.html Solr and Nutch/Droids - to use or not to use?] {{{ From what I know, Droids is just the crawler with an in-memory queue + link extractor. We did use it for crawling Lucene project sites (for the index on http://search-lucene.com/ ), but that is because the data volume is low, the crawl very narrow, scaling requirements low, etc. }}} * 另外這篇文章解釋了我一直有疑惑的 AJAX 爬取問題 * [http://www.ajaxprojects.com/ajax/newsdetails.php?itemid=178 Crawling AJAX] {{{ Shreeraj Shah's paper, Crawling Ajax-driven Web 2.0 Applications, does a nice job of describing the "event-driven" approach to web crawling. It has following three key components 1. Javascript analysis and interpretation with linking to Ajax 2. DOM event handling and dispatching 3. Dynamic DOM content extraction The easiest way to implement an AJAX-enabled, event-driven crawler is to use Watir and Crowbar, that will allow you to control Firefox or IE from code, allowing you to extract page data after it has processed any Javascript. }}} * 可以用的工具包括基於 Ruby 可以控制 IE 的 [http://watir.com/ Watir],跟可以用 GET/PUT 方式控制 Firefox 的 [http://simile.mit.edu/wiki/Crowbar Crowbar],兩個的授權都是 BSD。 == 簡報技巧 == * 最近去中華電信訓練所學到可以使用的軟體電子白板程式 - !ZoomIt * [http://technet.microsoft.com/en-us/sysinternals/bb897434.aspx ZoomIt] - 微軟提供的放大鏡、白板筆工具與休息時間倒數(中斷) * [http://azo-freeware.blogspot.com/2009/08/zoomit-40.html ZoomIt 4.0 中文版 (4.1 英文版)] * 缺點:只支援英文打字 * 用法: * 放大鏡(Zoom, 預設快捷鍵→Ctrl+1)、放大後的畫面(此時用滑鼠可移動畫面位置,滾輪變更倍率,Esc解除效果)。 * 螢幕塗鴉(Draw, 預設快捷鍵→Ctrl+2) * 變換畫筆顏色:r(紅色)、g(綠色)、b(藍色)、o(橘色)、y(黃色)、p(粉紅色) * 變換背景顏色:w(背景變白色)、k(背景變黑色) * 直線:按著 Shift * 矩形:按著 Ctrl * 圓形:按著 Tab * 鍵頭直線:Shift+Ctrl * 畫面另存新檔:Ctrl+s * 打字:t * 畫筆置中:space(空白鍵) * 倒數計時器(Break Timer, 預設快捷鍵→Ctrl+3) * 與其他套軟體的比較 - [參考] [http://edumeme.blogspot.com/ Meme -- 教學與反省 一個生物老師的教學日誌] || 功能 || [http://edumeme.blogspot.com/2008/05/zoomit.html ZoomIt] || [http://edumeme.blogspot.com/2008/04/screenmarker.html Screen Marker] || [http://edumeme.blogspot.com/2008/09/pointofix.html Pointofix] || || 輸入文字 || 祇可輸入英文 || 不可 || 可輸入中文 || || 螢幕放大 || 按下 Ctrl-1 放大 || 不可 || 工具列的 +、- || || 畫面存檔 || 按 Ctrl-S 存檔 || 不可 || 按 Ctrl-S 存檔 || || 播放影片 || 不可 || 影片可播放 || 不可 || || 捲動頁面 || 不可 || 可捲動頁面 || 不可 || || 系統資源 || 需求低 || 需求很高 || 需求低 || || 安裝模式 || 單一檔案即可執行 || 單一檔案即可執行 || 單一檔案即可執行 || * 那如果在 Linux 底下呢?? - [參考] [http://linux.net527.cn/Ubuntu/Ubuntuanzhuangyuyingyong/12220.html ubuntu 下實現 zoomit的效果] {{{ sudo apt-get install compizconfig-settings-manager gromit }}} * 在[http://edumeme.blogspot.com/ Meme -- 教學與反省 一個生物老師的教學日誌]看到一個[http://edumeme.blogspot.com/2009/12/blog-post_23.html 投影片展示],覺得很有趣,查了一下原來是 [http://prezi.com/ prezi.com] 提供的線上服務。感覺上在解說一些觀念的時候,蠻容易可以把整個來龍去脈用 2D 空間關係來呈現,感覺挺不賴的 :P * 常見的線上投影片服務:[http://www.slideshare.net/ slideshare]、[http://prezi.com/ prezi.com]、[http://www.slideking.com 講義王(台灣,工研院)]