[[PageOutline]]

= 2013-06-02 =

 * 活動名稱：台灣 Hadoop 生態系工作坊 2013 Q2
 * 　　　　　Taiwan Hadoop Ecosystem Workshop 2013 Q2
 * 活動時間：2013/06/02(日) 10:00~15:20
 * 活動地點：趨勢科技（台北市大安區敦化南路二段198號） 901 會議室
 * 活動名額：開放 60 名座位，依實際報到為準。
 * 活動費用：本活動不收取費用，感謝趨勢科技贊助場地。
 * 活動議程：

 || 時段 || 講題 || 講者 || 投影片 ||
 || 09:30~10:00 || 報到  ||  ||  ||
 || 10:00~11:00 || Solr / Lucene in Practice || 趨勢科技 黃彥瑋(Greg Huang,a.k.a. 桂格) ||  ||
 || 11:00~12:00 || ＨareDB 簡介　　　　　  || 亦思科技 江孟峰 處長 ||  ||
 || 12:00~13:00 || 中場休息 (社群自發性活動，恕暫不提供午餐) ||  ||  ||
 || 13:00~14:00 || Hadoop整合應用-Crawlzilla || 國網中心 楊順發 || [raw-attachment:wiki:jazz/13-06-02:2013-06-02_Hadoop_Crawlzilla.pdf PDF 下載] ||
 || 14:00~15:00 || Apache CloudStack 簡介　 || 騰雲資訊 江尚倫 ||  ||
 || 15:00~15:20 || 快閃展示：BigTop 單機安裝與黑肚龍安裝光碟(半成品) ||  國網中心 王耀聰 || [raw-attachment:wiki:jazz/13-06-02:12-06-09_Haduzilla_mini_Debcamp_2012.pdf PDF 下載] ||

== Solr / Lucene in Practice ==

 * Threat Connect (TC) - http://docs.trendmicro.com/all/ent/tc/en-us/tc_olh/abt-tc.html 
   - Sandbox Report - 1.2M reports / 2.4TB / Hadoop
   - PAFI ( virus scan results ) - 50M reports / 514 GB / HBase
   - Census (? Index Size : 300GB) 
   - Sandbox VM - Windows (?) - pcap (network packet) / screenshot - 8GB/day, 3000 malware - 存在 HDFS
   - 目標：'''Similarity Search 相似度搜尋'''
   - 將 log 透過 MR Job 或 Pig 存成 Lucene Index (?)，再匯入 Solr (Index Size: 6GB)
   - 缺點：無法做到遞增索引更新（incremental index update）(也得看是否能區隔遞增的更新資料（incremental data update(?)）)
   - Q1: Census 是自建的系統？ A:Yes
   - Q2: Sandbox 是 Windows VM？ malware 是否會故意避開 VM？ - A:Yes,是 Windows VM，會有故意避開的作法。所以需要跟駭客攻防。
   - Q3: 用 Pig 產生 Lucene Index - A：自己寫 Storage 的 UDF
   - Q4: 蒐集到的 Sandbox 資料是否有遞增的特性？ - 資料有遞增特性，也可以產生多個小的 Index，但不穩定，即便 Solr 支援動態更新，但會遇到效能問題
 * 如何使用 Solr / Lucene 到 Threat Connect (TC)
   - Q: 必須自己寫 Web UI (RESTful API)？
 * 如何使用 Lucene 產生索引？
   - parsing -> tokenization -> Analysis(optional)
   - Lucene 只支援純文字模式，所以對二進位的資料格式必須先做 parsing
   - Lucene 提供 !StandardAnalyzer 來做 !StandardTokenizer(只支援英文)、!StandardFilter、!LowerCaseFilter、!StopFilter
   - 問題：無法對 Token 作類似 Like 的 SQL 查詢
   - 解法：自己寫新的 Tokenizer - 會用到 !PerFieldAnalyzerWrapper
   - 解法：改完之後，要對應修改 Solr 的 schema.xml 加入
{{{
<analyzer>
  <tokenizer class="solr.PatternTokenizerFactory" pattern="([\w&amp;&amp;['\,_]]])">
  ....
</analyzer>
}}}
   - Q: 中文詞的需求高嘛？
   - Solr 改用 HBase 當 Storage

== HareDB 簡介 ==

 * [http://blog.nahurst.com/visual-guide-to-nosql-systems  Visual Guide to NoSQL Systems]
 * [[Image(https://phaven-prod.s3.amazonaws.com/files/image_part/asset/607361/CausfGVcU2tskB-TR5b8CMm8Keg/medium_media_httpfarm5static_mevIk.png)]]
 * http://haredb.com/HareDB/src/index.htm
 * [[Image(http://haredb.com/HareDB/img/DM_ConvertSchema_StartToConvert.jpg)]]

== Crawlzilla ==

 * 有興趣看最新整合 Solr 版本的 Crawlzilla 2.1 ，請至 https://github.com/shunfa/crawlzilla
 * 穩定版本 Crawlzilla 1.5 請至 SourceForge 下載
   * http://sourceforge.net/projects/crawlzilla/files/testing/Crawlzilla-1.5/
   * <參考文件> http://code.google.com/p/crawlzilla/
 * [http://www.slideshare.net/yangfafa/talk-2013-0602hadoopcrawlzillahadoop-q2 簡報檔] @!SlideShare

== BigTop 單機一鍵安裝光碟 ==

 * BigTop 單機一鍵安裝光碟 - http://sourceforge.net/projects/drbl-hadoop/files/0.5.0/
 * 快閃展示的投影片(去年 Debian Camp 的內容)
   * http://trac.nchc.org.tw/cloud/raw-attachment/wiki/jazz/13-06-02/12-06-09_Haduzilla_mini_Debcamp_2012.pdf
 * 2012 黑肚龍叢集版的展示影片 https://vimeo.com/67527856
   * 用 Debian 6.0.x squeeze 光碟，只需要選 HELP，鍵入 auto url=eagle.classcloud.org 就會裝好 Server，其他台選網路開機，就會自動加入 Ganglia 跟 HDFS 跟 MapReduce。不過缺點是得自己先把 DRBL Client 的硬碟做分割與格式化的動作，才能把網路開機的所有機器硬碟空間加入 HDFS。預設 /dev/sda1 是 SWAP 而 /dev/sda2 是給 HDFS 用的空間。
 * 6/2 展示遇到的 BigTop 0.5.0 設定問題已解決，新的 ISO 檔已經更新到 SourceForge，目前要做單機安裝，在單機有 DHCP 環境，只需要放進 ISO ，用光碟開機，就會自動裝好了(無人值守精神)。若不是在 DHCP 環境，則需要手動填妥網路設定，剩下的一樣是自動裝妥。
   * 裝好以後，帳號：user，密碼：hadoop.TW
   * 目前只有文字模式，所以只能用 command line
   * 請用 w3m http://localhost:50070 觀察 HDFS 狀態
   * 另外用 w3m http://localhost:8088 觀察 YARN 狀態
   * HDFS 操作同 Hadoop 0.20.x
   * YARN 執行任務的部份我還沒試，可能要下 yarn jar your_jar.jar
 * BigTop 單機一鍵安裝光碟是基於 Ubuntu 12.04 LTS 光碟搭配 preseed 做的。
   * 原始碼請參閱 https://github.com/jazzwang/haduzilla