2013-06-02
- 活動名稱:台灣 Hadoop 生態系工作坊 2013 Q2
- Taiwan Hadoop Ecosystem Workshop 2013 Q2
- 活動時間:2013/06/02(日) 10:00~15:20
- 活動地點:趨勢科技(台北市大安區敦化南路二段198號) 901 會議室
- 活動名額:開放 60 名座位,依實際報到為準。
- 活動費用:本活動不收取費用,感謝趨勢科技贊助場地。
- 活動議程:
時段 講題 講者 投影片 09:30~10:00 報到 10:00~11:00 Solr / Lucene in Practice 趨勢科技 黃彥瑋(Greg Huang,a.k.a. 桂格) 11:00~12:00 HareDB 簡介 亦思科技 江孟峰 處長 12:00~13:00 中場休息 (社群自發性活動,恕暫不提供午餐) 13:00~14:00 Hadoop整合應用-Crawlzilla 國網中心 楊順發 PDF 下載 14:00~15:00 Apache CloudStack 簡介 騰雲資訊 江尚倫 15:00~15:20 快閃展示:BigTop 單機安裝與黑肚龍安裝光碟(半成品) 國網中心 王耀聰 PDF 下載
Solr / Lucene in Practice
- Threat Connect (TC) - http://docs.trendmicro.com/all/ent/tc/en-us/tc_olh/abt-tc.html
- Sandbox Report - 1.2M reports / 2.4TB / Hadoop
- PAFI ( virus scan results ) - 50M reports / 514 GB / HBase
- Census (? Index Size : 300GB)
- Sandbox VM - Windows (?) - pcap (network packet) / screenshot - 8GB/day, 3000 malware - 存在 HDFS
- 目標:Similarity Search 相似度搜尋
- 將 log 透過 MR Job 或 Pig 存成 Lucene Index (?),再匯入 Solr (Index Size: 6GB)
- 缺點:無法做到遞增索引更新(incremental index update)(也得看是否能區隔遞增的更新資料(incremental data update(?)))
- Q1: Census 是自建的系統? A:Yes
- Q2: Sandbox 是 Windows VM? malware 是否會故意避開 VM? - A:Yes,是 Windows VM,會有故意避開的作法。所以需要跟駭客攻防。
- Q3: 用 Pig 產生 Lucene Index - A:自己寫 Storage 的 UDF
- Q4: 蒐集到的 Sandbox 資料是否有遞增的特性? - 資料有遞增特性,也可以產生多個小的 Index,但不穩定,即便 Solr 支援動態更新,但會遇到效能問題
- 如何使用 Solr / Lucene 到 Threat Connect (TC)
- Q: 必須自己寫 Web UI (RESTful API)?
- 如何使用 Lucene 產生索引?
- parsing -> tokenization -> Analysis(optional)
- Lucene 只支援純文字模式,所以對二進位的資料格式必須先做 parsing
- Lucene 提供 StandardAnalyzer 來做 StandardTokenizer(只支援英文)、StandardFilter、LowerCaseFilter、StopFilter
- 問題:無法對 Token 作類似 Like 的 SQL 查詢
- 解法:自己寫新的 Tokenizer - 會用到 PerFieldAnalyzerWrapper
- 解法:改完之後,要對應修改 Solr 的 schema.xml 加入
<analyzer> <tokenizer class="solr.PatternTokenizerFactory" pattern="([\w&&['\,_]]])"> .... </analyzer>
- Q: 中文詞的需求高嘛?
- Solr 改用 HBase 當 Storage
HareDB 簡介
Crawlzilla
- 有興趣看最新整合 Solr 版本的 Crawlzilla 2.1 ,請至 https://github.com/shunfa/crawlzilla
- 穩定版本 Crawlzilla 1.5 請至 SourceForge 下載
- 簡報檔 @SlideShare
BigTop 單機一鍵安裝光碟
- BigTop 單機一鍵安裝光碟 - http://sourceforge.net/projects/drbl-hadoop/files/0.5.0/
- 快閃展示的投影片(去年 Debian Camp 的內容)
- 2012 黑肚龍叢集版的展示影片 https://vimeo.com/67527856
- 用 Debian 6.0.x squeeze 光碟,只需要選 HELP,鍵入 auto url=eagle.classcloud.org 就會裝好 Server,其他台選網路開機,就會自動加入 Ganglia 跟 HDFS 跟 MapReduce。不過缺點是得自己先把 DRBL Client 的硬碟做分割與格式化的動作,才能把網路開機的所有機器硬碟空間加入 HDFS。預設 /dev/sda1 是 SWAP 而 /dev/sda2 是給 HDFS 用的空間。
- 6/2 展示遇到的 BigTop 0.5.0 設定問題已解決,新的 ISO 檔已經更新到 SourceForge,目前要做單機安裝,在單機有 DHCP 環境,只需要放進 ISO ,用光碟開機,就會自動裝好了(無人值守精神)。若不是在 DHCP 環境,則需要手動填妥網路設定,剩下的一樣是自動裝妥。
- 裝好以後,帳號:user,密碼:hadoop.TW
- 目前只有文字模式,所以只能用 command line
- 請用 w3m http://localhost:50070 觀察 HDFS 狀態
- 另外用 w3m http://localhost:8088 觀察 YARN 狀態
- HDFS 操作同 Hadoop 0.20.x
- YARN 執行任務的部份我還沒試,可能要下 yarn jar your_jar.jar
- BigTop 單機一鍵安裝光碟是基於 Ubuntu 12.04 LTS 光碟搭配 preseed 做的。
Last modified 12 years ago
Last modified on Jun 7, 2013, 10:39:40 PM
Attachments (3)
- 12-06-09_Haduzilla_mini_Debcamp_2012.pdf (2.9 MB) - added by jazz 12 years ago.
- [Talk] 2013-06-02-Hadoop整合應用-Crawlzilla@Hadoop Q2.pdf (1.8 MB) - added by shunfa 12 years ago.
- 2013-06-02_Hadoop_Crawlzilla.pdf (1.8 MB) - added by jazz 12 years ago.