Version 17 (modified by jazz, 11 years ago) (diff) |
---|
- 活動名稱:台灣 Hadoop 生態系工作坊 2013 Q2
- Taiwan Hadoop Ecosystem Workshop 2013 Q2
- 活動時間:2013/06/02(日) 10:00~15:20
- 活動地點:趨勢科技(台北市大安區敦化南路二段198號) 901 會議室
- 活動名額:開放 60 名座位,依實際報到為準。
- 活動費用:本活動不收取費用,感謝趨勢科技贊助場地。
- 活動議程:
09:30~10:00 報到 10:00~11:00 Solr / Lucene in Practice 趨勢科技 黃彥瑋(Greg Huang,a.k.a. 桂格) 11:00~12:00 HareDB 簡介 亦思科技 江孟峰處長 12:00~13:00 中場休息 (社群自發性活動,恕暫不提供午餐) 13:00~14:00 Hadoop整合應用-Crawlzilla 國網中心 楊順發 14:00~15:00 Apache CloudStack 簡介 騰雲資訊 江尚倫 15:00~15:20 快閃展示:BigTop 單機安裝與黑肚龍安裝光碟(半成品) 國網中心 王耀聰
Solr / Lucene in Practice
- Threat Connect (TC) - http://docs.trendmicro.com/all/ent/tc/en-us/tc_olh/abt-tc.html
- Sandbox Report - 1.2M reports / 2.4TB / Hadoop
- PAFI ( virus scan results ) - 50M reports / 514 GB / HBase
- Census (? Index Size : 300GB)
- Sandbox VM - Windows (?) - pcap (network packet) / screenshot - 8GB/day, 3000 malware - 存在 HDFS
- Similarity Search 相似度搜尋
- 將 log 透過 MR Job 或 Pig 存成 Lucene Index (?),再匯入 Solr (Index Size: 6GB)
- 缺點:無法做到遞增索引更新(incremental index update)(也得看是否能區隔遞增的更新資料(incremental data update(?)))
- Q1: Census 是自建的系統?
- Q2: Sandbox 是 Windows VM? malware 是否會故意避開 VM?
- Q3: 蒐集到的 Sandbox 資料是否有遞增的特性?
- 如何使用 Solr / Lucene 到 Threat Connect (TC)
- Q: 必須自己寫 Web UI (RESTful API)?
Attachments (3)
- 12-06-09_Haduzilla_mini_Debcamp_2012.pdf (2.9 MB) - added by jazz 11 years ago.
- [Talk] 2013-06-02-Hadoop整合應用-Crawlzilla@Hadoop Q2.pdf (1.8 MB) - added by shunfa 11 years ago.
- 2013-06-02_Hadoop_Crawlzilla.pdf (1.8 MB) - added by jazz 11 years ago.