Version 4 (modified by jazz, 12 years ago) (diff) |
---|
2013-03-10
Taiwan Hadoop Ecosystem Workshop 2013 Q1
- 活動名稱:Taiwan Hadoop Ecosystem Workshop 2013 Q1
- 活動時間:2013/3/10(日) 10:00~16:00
- 活動地點:精誠內湖大樓(台北市內湖區瑞光路318號) 1F 演講廳
- 活動名額:開放 80 名座位,最高上限 100 名。依實際報到為準。
- 活動費用:本活動不收取費用,感謝精誠資訊贊助場地。
- 報名網址:https://www.facebook.com/events/456789427727154/
- 活動議程:
09:30~10:00 報到 10:00~11:00 運用 Lucene 對於 Spamming Botnet 進行快速索引與分群 (資策會 毛敬豪 博士) 11:00~12:00 HBase 簡介 : 資料格式與運作架構 (亦思 范姜冠宇 技術長) 12:00~13:00 中場休息 (這次是社群自發性活動,恕暫不提供午餐) 13:00~14:00 Solr Tutorial (趨勢, Javen Tsai) 14:00~15:00 Riak Tutorial (NoSQL Taiwan , Von Stark) 15:00~16:00 不可能更容易的 Hadoop 平台 — Etu Appliance 技術內涵與 Demo (Etu 陳昭宇 首席顧問)
Spamming Botnet
- Big Data 不見得要到 TB 等級,有時候資料量雖然少,但是透過 Lucene, Mahout 跟 Pegasus 來加速索引的建立
- 問題描述:透過架設郵件的誘捕系統(Mail Server Honeypot),蒐集垃圾郵件,並進而分析內部的特徵。
- 資料集:150GB
- SVD = Single Value Decomposition -> ICA = Independend
- SVD Mahout 就有了
- IK-Analyzer - 中文分詞 <- 中研院 CKIP
- Q:如何擴展 Lucene 的同義詞庫
- Q:Lucene 是否有 Distinct ?
- A: 有 -> 透過 Finite Set
- Q: Lucene 是否有 Group By?
- A: 用 Solr
- 同義詞的挑戰 - SynonymAnalyzer? ->
- Q: 未來能否用 Graph Database 來存這些同義詞當詞庫? Data Source? DBpedia ?
- Lucene in Action 有教同義詞
- 多重 Index 單一搜尋引擎
mahout svd -r 3 -nr 6722 -nc 46547 -i data -o result
- SVD 可以降低到人可以理解、視覺化的維度
- Mahout in Action 那本書第五章有提到怎麼用 SVD
- KDD Summer School 2012
- 半監督式學習與主動學習 -