= 2013-03-10 = == Taiwan Hadoop Ecosystem Workshop 2013 Q1 == * 活動名稱:Taiwan Hadoop Ecosystem Workshop 2013 Q1 * 活動時間:2013/3/10(日) 10:00~16:00 * 活動地點:精誠內湖大樓(台北市內湖區瑞光路318號) 1F 演講廳 * 活動名額:開放 80 名座位,最高上限 100 名。依實際報到為準。 * 活動費用:本活動不收取費用,感謝精誠資訊贊助場地。 * 報名網址:https://www.facebook.com/events/456789427727154/ * 活動議程: {{{ #!text 09:30~10:00 報到 10:00~11:00 運用 Lucene 對於 Spamming Botnet 進行快速索引與分群 (資策會 毛敬豪 博士) 11:00~12:00 HBase 簡介 : 資料格式與運作架構 (亦思 范姜冠宇 技術長) 12:00~13:00 中場休息 (這次是社群自發性活動,恕暫不提供午餐) 13:00~14:00 Solr Tutorial (趨勢, Javen Tsai) 14:00~15:00 Riak Tutorial (NoSQL Taiwan , Von Stark) 15:00~16:00 不可能更容易的 Hadoop 平台 — Etu Appliance 技術內涵與 Demo (Etu 陳昭宇 首席顧問) }}} == Spamming Botnet == * Big Data 不見得要到 TB 等級,有時候資料量雖然少,但是透過 Lucene, Mahout 跟 Pegasus 來加速索引的建立 * 問題描述:透過架設郵件的誘捕系統(Mail Server Honeypot),蒐集垃圾郵件,並進而分析內部的特徵。 * 資料集:150GB * SVD = Single Value Decomposition -> ICA = Independend * SVD Mahout 就有了 * IK-Analyzer - 中文分詞 <- 中研院 CKIP * Q:如何擴展 Lucene 的同義詞庫 * Q:Lucene 是否有 Distinct ? * A: 有 -> 透過 Finite Set * Q: Lucene 是否有 Group By? * A: 用 Solr * 同義詞的挑戰 - Synonym Analyzer -> * Q: 未來能否用 Graph Database 來存這些同義詞當詞庫? Data Source? DBpedia ? * Lucene in Action 有教同義詞 * 多重 Index 單一搜尋引擎 {{{ mahout svd -r 3 -nr 6722 -nc 46547 -i data -o result }}} * SVD 可以降低到人可以理解、視覺化的維度 * Mahout in Action 那本書第五章有提到怎麼用 SVD * KDD Summer School 2012 * 半監督式學習與主動學習 -