wiki:jazz/13-03-10

2013-03-10

Taiwan Hadoop Ecosystem Workshop 2013 Q1

  • 活動名稱:Taiwan Hadoop Ecosystem Workshop 2013 Q1
  • 活動時間:2013/3/10(日) 10:00~16:00
  • 活動地點:精誠內湖大樓(台北市內湖區瑞光路318號) 1F 演講廳
  • 活動名額:開放 80 名座位,最高上限 100 名。依實際報到為準。
  • 活動費用:本活動不收取費用,感謝精誠資訊贊助場地。
  • 報名網址:https://www.facebook.com/events/456789427727154/
  • 活動議程:
    09:30~10:00 報到
    10:00~11:00 運用 Lucene 對於 Spamming Botnet 進行快速索引與分群 (資策會 毛敬豪 博士)
    11:00~12:00 HBase 簡介 : 資料格式與運作架構 (亦思 范姜冠宇 技術長)
    12:00~13:00 中場休息 (這次是社群自發性活動,恕暫不提供午餐)
    13:00~14:00 Solr Tutorial (趨勢, Javen Tsai)
    14:00~15:00 Riak Tutorial (NoSQL Taiwan , Von Stark)
    15:00~16:00 不可能更容易的 Hadoop 平台 — Etu Appliance 技術內涵與 Demo (Etu 陳昭宇 首席顧問)
    

Spamming Botnet

  • Big Data 不見得要到 TB 等級,有時候資料量雖然少,但是透過 Lucene, Mahout 跟 Pegasus 來加速索引的建立
  • 問題描述:透過架設郵件的誘捕系統(Mail Server Honeypot),蒐集垃圾郵件,並進而分析內部的特徵。
  • 資料集:150GB
  • SVD = Single Value Decomposition -> ICA = Independend
    • SVD Mahout 就有了
  • IK-Analyzer - 中文分詞 <- 中研院 CKIP
  • Q:如何擴展 Lucene 的同義詞庫
  • Q:Lucene 是否有 Distinct ?
  • A: 有 -> 透過 Finite Set
  • Q: Lucene 是否有 Group By?
  • A: 用 Solr
  • 同義詞的挑戰 - Synonym Analyzer ->
  • Q: 未來能否用 Graph Database 來存這些同義詞當詞庫? Data Source? DBpedia ?
  • Lucene in Action 有教同義詞
  • 多重 Index 單一搜尋引擎
    mahout svd -r 3 -nr 6722 -nc 46547 -i data -o result
    
  • SVD 可以降低到人可以理解、視覺化的維度
  • Mahout in Action 那本書第五章有提到怎麼用 SVD
  • KDD Summer School 2012
  • 半監督式學習與主動學習 -
Last modified 12 years ago Last modified on Mar 11, 2013, 12:05:42 AM