{{{ #!html
雲端計算技術與應用基礎班
}}} [[PageOutline]] = 課程資訊 = * 上課時間: 2010/10/11 (一) 09:30 ~ 16:30 1 天,共計 8 個小時 * 上課地點: 板橋訓練所 板橋市民族路 168 號,或各營運處遠距教室 綜合大樓 G300 = 課程大綱 = * 目標: 認識雲端計算之核心技術(GFS, MapReduce, Bigtable, Hadoop)與應用之基礎概念 * 對象 一般電信人員、對雲端運算技術有興趣者 == '''2010-10-11 (一)''' == * [raw-attachment:wiki:Hinet101006:10-10-09_Cloud_Tech_and_App.pdf 講義投影片完整版] (PDF) || 上午時段 || 課程內容 || 投影片 || 補充資料 || || 08:10~09:00 || 課程導引 || || || || 09:10~10:30 || 雲端運算核心技術簡介(一)[[BR]] - IaaS 服務與虛擬化技術[[BR]] - 以亞馬遜為例 || [raw-attachment:wiki:Hinet101006:part-1.pdf part-1][[BR]][raw-attachment:wiki:Hinet101006:part-2.pdf part-2] || || || 10:30~10:40 || 中場休息 || || || || 10:40~12:00 || 雲端運算核心技術簡介(二)[[BR]] - PaaS、SaaS 服務與大量資料分析[[BR]] - 以谷歌、雅虎、臉書為例 || [raw-attachment:wiki:Hinet101006:part-3.pdf part-3][[BR]][raw-attachment:wiki:Hinet101006:part-4.pdf part-4][[BR]][raw-attachment:wiki:Hinet101006:part-5.pdf part-5] || || || 12:00~13:30 || 午餐、午休 || || || || 13:30~14:50 || 雲端運算核心技術簡介(三)[[BR]] - PaaS、SaaS 服務與分散式資料庫 || [raw-attachment:wiki:Hinet101006:part-6.pdf part-6] || || || 14:50~15:00 || 中場休息 || || || || 15:00~16:20 || 大量資料分析應用分享[[BR]] - 雲端入侵偵測日誌分析[[BR]] - 企業內網搜尋引擎 || [raw-attachment:wiki:Hinet101006:part-7.pdf part-7][[BR]][raw-attachment:wiki:Hinet101006:part-8.pdf part-8] || = 補充資料 = == 大量資料分析應用範例 == * 美國 !SimplyHired 分析工作關鍵字 / 地點 / 關鍵字趨勢 - http://www.simplyhired.com/trends * [想法] 台灣 104, 1111 等人力銀行的資料合併分析 + LSB 服務 (用智慧手機找附近的工作有哪些) * !MarkMail 使用 XQuery 技術作全球八千多個郵件討論串(mail list)的關鍵字分析 - http://markmail.org/ * [觀點] 根據各種關鍵字的歷史統計圖表可以看得出不同技術的社群成熟度 - 目前 !MarkMail 的缺點只能針對一組關鍵字畫圖表, 怎麼做到類似 !SimplyHired 的多個圖表, 是可以寫一隻新的 Mashup Web Service 來達成 * 如何實作類似 Gmail 的 web mail 搜尋?? * [http://29524478.blogspot.com/2010/10/blog-post_08.html 串流技術 語意演算 未來「找」得到!] ( !DigiTimes 報導 ) * Location Plus ! 結合 LBS (Location Based Service) 與批批踢論壇, 提供各地熱門話題 - http://locationplus.chienwen.net/ - http://locationplus.bpapps.com/ - [http://www.ithome.com.tw/itadm/article.php?c=58008 開發 Hadoop 雲端應用沒那麼難] (iThome 報導) == 分散式資料庫效能比較 == * [benchmark] [http://wiki.github.com/brianfrankcooper/YCSB/ Yahoo! Cloud Serving Benchmark (YCSB)] - [http://research.yahoo.com/node/3202 論文: Benchmarking Cloud Serving Systems with YCSB] * Yahoo 寫的效能測試軟體,YCSB 1.2 版支援 HBase, Cassandra, MongoDB * 從[http://www.brianfrankcooper.net/pubs/ycsb-socc-talk.ppt 論文簡報投影片]得到的[http://www.brianfrankcooper.net/pubs/ycsb-v4.pdf 結論]注意到幾件事情: * 若資料庫特性是一半讀一半寫,MySQL 大約在 7500 operations/sec 時會到達效能極限。若資料庫特性是 95% 讀 5% 寫,就沒看到明顯效能極限。 * HBase 寫入飛快,但讀取會稍微慢一點,而且讀取的效率不太線性。(寫入記憶體所以超快,但成本也比較高,查詢時重建紀錄) 加機器時,不會有明顯的效能差異 (跟 HDFS 一樣,要跑 balancer 才會搬資料)。 - Low Update Latency, Higher Read Latency * Cassandra 寫入稍微慢一點,讀取則比 HBase 快,特別是資料庫特性是 95% 讀取時比 HBase 快。加機器的時候,會需要一段時間才能讓效能穩定下來(這部分我覺得是副本架構造成的)。 * [[Image(NCHCCloudCourse100928:cassandra_hbase_update_heavy.png,width=800)]] * [[Image(NCHCCloudCourse100928:cassandra_hbase_read_heavy.png,width=800)]] * [[Image(NCHCCloudCourse100928:cassandra_hbase_short_scans.png,width=800)]] * [[Image(NCHCCloudCourse100928:cassandra_hbase_scale_up.png,width=800)]]