{{{ #!html
雲端計算技術與應用基礎班
}}} [[PageOutline]] = 課程資訊 = * 上課時間: 2010/10/11 (一) 09:30 ~ 16:30 1 天,共計 8 個小時 * 上課地點: 板橋訓練所 板橋市民族路 168 號,或各營運處遠距教室 綜合大樓 G300 = 課程大綱 = * 目標: 認識雲端計算之核心技術(GFS, MapReduce, Bigtable, Hadoop)與應用之基礎概念 * 對象 一般電信人員、對雲端運算技術有興趣者 == '''2010-10-11 (一)''' == * [raw-attachment:wiki:Hinet101006:10-10-09_Cloud_Tech_and_App.pdf 講義投影片完整版] (PDF) || 上午時段 || 課程內容 || 投影片 || 補充資料 || || 08:10~09:00 || 課程導引 || || || || 09:10~10:30 || 雲端運算核心技術簡介(一)[[BR]] - IaaS 服務與虛擬化技術[[BR]] - 以亞馬遜為例 || [raw-attachment:wiki:Hinet101006:part-1.pdf part-1][[BR]][raw-attachment:wiki:Hinet101006:part-2.pdf part-2] || || || 10:30~10:40 || 中場休息 || || || || 10:40~12:00 || 雲端運算核心技術簡介(二)[[BR]] - PaaS、SaaS 服務與大量資料分析[[BR]] - 以谷歌、雅虎、臉書為例 || [raw-attachment:wiki:Hinet101006:part-3.pdf part-3][[BR]][raw-attachment:wiki:Hinet101006:part-4.pdf part-4][[BR]][raw-attachment:wiki:Hinet101006:part-5.pdf part-5] || || || 12:00~13:30 || 午餐、午休 || || || || 13:30~14:50 || 雲端運算核心技術簡介(三)[[BR]] - PaaS、SaaS 服務與分散式資料庫 || [raw-attachment:wiki:Hinet101006:part-6.pdf part-6] || || || 14:50~15:00 || 中場休息 || || || || 15:00~16:20 || 大量資料分析應用分享[[BR]] - 雲端入侵偵測日誌分析[[BR]] - 企業內網搜尋引擎 || [raw-attachment:wiki:Hinet101006:part-7.pdf part-7][[BR]][raw-attachment:wiki:Hinet101006:part-8.pdf part-8] || = 補充資料 = == 大量資料分析應用範例 == * 美國 !SimplyHired 分析工作關鍵字 / 地點 / 關鍵字趨勢 - http://www.simplyhired.com/trends * [想法] 台灣 104, 1111 等人力銀行的資料合併分析 + LSB 服務 (用智慧手機找附近的工作有哪些) * !MarkMail 使用 XQuery 技術作全球八千多個郵件討論串(mail list)的關鍵字分析 - http://markmail.org/ * [觀點] 根據各種關鍵字的歷史統計圖表可以看得出不同技術的社群成熟度 - 目前 !MarkMail 的缺點只能針對一組關鍵字畫圖表, 怎麼做到類似 !SimplyHired 的多個圖表, 是可以寫一隻新的 Mashup Web Service 來達成 * 如何實作類似 Gmail 的 web mail 搜尋?? * [http://29524478.blogspot.com/2010/10/blog-post_08.html 串流技術 語意演算 未來「找」得到!] ( !DigiTimes 報導 ) * Location Plus ! 結合 LBS (Location Based Service) 與批批踢論壇, 提供各地熱門話題 - http://locationplus.chienwen.net/ - http://locationplus.bpapps.com/ - [http://www.ithome.com.tw/itadm/article.php?c=58008 開發 Hadoop 雲端應用沒那麼難] (iThome 報導) == 分散式資料庫 HBase 國內使用 == * [http://www.ithome.com.tw/itadm/article.php?c=57183 企業自建雲端運算的曙光] {{{ 他感受到與去年最大的不同之處在於,去年多數人談論的議題仍是雲端運算這個名詞的由來、不同定義之間的差異、 以及技術上的實踐,然而,今年則有不少人已經跳脫名詞的辯證,而是在討論什麼樣的應用適合放在雲端運算平臺上。 多數企業臺灣都認可雲端運算技術的成熟,不同於過去質疑技術可行性, 企業現在思考的重心是如何善用雲端運算創造商業價值。 -- 王宏仁 }}} * [http://www.ithome.com.tw/itadm/article.php?c=57182 趨勢揭露半年後推雲端專用伺服器] {{{ 趨勢已經規畫了2款雲端運算伺服器,計畫在半年後先推出第一款名為Cloud Node的雲端運算伺服器, 是針對需要分析大量非結構化資料的商業智慧所設計。趨勢科技研發長張偉欽說,他們要讓 Cloud Node就像是雲端運算系統的Excel一樣。 }}} {{{ 趨勢科技整合了自己用過的各項開源雲端技術,打包成一套隨插即用的雲端伺服器系統,包括像Xen虛擬化技術、KVM虛擬化系統、 Open Nebula虛擬機器部署技術、Hadoop平行運算技術、HyperTable分散式檔案系統、HBase分散式資料庫、Eucalyptus雲端系統等技術。 }}} * [[Image(http://www.ithome.com.tw/img/114/57106_1_1_l.jpg)]] * [[Image(http://www.ithome.com.tw/img/114/57106_1_2_l.jpg)]] * [http://www.slideshare.net/domynews/cloud-computingsmart-protection-network Cloud Computing,雲端運算防毒運用-Smart Protection Network 趨勢科技劉琴堂] * [[Image(http://trac.nchc.org.tw/grid/raw-attachment/wiki/jazz/09-06-17/Trend_Micro_Cloud_Architecutre.png,width=800)]] == 分散式資料庫效能比較 == * [benchmark] [http://wiki.github.com/brianfrankcooper/YCSB/ Yahoo! Cloud Serving Benchmark (YCSB)] - [http://research.yahoo.com/node/3202 論文: Benchmarking Cloud Serving Systems with YCSB] * Yahoo 寫的效能測試軟體,YCSB 1.2 版支援 HBase, Cassandra, MongoDB * 從[http://www.brianfrankcooper.net/pubs/ycsb-socc-talk.ppt 論文簡報投影片]得到的[http://www.brianfrankcooper.net/pubs/ycsb-v4.pdf 結論]注意到幾件事情: * 若資料庫特性是一半讀一半寫,MySQL 大約在 7500 operations/sec 時會到達效能極限。若資料庫特性是 95% 讀 5% 寫,就沒看到明顯效能極限。 * HBase 寫入飛快,但讀取會稍微慢一點,而且讀取的效率不太線性。(寫入記憶體所以超快,但成本也比較高,查詢時重建紀錄) 加機器時,不會有明顯的效能差異 (跟 HDFS 一樣,要跑 balancer 才會搬資料)。 - Low Update Latency, Higher Read Latency * Cassandra 寫入稍微慢一點,讀取則比 HBase 快,特別是資料庫特性是 95% 讀取時比 HBase 快。加機器的時候,會需要一段時間才能讓效能穩定下來(這部分我覺得是副本架構造成的)。 * [[Image(NCHCCloudCourse100928:cassandra_hbase_update_heavy.png,width=800)]] * [[Image(NCHCCloudCourse100928:cassandra_hbase_read_heavy.png,width=800)]] * [[Image(NCHCCloudCourse100928:cassandra_hbase_short_scans.png,width=800)]] * [[Image(NCHCCloudCourse100928:cassandra_hbase_scale_up.png,width=800)]]