wiki:III140614
雲端運算之大量資料處理、分析與應用

報名資訊

課程源起

  雲端運算掀起了新一代的資訊革命,也帶來了資訊爆炸式的成長,根據最新IDC研究報告指出:
2010年全球資料量將進入ZB(zettabytes,1 ZB 為1兆GB)時代,並且每年以60%的速度攀升,
這意味著每18個月全球的資料量將翻倍。面對不斷擴張的驚人資料量,大量資料的儲存、管理、處理
、搜尋、分析與智能應用等處理資料的能力將面臨新的挑戰,處理資料技術也迫切需要可動態與彈性
的特點,以支援大量資料處理的計算模式。

  雲端運算使得分散式運算技術成了新顯學,整合MapReduce演算法並被各大企業所廣泛採用的
Hadoop套件,更是開發雲端運算技術的佼佼者,它是用來處理與保存大量資料的雲端運算平台。
全球各大IT企業(如:雅虎、IBM等)無不積極投資與推廣此一計算模式,並被作為雲端運算環境中
的重要基礎軟件。有了Hadoop軟體平台後,始可進行各項分析,如:電信業者如今可以分析手機在
基地台漫遊的特性,提供更好的在地費率;信用卡業者如今可以每天定期分析各種信用貸款所產生的
風險,動態調整信貸利率;便利超商如今可以分析消費者的購買習慣,動態調整架上存貨數量;甚至
新興產業,如生醫資訊、智慧電網等皆可運用Hadoop平台來進行資料探勘與趨勢預測。若您的企業
有儲存海量資料的需求,有分析海量資料的需求,或者面臨資料庫過度龐大,正在尋求分散式資料庫
或資料倉儲的技術,那Hadoop或許是一個已通過商業驗證的選擇。只要懂得駕馭Hadoop這隻大象,
它將能駝著您爬過一座座資料大山,幫您理出隱藏在群眾中的邏輯。

課程目標

學習雲端運算之三大關鍵技術,及利用Hadoop之分散式檔案系統(HDFS)與MapReduce,快速建構
出雲端運算的執行環境和服務,並以實作方式讓學員了解如何透過Hadoop架構以進行雲端資料的大量
資料處理、分析與應用。

課程特色

  • 本課程屬於基礎觀念課程,不特別講解程式設計;
  • 實作將採體驗式教學,亦即先透過指令剪貼方式,體驗一次操作,從體驗中驗證所學觀念。

適合對象

  • IT經理或系統網路部門主管
  • 專案經理、系統架構師或系統網路管理人員
  • 企業或技術決策人員
  • 對於私有雲端運算有興趣的人士

預備知識

  • 具 Linux 操作實務與 Java 程式語言基礎者尤佳。

課程日期

  • 103年06月14~15日 (週六/週日 白天9:30 ~17:30 ),共2天、計14小時 。

上課地點

  • 資策會數位教育研究所。
  • 位於捷運木柵線大安站斜對面(復興南路與信義路交叉口)。
  • 上課地點與教室之確認,以上課通知函為主。

課程內容

2014-06-14(六)

上午時段 課程內容 投影片 實作 補充資料
09:00~11:05 淺談海量資料的趨勢、挑戰與因應對策 part-1 1.關於 NoSQL 的選擇依據 - YCSB
2. NoSQL 的種類
3. NoSQL vs NewSQL
4. Big Data 產業供應鏈與人才現況
5. Taiwan 學習統計/機器學習的社群
11:05~11:15 中場休息
11:15~12:00 處理海量資料的資訊架構與關鍵技術 part-2 1. Big Data : Past, Now and Future
12:00~13:00 午餐、午休
下午時段 課程內容 投影片 實作 補充資料
11:10~12:00 實作一:Hadoop 單機安裝 實作一
實作二
1. Hadoop 單機安裝(Ubuntu Linux)
13:00~14:20 Hadoop 簡介:緣起與術語 part-3
14:20~15:30 HDFS 觀念與指令解說 part-4
15:30~15:40 中場休息
15:40~17:00 實作二:HDFS 操作實務 實作三
實作四

2014-06-15(日)

上午時段 課程內容 投影片 實作 補充資料
09:00~11:00 MapReduce 簡介 part-5 1. 三種 Big Data 應用特性 vs 三種技術
2. ChainMapper, ChainReducer
11:00~11:10 中場休息
11:10~12:10 實作三:MapReduce 範例操作 實作五
實作六
1. 叢集安裝與MapReduce除錯
下午時段 課程內容 投影片 實作 補充資料
13:10~13:40 Hadoop 範例程式 WordCount 與觀念講解 程式碼
13:40~14:00 Hadoop 相關專案(1) Hadoop Streaming part-7
14:00~14:25 實作五:Hadoop Streaming 操作練習 實作九
實作十
14:25~14:35 中場休息
14:35~15:00 Hadoop 叢集安裝設定解說 part-6
15:00~15:30 Hadoop 相關專案(2) - Pig part-8 1.將 Pig 運算結果透過 DBStorage 存到 MySQL 資料庫
2. 將 Pig 運算結果透過 HBaseStorage 存到 HBase 資料庫
15:30~16:00 實作六:Pig Latin 操作練習 實作十一
16:00~16:10 中場休息
16:10~17:00 HBase 操作觀察 part-7 實作十二
實作四:Hadoop 程式編譯實務 實作七
實作八

參考書目

  1. <學習資源> Hadoop 目前三本書籍
  2. Data-Intensive Text Processing with MapReduce (PDF),Jimmy Lin, University of Maryland

參考資料

課後練習

公用環境

輔助工具

科技新知

  • http://readwrite.com/files/files/files/solution-series/assets_c/2011/05/infographicyottabyte_thumb1-thumb-560x1085-29962.jpg
Last modified 11 years ago Last modified on Jun 14, 2014, 12:32:14 PM

Attachments (1)