雲端運算之大量資料處理、分析與應用
報名資訊
課程源起
雲端運算掀起了新一代的資訊革命,也帶來了資訊爆炸式的成長,根據最新IDC研究報告指出: 2010年全球資料量將進入ZB(zettabytes,1 ZB 為1兆GB)時代,並且每年以60%的速度攀升, 這意味著每18個月全球的資料量將翻倍。面對不斷擴張的驚人資料量,大量資料的儲存、管理、處理 、搜尋、分析與智能應用等處理資料的能力將面臨新的挑戰,處理資料技術也迫切需要可動態與彈性 的特點,以支援大量資料處理的計算模式。 雲端運算使得分散式運算技術成了新顯學,整合MapReduce演算法並被各大企業所廣泛採用的 Hadoop套件,更是開發雲端運算技術的佼佼者,它是用來處理與保存大量資料的雲端運算平台。 全球各大IT企業(如:雅虎、IBM等)無不積極投資與推廣此一計算模式,並被作為雲端運算環境中 的重要基礎軟件。有了Hadoop軟體平台後,始可進行各項分析,如:電信業者如今可以分析手機在 基地台漫遊的特性,提供更好的在地費率;信用卡業者如今可以每天定期分析各種信用貸款所產生的 風險,動態調整信貸利率;便利超商如今可以分析消費者的購買習慣,動態調整架上存貨數量;甚至 新興產業,如生醫資訊、智慧電網等皆可運用Hadoop平台來進行資料探勘與趨勢預測。若您的企業 有儲存海量資料的需求,有分析海量資料的需求,或者面臨資料庫過度龐大,正在尋求分散式資料庫 或資料倉儲的技術,那Hadoop或許是一個已通過商業驗證的選擇。只要懂得駕馭Hadoop這隻大象, 它將能駝著您爬過一座座資料大山,幫您理出隱藏在群眾中的邏輯。
課程目標
學習雲端運算之三大關鍵技術,及利用Hadoop之分散式檔案系統(HDFS)與MapReduce,快速建構 出雲端運算的執行環境和服務,並以實作方式讓學員了解如何透過Hadoop架構以進行雲端資料的大量 資料處理、分析與應用。
課程特色
- 本課程屬於基礎觀念課程,不特別講解程式設計;
- 實作將採體驗式教學,亦即先透過指令剪貼方式,體驗一次操作,從體驗中驗證所學觀念。
適合對象
- IT經理或系統網路部門主管
- 專案經理、系統架構師或系統網路管理人員
- 企業或技術決策人員
- 對於私有雲端運算有興趣的人士
預備知識
- 具 Linux 操作實務與 Java 程式語言基礎者尤佳。
課程日期
- 103年06月14~15日 (週六/週日 白天9:30 ~17:30 ),共2天、計14小時 。
上課地點
- 資策會數位教育研究所。
- 位於捷運木柵線大安站斜對面(復興南路與信義路交叉口)。
- 上課地點與教室之確認,以上課通知函為主。
課程內容
2014-06-14(六)
上午時段 課程內容 投影片 實作 補充資料 09:00~11:05 淺談海量資料的趨勢、挑戰與因應對策 part-1 1.關於 NoSQL 的選擇依據 - YCSB
2. NoSQL 的種類
3. NoSQL vs NewSQL
4. Big Data 產業供應鏈與人才現況
5. Taiwan 學習統計/機器學習的社群11:05~11:15 中場休息 11:15~12:00 處理海量資料的資訊架構與關鍵技術 part-2 1. Big Data : Past, Now and Future 12:00~13:00 午餐、午休 下午時段 課程內容 投影片 實作 補充資料 11:10~12:00 實作一:Hadoop 單機安裝 實作一
實作二1. Hadoop 單機安裝(Ubuntu Linux) 13:00~14:20 Hadoop 簡介:緣起與術語 part-3 14:20~15:30 HDFS 觀念與指令解說 part-4 15:30~15:40 中場休息 15:40~17:00 實作二:HDFS 操作實務 實作三
實作四
2014-06-15(日)
上午時段 課程內容 投影片 實作 補充資料 09:00~11:00 MapReduce 簡介 part-5 1. 三種 Big Data 應用特性 vs 三種技術
2. ChainMapper, ChainReducer
11:00~11:10 中場休息 11:10~12:10 實作三:MapReduce 範例操作 實作五
實作六1. 叢集安裝與MapReduce除錯 下午時段 課程內容 投影片 實作 補充資料 13:10~13:40 Hadoop 範例程式 WordCount 與觀念講解 程式碼 13:40~14:00 Hadoop 相關專案(1) Hadoop Streaming part-7 14:00~14:25 實作五:Hadoop Streaming 操作練習 實作九
實作十14:25~14:35 中場休息 14:35~15:00 Hadoop 叢集安裝設定解說 part-6 15:00~15:30 Hadoop 相關專案(2) - Pig part-8 1.將 Pig 運算結果透過 DBStorage 存到 MySQL 資料庫
2. 將 Pig 運算結果透過 HBaseStorage 存到 HBase 資料庫15:30~16:00 實作六:Pig Latin 操作練習 實作十一 16:00~16:10 中場休息 16:10~17:00 HBase 操作觀察 part-7 實作十二 實作四:Hadoop 程式編譯實務 實作七
實作八
參考書目
- <學習資源> Hadoop 目前三本書籍
- Data-Intensive Text Processing with MapReduce (PDF),Jimmy Lin, University of Maryland
參考資料
- Hadoop 常見應用領域:
- Data Intensive Analytics with Hadoop: A Look Inside
- Using Hadoop to fight spam in Yahoo! Mail - 雅虎信箱
- 商業智慧
- http://www.pentaho.com/ - Pentaho 這間 BI 公司是 Hadoop 技術的長期支持者
- 金融業
- 2010-10-12 : VISA 採用 Hadoop 做風險評估 - HadoopWorld 2009 : Large Scale Transaction Analysis
- 中國信託
- 電信業
- 2011-06-12 : 中華電信用Hadoop技術分析通話明細
- 人力資源
- 行銷趨勢
- 科學教育
- 免費課程 - 把類似今天的課程再聽一次
- Hadoop 進階程式設計相關資訊
課後練習
- 使用Hadoop4Win - 在 Windows 上安裝單機版 Hadoop 與 HBase 練習環境 (注意:僅供練習使用,請勿用於實際營運!)
- 使用 HBase 0.90 改寫以上範例 code example
- DRBL-Hadoop Live CD (CDH2, 0.20.x) - 國網中心 hadoop.3du.me 的底層作法,使用方法仍在整理中~但已足夠作為練習 Hadoop 的執行環境
- 使用Cloudera 提供的 VMWare Image (CDH2, 0.20.x)
- 使用Yahoo! Hadoop Tutorial 的 VMWare Image (0.20.S)
- 使用Google 提供的 Hadoop VMWare Image (0.13,很舊了)
公用環境
- 課後問題討論,建議優先至台灣 Hadoop 使用者討論區 http://forum.hadoop.tw 進行討論。
- 需要 Hadoop 叢集環境,可至 http://hadoop.nchc.org.tw 申請帳號。
- 申請步驟,請參閱截圖說明
- 關於公用叢集的幾個重要入口:
- http://hadoop.nchc.org.tw - 實驗叢集入口網站
- http://hadoop.nchc.org.tw/ganglia - 實驗叢集負載狀態
- http://hadoop.nchc.org.tw:50030 - 實驗叢集正在執行與執行完畢的任務
- http://hadoop.nchc.org.tw:50070 - 實驗叢集的硬碟空間狀態
- http://hadoop.nchc.org.tw/hadoop-doc - Hadoop 相關說明文件
- http://hadoop.nchc.org.tw/hadoop-doc/api/index.html - Hadoop 0.20.2 javadoc 文件
輔助工具
科技新知
Last modified 11 years ago
Last modified on Jun 14, 2014, 12:32:14 PM
Attachments (1)
- 14-06-14_Big_Data_and_Hadoop_Ecosystem.pdf (12.2 MB) - added by jazz 11 years ago.