雲端運算之大量資料處理、分析與應用
報名資訊
課程源起
雲端運算掀起了新一代的資訊革命,也帶來了資訊爆炸式的成長,根據最新IDC研究報告指出: 2010年全球資料量將進入ZB(zettabytes,1 ZB 為1兆GB)時代,並且每年以60%的速度攀升, 這意味著每18個月全球的資料量將翻倍。面對不斷擴張的驚人資料量,大量資料的儲存、管理、處理 、搜尋、分析與智能應用等處理資料的能力將面臨新的挑戰,處理資料技術也迫切需要可動態與彈性 的特點,以支援大量資料處理的計算模式。 雲端運算使得分散式運算技術成了新顯學,整合MapReduce演算法並被各大企業所廣泛採用的 Hadoop套件,更是開發雲端運算技術的佼佼者,它是用來處理與保存大量資料的雲端運算平台。 全球各大IT企業(如:雅虎、IBM等)無不積極投資與推廣此一計算模式,並被作為雲端運算環境中 的重要基礎軟件。有了Hadoop軟體平台後,始可進行各項分析,如:電信業者如今可以分析手機在 基地台漫遊的特性,提供更好的在地費率;信用卡業者如今可以每天定期分析各種信用貸款所產生的 風險,動態調整信貸利率;便利超商如今可以分析消費者的購買習慣,動態調整架上存貨數量;甚至 新興產業,如生醫資訊、智慧電網等皆可運用Hadoop平台來進行資料探勘與趨勢預測。若您的企業 有儲存海量資料的需求,有分析海量資料的需求,或者面臨資料庫過度龐大,正在尋求分散式資料庫 或資料倉儲的技術,那Hadoop或許是一個已通過商業驗證的選擇。只要懂得駕馭Hadoop這隻大象, 它將能駝著您爬過一座座資料大山,幫您理出隱藏在群眾中的邏輯。
課程目標
學習雲端運算之三大關鍵技術,及利用Hadoop之分散式檔案系統(HDFS)與MapReduce,快速建構 出雲端運算的執行環境和服務,並以實作方式讓學員了解如何透過Hadoop架構以進行雲端資料的大量 資料處理、分析與應用。
課程特色
- 本課程屬於基礎觀念課程,不特別講解程式設計;
- 實作將採體驗式教學,亦即先透過指令剪貼方式,體驗一次操作,從體驗中驗證所學觀念。
適合對象
- IT經理或系統網路部門主管
- 專案經理、系統架構師或系統網路管理人員
- 企業或技術決策人員
- 對於私有雲端運算有興趣的人士
預備知識
- 具 Linux 操作實務與 Java 程式語言基礎者尤佳。
課程日期
- 101年05月26日~05月27日 ( 週六日白天9:00 ~17:00 ),共2天、計14小時 。
上課地點
- 資策會數位教育研究所,台北市復興南路一段 390 號 2 樓 201 教室。
- 位於捷運木柵線大安站斜對面(復興南路與信義路交叉口),台灣企銀樓上。
- 上課地點與教室之確認,以上課通知函為主。
課程內容
2012-05-26(六)
上午時段 課程內容 投影片 實作 補充資料 09:00~10:00 淺談海量資料的趨勢、挑戰與因應對策 part-1 10:00~11:00 處理海量資料的資訊架構與關鍵技術 part-2 11:00~11:10 中場休息 11:10~12:00 實作一:Hadoop 單機安裝 實作一
實作二12:00~13:00 午餐、午休 下午時段 課程內容 投影片 實作 補充資料 13:00~14:20 Hadoop 簡介:緣起與術語 part-3 14:20~15:30 HDFS 觀念與指令解說 part-4 15:30~15:40 中場休息 15:40~16:30 實作二:HDFS 操作實務 實作三
實作四16:30~17:00 實務需求問題討論 1. Hadoop 單機安裝(Windows)
2. Hadoop 單機安裝(Ubuntu Linux)
3. Hadoop 單機安裝(Linux,偽分散式)
4. Hadoop 叢集安裝
5. HDFS 異地備援
6. Hadoop 與虛擬化環境的注意事項(SAN, RAID, iSCSI, AoE)
7. Hadoop 現有教育訓練與證照
8. Hadoop 相關應用(搜尋引擎, 生物資訊)
2012-05-26(日)
上午時段 課程內容 投影片 實作 補充資料 09:00~10:30 MapReduce 簡介 part-5 10:30~10:40 中場休息 10:40~11:10 實作三:MapReduce 範例操作 實作五
實作六11:10~11:30 Hadoop 叢集安裝設定解說 part-6 11:30~12:00 實作四:Hadoop 程式編譯實務 實作七
實作八下午時段 課程內容 投影片 實作 補充資料 13:00~13:30 Hadoop 相關專案(1) Hadoop Streaming part-7 13:30~14:00 實作五:Hadoop Streaming 操作練習 實作九
實作十13:40~14:50 Hadoop 相關專案(2) - Pig part-8 14:50~15:10 實作六:Pig Latin 操作練習 實作十一 15:10~15:20 中場休息 15:20~15:50 HBase 操作觀察 實作十二 15:50~16:00 中場休息 16:00~17:00 Hadoop 示範應用 - 抓抓龍(Crawlzilla) part-9 補充 實作七:抓抓龍安裝操作(示範) 實作十三 補充 Hadoop 示範應用 - 雲端入侵日誌分析系統(ICAS) part-10
參考資料
- Hadoop 常見應用領域:
- Data Intensive Analytics with Hadoop: A Look Inside
- 商業智慧
- http://www.pentaho.com/ - Pentaho 這間 BI 公司是 Hadoop 技術的長期支持者
- 金融業
- 2010-10-12 : VISA 採用 Hadoop 做風險評估 - HadoopWorld 2009 : Large Scale Transaction Analysis
- 中國信託
- 電信業
- 2011-06-12 : 中華電信用Hadoop技術分析通話明細
- 人力資源
- 行銷趨勢
- 科學教育
- 免費課程 - 把類似今天的課程再聽一次
- Hadoop 進階程式設計相關資訊
課後練習
- 使用Hadoop4Win - 在 Windows 上安裝單機版 Hadoop 與 HBase 練習環境 (注意:僅供練習使用,請勿用於實際營運!)
- 使用 HBase 0.90 改寫以上範例 code example
- DRBL-Hadoop Live CD (CDH2, 0.20.x) - 國網中心 hadoop.nchc.org.tw 的底層作法,使用方法仍在整理中~但已足夠作為練習 Hadoop 的執行環境
- 使用Cloudera 提供的 VMWare Image (CDH2, 0.20.x)
- 使用Yahoo! Hadoop Tutorial 的 VMWare Image (0.20.S)
- 使用Google 提供的 Hadoop VMWare Image (0.13,很舊了)
公用環境
- 課後問題討論,建議優先至台灣 Hadoop 使用者討論區 http://forum.hadoop.tw 進行討論。
- 需要 Hadoop 叢集環境,可至 http://hadoop.nchc.org.tw 申請帳號。
- 申請步驟,請參閱截圖說明
- 關於公用叢集的幾個重要入口:
- http://hadoop.nchc.org.tw - 實驗叢集入口網站
- http://hadoop.nchc.org.tw/ganglia - 實驗叢集負載狀態
- http://hadoop.nchc.org.tw:50030 - 實驗叢集正在執行與執行完畢的任務
- http://hadoop.nchc.org.tw:50070 - 實驗叢集的硬碟空間狀態
- http://hadoop.nchc.org.tw/hadoop-doc - Hadoop 相關說明文件
- http://hadoop.nchc.org.tw/hadoop-doc/api/index.html - Hadoop 0.20.2 javadoc 文件
輔助工具
- 中華電信 hicloud 帳務 - 02-23445568
Last modified 13 years ago
Last modified on Jun 15, 2012, 11:26:42 PM
Attachments (11)
- part-1.pdf (5.9 MB) - added by jazz 13 years ago.
- part-2.pdf (5.9 MB) - added by jazz 13 years ago.
- part-3.pdf (1.3 MB) - added by jazz 13 years ago.
- part-4.pdf (385.4 KB) - added by jazz 13 years ago.
- part-5.pdf (342.7 KB) - added by jazz 13 years ago.
- part-6.pdf (1.8 MB) - added by jazz 13 years ago.
- part-7.pdf (1.2 MB) - added by jazz 13 years ago.
- part-8.pdf (1.2 MB) - added by jazz 13 years ago.
- part-9.pdf (3.3 MB) - added by jazz 13 years ago.
- part-10.pdf (1.8 MB) - added by jazz 13 years ago.
- 12-05-26_Big_Data_and_Hadoop.pdf (23.2 MB) - added by jazz 13 years ago.