雲端巨量資料處理平台 Hadoop 及其應用實作
預備知識
- 具 Linux 操作實務與 Java 程式語言基礎者尤佳。
課程日期
- 102年8月7~27日 (週二/週三 白天 10:00 ~ 16:00 ),共 6 天、計 30 小時 。
上課地點
- 元智大學資訊學院 一館 1201 教室
課程內容
2013-08-07(三)
上午時段 課程內容 投影片 實作 補充資料 10:00~11:00 淺談海量資料的趨勢、挑戰與因應對策 part-1 11:00~12:00 處理海量資料的資訊架構與關鍵技術 part-2 12:00~13:00 午餐、午休 下午時段 課程內容 投影片 實作 補充資料 13:00~13:30 實作一:Hadoop 單機安裝 (on Windows) 實作一 13:30~13:50 實作二:Hadoop 實驗叢集帳號申請 實作二 13:50~14:10 中場休息 14:10~14:50 Hadoop 簡介:緣起與術語 part-3 15:30~15:40 中場休息 15:40~16:00 實作三:HDFS 基本操作練習(單機) 實作三
2013-08-13(二)
上午時段 課程內容 投影片 實作 補充資料 10:00~10:20 實作四:HDFS 基本操作練習(叢集) 實作四 10:20~11:20 HDFS 觀念與指令解說 part-4 11:20~11:40 中場休息 11:40~12:00 實作五:HDFS 進階指令操作與行為觀察(叢集) 實作五 12:00~13:00 午餐、午休 下午時段 課程內容 投影片 實作 補充資料 13:00~13:20 MapReduce簡介 part-5 13:20~13:35 實作六:在單機模式執行 MapReduce 基本運算範例 實作六 13:35~13:55 實作七:在完全分散模式執行 MapReduce 基本運算範例 實作七 13:55~14:10 中場休息 14:10~15:55 Hadoop 叢集安裝設定解說 part-6 15:55~16:00 補充說明 1. CDH (Cloudera’s Distribution Including Apache Hadoop)
2. Hortonworks Data Platform (HDP)
3. 雲端大量佈屬工具 Configuration Management - Chef 或 Puppet
2013-08-14(三)
上午時段 課程內容 投影片 實作 補充資料 10:00~12:00 實作八:安裝 VirtualBox 與 Ubuntu Linux
Hadoop 單機安裝腳本part-7 實作八 12:00~13:00 午餐、午休 下午時段 課程內容 投影片 實作 補充資料 13:00~15:00 實作九:運用 VirtualBox 實作兩台 Hadoop 節點串連 實作九 略 實作十:Hadoop MapReduce 程式編譯實務(單機) 實作十 15:00~16:00 實作十一:Hadoop MapReduce 程式編譯實務(叢集) 實作十一
2013-08-20(二)
上午時段 課程內容 投影片 實作 補充資料 10:00~11:10 Hadoop 相關專案(1) - Hadoop Streaming 簡介 part-8 11:10~11:20 中場休息 11:20~12:00 實作十二:Hadoop Streaming 操作練習 實作十二 12:00~13:00 午餐、午休 下午時段 課程內容 投影片 實作 補充資料 13:00~13:30 實作十三:綜合複習:HDFS、MapReduce 與 Hadoop Streaming 觀念驗證 實作十三 13:30~14:00 Hadoop 相關專案(2) - Pig 簡介 part-9 13:40~14:10 實作十四:Pig Latin 操作練習 實作十四 14:10~14:30 中場休息 14:30~15:00 NoSQL 簡介 - 以 HBase 為例 part-8 1. 參考 Yahoo! Cloud Serving Benchmark 了解何時該採用 NoSQL - <1> 15:00~15:40 實作十五:HBase 操作觀察 實作十五 15:40~16:00 課程問卷 http://goo.gl/qYC8dM
2013-08-27(二)
上午時段 課程內容 投影片 實作 補充資料 Hadoop 進階實作: Hadoop 的三種模式與三種安裝方法 實作十六:單機模式(Local Mode)操作觀察 實作十六 下午時段 課程內容 投影片 實作 補充資料 實作十七:偽分散式模式(Pseudo-Distributed Mode)操作觀察 實作十七 實作十八:全分散式模式(Full Distributed Mode)操作觀察 實作十八 實作十九:基本除錯技能(一) Bash 除錯 實作十九 實作二十:基本除錯技能(二) Log4J 實作二十 實作二十一:基本除錯技能(三) 運用環境變數動態切換模式 實作二十一
2013-09-03(二)
上午時段 課程內容 投影片 實作 補充資料 實作二十二: Eclipse 安裝 實作二十二 下午時段 課程內容 投影片 實作 補充資料
參考書目
- <學習資源> Hadoop 目前三本書籍
- Data-Intensive Text Processing with MapReduce (PDF),Jimmy Lin, University of Maryland
參考資料
- Hadoop 常見應用領域:
- Data Intensive Analytics with Hadoop: A Look Inside
- Using Hadoop to fight spam in Yahoo! Mail - 雅虎信箱
- 商業智慧
- http://www.pentaho.com/ - Pentaho 這間 BI 公司是 Hadoop 技術的長期支持者
- 金融業
- 2010-10-12 : VISA 採用 Hadoop 做風險評估 - HadoopWorld 2009 : Large Scale Transaction Analysis
- 中國信託
- 電信業
- 2011-06-12 : 中華電信用Hadoop技術分析通話明細
- 智慧電網
- 人力資源
- 行銷趨勢
- 科學教育
- 免費課程 - 把類似今天的課程再聽一次
- Hadoop 進階程式設計相關資訊
課後練習
- 使用Hadoop4Win - 在 Windows 上安裝單機版 Hadoop 與 HBase 練習環境 (注意:僅供練習使用,請勿用於實際營運!)
- 使用 HBase 0.90 改寫以上範例 code example
- DRBL-Hadoop Live CD (CDH2, 0.20.x) - 國網中心 hadoop.nchc.org.tw 的底層作法,使用方法仍在整理中~但已足夠作為練習 Hadoop 的執行環境
- 使用Cloudera 提供的 VMWare Image (CDH2, 0.20.x)
- 使用Yahoo! Hadoop Tutorial 的 VMWare Image (0.20.S)
- 使用Google 提供的 Hadoop VMWare Image (0.13,很舊了)
公用環境
- 課後問題討論,建議優先至台灣 Hadoop 使用者討論區 http://forum.hadoop.tw 進行討論。
- 需要 Hadoop 叢集環境,可至 http://hadoop.nchc.org.tw 申請帳號。
- 申請步驟,請參閱截圖說明
- 關於公用叢集的幾個重要入口:
- http://hadoop.nchc.org.tw - 實驗叢集入口網站
- http://hadoop.nchc.org.tw/ganglia - 實驗叢集負載狀態
- http://hadoop.nchc.org.tw:50030 - 實驗叢集正在執行與執行完畢的任務
- http://hadoop.nchc.org.tw:50070 - 實驗叢集的硬碟空間狀態
- http://hadoop.nchc.org.tw/hadoop-doc - Hadoop 相關說明文件
- http://hadoop.nchc.org.tw/hadoop-doc/api/index.html - Hadoop 0.20.2 javadoc 文件
輔助工具
科技新知
Last modified 11 years ago
Last modified on Sep 1, 2013, 11:00:46 PM
Attachments (9)
- part-1.pdf (2.9 MB) - added by jazz 11 years ago.
- part-2.pdf (2.9 MB) - added by jazz 11 years ago.
- part-3.pdf (1.4 MB) - added by jazz 11 years ago.
- part-4.pdf (415.8 KB) - added by jazz 11 years ago.
- part-5.pdf (365.7 KB) - added by jazz 11 years ago.
- part-6.pdf (1.9 MB) - added by jazz 11 years ago.
- part-7.pdf (6.4 MB) - added by jazz 11 years ago.
- part-8.pdf (1.3 MB) - added by jazz 11 years ago.
- part-9.pdf (1.2 MB) - added by jazz 11 years ago.