雲端平台Hadoop與MapReduce實作基礎班
預備知識
- 具 Linux 操作實務與 Java 程式語言基礎者尤佳。
課程日期
- 101年07月02日~07月03日,共 2 天、計 12 小時 。
課程內容
2012-07-02(一)
上午時段 課程內容 投影片 實作 補充資料 09:10~10:00 淺談海量資料的趨勢、挑戰與因應對策 part-1 10:00~10:10 中場休息 10:10~11:00 處理海量資料的資訊架構與關鍵技術 part-2 11:00~11:10 中場休息 11:10~12:00 實作一:Hadoop 單機安裝 實作一
實作二12:00~13:30 午餐、午休 下午時段 課程內容 投影片 實作 補充資料 13:30~14:20 Hadoop 簡介:緣起與術語 part-3 14:20~14:30 中場休息 14:30~15:20 HDFS 觀念與指令解說 part-4 15:20~15:30 中場休息 15:30~16:20 實作二:HDFS 操作實務 實作三
實作四
2012-07-03(二)
上午時段 課程內容 投影片 實作 補充資料 09:10~10:00 MapReduce 簡介 part-5 10:00~10:10 中場休息 10:10~11:00 實作三:MapReduce 範例操作 實作五
實作六11:00~11:10 中場休息 11:10~11:30 Hadoop 叢集安裝設定解說 part-6 11:30~12:00 實作四:Hadoop 程式編譯實務 實作七
實作八下午時段 課程內容 投影片 實作 補充資料 13:30~14:00 Hadoop 相關專案(1) Hadoop Streaming part-7 14:00~14:20 實作五:Hadoop Streaming 操作練習 實作九
實作十14:20~14:30 中場休息 14:30~15:00 Hadoop 相關專案(2) - Pig part-8 15:00~15:20 實作六:Pig Latin 操作練習 實作十一 15:20~15:30 中場休息 15:30~16:00 HBase 操作觀察 實作十二 16:00~16:20 Hadoop 示範應用 - 抓抓龍(Crawlzilla) part-9 補充 實作七:抓抓龍安裝操作(示範) 實作十三 補充 Hadoop 示範應用 - 雲端入侵日誌分析系統(ICAS) part-10
參考資料
- Hadoop 常見應用領域:
- Data Intensive Analytics with Hadoop: A Look Inside
- 商業智慧
- http://www.pentaho.com/ - Pentaho 這間 BI 公司是 Hadoop 技術的長期支持者
- 金融業
- 2010-10-12 : VISA 採用 Hadoop 做風險評估 - HadoopWorld 2009 : Large Scale Transaction Analysis
- 中國信託
- 電信業
- 2011-06-12 : 中華電信用Hadoop技術分析通話明細
- 人力資源
- 行銷趨勢
- 科學教育
- 免費課程 - 把類似今天的課程再聽一次
- Hadoop 進階程式設計相關資訊
問答集錦
- 需求: 用 HBase 做日誌分析, 根據相同 Event 去計數某一時間區段的連線次數(或網路攻擊次數)
- 建議: 參考 HBase Storage and Pig 採用 HBase 當儲存, 用 Pig 做上層 COUNT, JOIN 統計分析
- Chapter 6. HBase and Schema Design - HBase 官方文件對於設計 HBase Schema 的建議
- 運用 Hadoop 提供 PaaS 服務:
- SnapLogic SnapReduce - 這間公司目標想把 Hadoop 變成更簡單,設計了圖形化介面來作 Map / Reduce 工作的規劃。
- SnapReduce 的展示影片
課後練習
- 使用Hadoop4Win - 在 Windows 上安裝單機版 Hadoop 與 HBase 練習環境 (注意:僅供練習使用,請勿用於實際營運!)
- 使用 HBase 0.90 改寫以上範例 code example
- DRBL-Hadoop Live CD (CDH2, 0.20.x) - 國網中心 hadoop.nchc.org.tw 的底層作法,使用方法仍在整理中~但已足夠作為練習 Hadoop 的執行環境
- 使用Cloudera 提供的 VMWare Image (CDH2, 0.20.x)
- 使用Yahoo! Hadoop Tutorial 的 VMWare Image (0.20.S)
- 使用Google 提供的 Hadoop VMWare Image (0.13,很舊了)
公用環境
- 課後問題討論,建議優先至台灣 Hadoop 使用者討論區 http://forum.hadoop.tw 進行討論。
- 需要 Hadoop 叢集環境,可至 http://hadoop.nchc.org.tw 申請帳號。
- 申請步驟,請參閱截圖說明
- 關於公用叢集的幾個重要入口:
- http://hadoop.nchc.org.tw - 實驗叢集入口網站
- http://hadoop.nchc.org.tw/ganglia - 實驗叢集負載狀態
- http://hadoop.nchc.org.tw:50030 - 實驗叢集正在執行與執行完畢的任務
- http://hadoop.nchc.org.tw:50070 - 實驗叢集的硬碟空間狀態
- http://hadoop.nchc.org.tw/hadoop-doc - Hadoop 相關說明文件
- http://hadoop.nchc.org.tw/hadoop-doc/api/index.html - Hadoop 0.20.2 javadoc 文件
輔助工具
- 中華電信 hicloud 帳務 - 02-23445568
Last modified 12 years ago
Last modified on Jul 3, 2012, 1:34:21 PM
Attachments (11)
- 12-07-02_Big_Data_and_Hadoop.pdf (23.2 MB) - added by jazz 12 years ago.
- part-1.pdf (5.9 MB) - added by jazz 12 years ago.
- part-2.pdf (5.9 MB) - added by jazz 12 years ago.
- part-3.pdf (1.3 MB) - added by jazz 12 years ago.
- part-4.pdf (385.4 KB) - added by jazz 12 years ago.
- part-5.pdf (342.7 KB) - added by jazz 12 years ago.
- part-6.pdf (1.8 MB) - added by jazz 12 years ago.
- part-7.pdf (1.2 MB) - added by jazz 12 years ago.
- part-8.pdf (1.2 MB) - added by jazz 12 years ago.
- part-9.pdf (3.3 MB) - added by jazz 12 years ago.
- part-10.pdf (1.8 MB) - added by jazz 12 years ago.