Version 2 (modified by jazz, 13 years ago) (diff) |
---|
雲端平台Hadoop與MapReduce實作基礎班
預備知識
- 具 Linux 操作實務與 Java 程式語言基礎者尤佳。
課程日期
- 101年07月02日~07月03日,共 2 天、計 12 小時 。
課程內容
2012-07-02(一)
上午時段 課程內容 投影片 實作 補充資料 09:00~10:00 淺談海量資料的趨勢、挑戰與因應對策 part-1 10:00~11:00 處理海量資料的資訊架構與關鍵技術 part-2 11:00~11:10 中場休息 11:10~12:00 實作一:Hadoop 單機安裝 實作一
實作二12:00~13:00 午餐、午休 下午時段 課程內容 投影片 實作 補充資料 13:00~14:20 Hadoop 簡介:緣起與術語 part-3 14:20~15:30 HDFS 觀念與指令解說 part-4 15:30~15:40 中場休息 15:40~16:30 實作二:HDFS 操作實務 實作三
實作四16:30~17:00 實務需求問題討論 1. Hadoop 單機安裝(Windows)
2. Hadoop 單機安裝(Ubuntu Linux)
3. Hadoop 單機安裝(Linux,偽分散式)
4. Hadoop 叢集安裝
5. HDFS 異地備援
6. Hadoop 與虛擬化環境的注意事項(SAN, RAID, iSCSI, AoE)
7. Hadoop 現有教育訓練與證照
8. Hadoop 相關應用(搜尋引擎, 生物資訊)
2012-07-03(二)
上午時段 課程內容 投影片 實作 補充資料 09:00~10:30 MapReduce 簡介 part-5 10:30~10:40 中場休息 10:40~11:10 實作三:MapReduce 範例操作 實作五
實作六11:10~11:30 Hadoop 叢集安裝設定解說 part-6 11:30~12:00 實作四:Hadoop 程式編譯實務 實作七
實作八下午時段 課程內容 投影片 實作 補充資料 13:00~13:30 Hadoop 相關專案(1) Hadoop Streaming part-7 13:30~14:00 實作五:Hadoop Streaming 操作練習 實作九
實作十13:40~14:50 Hadoop 相關專案(2) - Pig part-8 14:50~15:10 實作六:Pig Latin 操作練習 實作十一 15:10~15:20 中場休息 15:20~15:50 HBase 操作觀察 實作十二 15:50~16:00 中場休息 16:00~17:00 Hadoop 示範應用 - 抓抓龍(Crawlzilla) part-9 補充 實作七:抓抓龍安裝操作(示範) 實作十三 補充 Hadoop 示範應用 - 雲端入侵日誌分析系統(ICAS) part-10
參考資料
- Hadoop 常見應用領域:
- Data Intensive Analytics with Hadoop: A Look Inside
- 商業智慧
- http://www.pentaho.com/ - Pentaho 這間 BI 公司是 Hadoop 技術的長期支持者
- 金融業
- 2010-10-12 : VISA 採用 Hadoop 做風險評估 - HadoopWorld 2009 : Large Scale Transaction Analysis
- 中國信託
- 電信業
- 2011-06-12 : 中華電信用Hadoop技術分析通話明細
- 人力資源
- 行銷趨勢
- 科學教育
- 免費課程 - 把類似今天的課程再聽一次
- Hadoop 進階程式設計相關資訊
課後練習
- 使用Hadoop4Win - 在 Windows 上安裝單機版 Hadoop 與 HBase 練習環境 (注意:僅供練習使用,請勿用於實際營運!)
- 使用 HBase 0.90 改寫以上範例 code example
- DRBL-Hadoop Live CD (CDH2, 0.20.x) - 國網中心 hadoop.nchc.org.tw 的底層作法,使用方法仍在整理中~但已足夠作為練習 Hadoop 的執行環境
- 使用Cloudera 提供的 VMWare Image (CDH2, 0.20.x)
- 使用Yahoo! Hadoop Tutorial 的 VMWare Image (0.20.S)
- 使用Google 提供的 Hadoop VMWare Image (0.13,很舊了)
公用環境
- 課後問題討論,建議優先至台灣 Hadoop 使用者討論區 http://forum.hadoop.tw 進行討論。
- 需要 Hadoop 叢集環境,可至 http://hadoop.nchc.org.tw 申請帳號。
- 申請步驟,請參閱截圖說明
- 關於公用叢集的幾個重要入口:
- http://hadoop.nchc.org.tw - 實驗叢集入口網站
- http://hadoop.nchc.org.tw/ganglia - 實驗叢集負載狀態
- http://hadoop.nchc.org.tw:50030 - 實驗叢集正在執行與執行完畢的任務
- http://hadoop.nchc.org.tw:50070 - 實驗叢集的硬碟空間狀態
- http://hadoop.nchc.org.tw/hadoop-doc - Hadoop 相關說明文件
- http://hadoop.nchc.org.tw/hadoop-doc/api/index.html - Hadoop 0.20.2 javadoc 文件
輔助工具
- 中華電信 hicloud 帳務 - 02-23445568
Attachments (11)
- 12-07-02_Big_Data_and_Hadoop.pdf (23.2 MB) - added by jazz 13 years ago.
- part-1.pdf (5.9 MB) - added by jazz 13 years ago.
- part-2.pdf (5.9 MB) - added by jazz 13 years ago.
- part-3.pdf (1.3 MB) - added by jazz 13 years ago.
- part-4.pdf (385.4 KB) - added by jazz 13 years ago.
- part-5.pdf (342.7 KB) - added by jazz 13 years ago.
- part-6.pdf (1.8 MB) - added by jazz 13 years ago.
- part-7.pdf (1.2 MB) - added by jazz 13 years ago.
- part-8.pdf (1.2 MB) - added by jazz 13 years ago.
- part-9.pdf (3.3 MB) - added by jazz 13 years ago.
- part-10.pdf (1.8 MB) - added by jazz 13 years ago.