Context Navigation

雲端 Big Data 之處理、分析與應用(進階班)

報名資訊
課程源起
課程目標
課程特色
適合對象
預備知識
課程日期
上課地點
課程內容
1. 2013-10-19（六）
2. 2013-10-20（日）
補充設定
公用環境

報名資訊

詳資策會網站公告

課程源起

  雲端運算掀起了新一代的資訊革命，也帶來了資訊爆炸式的成長，市調單位IDC的研究報告指出：
自2010年全球資料量已進入ZB(zettabytes，1 ZB 為1兆GB)時代，並且每年以60%的速度攀升，
這意味著每18個月全球的資料量將翻倍。面對不斷擴張的驚人資料量，大量資料 (Big Data) 的
儲存、管理、處理、搜尋、分析與智能應用等處理資料的能力也將面臨新的挑戰，而處理資料的技術
將迫切需要可動態與彈性等特點，以支援大量資料處理的計算模式。

工欲善其事，必先利其器，根據市場調查機構IDC的研究顯示，Hadoop 軟體市場的復合年增長率
超過了60%，並預測到了2016年，市場總值將由2011年的7700萬美元增長至8.128億美元，可見得
Hadoop火熱的程度。巨量資料寶庫蘊藏豐沛的珍寶，除了幾乎成為巨量資料代名詞的Hadoop外，
相同框架裡頭的 MapReduce、HDFS等技術，皆為意欲挖掘出這些寶藏之企業所需準備的工具，意欲
開啟巨量資料希望之門，幾乎可以肯定，絕對少不掉Hadoop這把鑰匙！

為了解決巨量資料的問題，Hadoop 周遭已經發展出相當完整的生態系，其中有兩個最為核心的項目，
一是MapReduce這個執行分散式處理的程式模型，另一則是HDFS這個虛擬的分散式檔案系統，透過
專司運算、儲存的兩根大支柱，牢牢地撐起Hadoop架構。且基於map/reduce的演算，Hadoop可以
利用分散式節點的增加，來持續提供更多的計算能力，因此具備了很好的規模可擴充性。

為了滿足業界需求，資策會 特規劃「雲端Big Data之處理與分析進階班」課程，本課程學員將學習
到雲端運算之三大關鍵技術，利用Hadoop之分散式檔案系統(HDFS)與MapReduce，快速建構出雲端
運算的執行環境和服務，並以Hadoop FileSystem API 實作、MapReduce API 實作、
MapReduce 與資料庫結合與MapReduce 與 Hadoop 生態系整合等實作方式讓學員更加了解如何
透過Hadoop架構以進行雲端資料的大量資料處理、分析與應用。

課程目標

學習 Hadoop File System 之 API 實作
學習 Hadoop MapReduce 開發輔助工具 Eclipse 與 Netbeans
學習 MapReduce 之 API 實作
瞭解 MapReduce 與資料庫結合的方式
學習 MapReduce 與 Hadoop 生態系之整合方式

課程特色

本課課程重點在於透過採體驗式教學方式的實作，經由多樣性的實際指令操作進行整合實作，
讓參訓學員瞭解正確的觀念與方法，以體驗實際的操作方式驗證課程所學 ，期能讓學員學會
如何將 Hadoop 這項技術與現存資訊架構進行整合。

適合對象

IT經理或系統網路部門主管
專案經理、系統架構師或系統網路管理人員
企業或技術決策人員
對於雲端運算之大量資料(Big Data)處理、分析、應用有興趣者

報名資訊
課程源起
課程目標
課程特色
適合對象
預備知識
課程日期
上課地點
課程內容
1. 2013-10-19（六）
2. 2013-10-20（日）
補充設定
公用環境

預備知識

具 Linux 操作實務與 Java 程式語言基礎者尤佳。
具雲端運算之大量資料處理、分析與應用實務之基礎課程知識者尤佳。

課程日期

102年10月19~20日 (週六/週日白天9:30 ~16:30 )，共2天、計12小時。

上課地點

資策會數位教育研究所，台北市信義路三段 153 號 10 樓 1001 教室。
位於捷運木柵線大安站斜對面(復興南路與信義路交叉口)，燦坤樓上。
上課地點與教室之確認，以上課通知函為主。

課程內容

完整版投影片

2013-10-19（六）

時段課程內容投影片
實作步驟補充資料
09:30-11:00 Big Data 處理技術與 Hadoop 簡介投影片 * 重點一:減少資料搬運的頻寬成本跟時間成本
* 重點二:在地運算(Data Locality)
11:00-11:20 Hadoop 的三種模式與三種安裝方法 * http://hadoop.apache.org - Hadoop 專案官方首頁
* http://www.cloudera.com - RPM/DEB 套件庫 : 精誠知意圖(Etu)
* http://hortonworks.com - HDP for Windows : 趨勢騰雲(TCloud)
* http://www.mapr.com - MapR : 亦思科技
11:20-12:00 單機模式（Local Mode）操作觀察實作一 * 阿帕契基金會官網單機安裝流程
* Ubuntu 安裝 Hadoop / HBase 單機安裝腳本
12:00-12:25 偽分散式模式（Pseudo-Distributed Mode）操作觀察實作二 * 官方 Hadoop 2.0 版的自動化安裝
12:25-13:30 午餐時間
13:30-13:45 全分散式模式（Full Distributed Mode）操作觀察實作三
13:45-14:00 HDFS 基本指令操作實作四
14:00-14:20 基本除錯技能(一) Bash 除錯實作五
14:20-14:30 基本除錯技能(二) Log4J 實作六
14:20-14:40 基本除錯技能(三) 切換 Hadoop 設定檔實作七
14:40-15:00 中場休息
略過 MapReduce 基本指令操作實作八
15:00-15:20 Hadoop FileSystem API 原始碼觀察實作九
15:20-15:40 Hadoop FileSystem API 實作(一)
Local 檔案上傳到 HDFS 實作十
15:40-15:50 Hadoop FileSystem API 實作(二)
HDFS 下載檔案到 Local 實作十一
15:50-16:00 Hadoop FileSystem API 實作(三)
判斷檔案是否存在、屬性為何實作十二
略過 Windows 版 Hadoop 安裝 (1) Hadoop4Win 實作十三 * http://www.hadoop4win.org
16:00-16:10 Windows 版 Hadoop 安裝 (2) Windoop 實作十四 * http://code.google.com/p/windoop
16:10-16:30 Hadoop Eclipse Plugin 功能展示 操作展示

2013-10-20（日）

時段課程內容實作補充資料
09:30-10:10 第一天學員問題分享 * 如何自己建立練習環境
* CCDH / CCAH 考試認證指南
* Hadoop.TW 技術討論區
* 臉書 Hadoop.TW 社團
* 歷史課程錄影
10:10-10:40 新版 Hadoop MapReduce 語法 (0.19以後)
使用 WordCount 範例解說實作十五
10:40-11:00 中場休息
11:00-12:05 MapReduce 『邏輯流』解說
12:05-13:05 午餐時間
13:05-13:25 舊版 Hadoop MapReduce 語法 (0.19以前)
使用 WordCount 範例解說實作十六
13:25-13:45 Inner Class v.s. Public Classes 實作十七
13:45-14:00 增加 Reducer 個數：Job.setNumReduceTasks(N) 實作十八
14:00-14:15 觀察 Mapper 中間產物：Job.setNumReduceTasks(0) 實作十九
14:15-14:30 中場休息
14:40-15:00 預設的輸入格式：TextInputFormat 實作二十
15:00-15:20 修改檔案輸入格式：KeyValueTextInputFormat 實作二十一
15:20-16:00 MapReduce 『資料流』解說
16:00-16:20 關於 MapReduce 的設定檔 Configuration 實作二十二
16:20-16:30 如果我需要兩個輸入檔呢？
Distribtued Cache 實作二十三

補充設定

screenrc 範例

$ cat > ~/.screenrc <<EOF
caption always "%{= wk} %{= KY} [%n]%t @ %H %{-} %= %{= KR} %l %{-} | %{= KG} %Y-%m-%d %{-} "
hardstatus alwayslastline " %-Lw%{= Bw}%n%f %t%{-}%+Lw %=|"
vbell off
EOF

檢查 Java 記憶體使用量
```
top -p `pidof java | sed 's# #,#g'`
```

hadoop_labs for hadoop4win - 未經完整測試
- https://github.com/jazzwang/hadoop_labs/archive/hadoop4win.zip

公用環境

課後問題討論，建議優先至台灣 Hadoop 使用者討論區 http://forum.hadoop.tw 或臉書粉絲團 https://www.facebook.com/groups/hadoop.tw/ 進行討論。
需要 Hadoop 叢集環境，可至 http://hadoop.nchc.org.tw 申請帳號。
- 申請步驟，請參閱截圖說明
關於公用叢集的幾個重要入口：
http://hadoop.nchc.org.tw - 實驗叢集入口網站
http://hadoop.nchc.org.tw/ganglia - 實驗叢集負載狀態
http://hadoop.nchc.org.tw:50030 - 實驗叢集正在執行與執行完畢的任務
http://hadoop.nchc.org.tw:50070 - 實驗叢集的硬碟空間狀態
http://hadoop.nchc.org.tw/hadoop-doc - Hadoop 相關說明文件
http://hadoop.nchc.org.tw/hadoop-doc/api/index.html - Hadoop 0.20.2 javadoc 文件

Last modified 12 years ago Last modified on Oct 20, 2013, 2:21:43 PM

Attachments (1)

part-1.pdf (2.2 MB) - added by jazz 12 years ago.

Download in other formats:

Plain Text

時段	課程內容	投影片實作步驟	補充資料
09:30-11:00	Big Data 處理技術與 Hadoop 簡介	投影片	* 重點一:減少資料搬運的頻寬成本跟時間成本 * 重點二:在地運算(Data Locality)
11:00-11:20	Hadoop 的三種模式與三種安裝方法		* http://hadoop.apache.org - Hadoop 專案官方首頁 * http://www.cloudera.com - RPM/DEB 套件庫 : 精誠知意圖(Etu) * http://hortonworks.com - HDP for Windows : 趨勢騰雲(TCloud) * http://www.mapr.com - MapR : 亦思科技
11:20-12:00	單機模式（Local Mode）操作觀察	實作一	* 阿帕契基金會官網單機安裝流程 * Ubuntu 安裝 Hadoop / HBase 單機安裝腳本
12:00-12:25	偽分散式模式（Pseudo-Distributed Mode）操作觀察	實作二	* 官方 Hadoop 2.0 版的自動化安裝
12:25-13:30	午餐時間
13:30-13:45	全分散式模式（Full Distributed Mode）操作觀察	實作三
13:45-14:00	HDFS 基本指令操作	實作四
14:00-14:20	基本除錯技能(一) Bash 除錯	實作五
14:20-14:30	基本除錯技能(二) Log4J	實作六
14:20-14:40	基本除錯技能(三) 切換 Hadoop 設定檔	實作七
14:40-15:00	中場休息
略過	MapReduce 基本指令操作	實作八
15:00-15:20	Hadoop FileSystem API 原始碼觀察	實作九
15:20-15:40	Hadoop FileSystem API 實作(一) Local 檔案上傳到 HDFS	實作十
15:40-15:50	Hadoop FileSystem API 實作(二) HDFS 下載檔案到 Local	實作十一
15:50-16:00	Hadoop FileSystem API 實作(三) 判斷檔案是否存在、屬性為何	實作十二
略過	Windows 版 Hadoop 安裝 (1) Hadoop4Win	實作十三	* http://www.hadoop4win.org
16:00-16:10	Windows 版 Hadoop 安裝 (2) Windoop	實作十四	* http://code.google.com/p/windoop
16:10-16:30	Hadoop Eclipse Plugin 功能展示	操作展示

時段	課程內容	實作	補充資料
09:30-10:10	第一天學員問題分享		* 如何自己建立練習環境 * CCDH / CCAH 考試認證指南 * Hadoop.TW 技術討論區 * 臉書 Hadoop.TW 社團 * 歷史課程錄影
10:10-10:40	新版 Hadoop MapReduce 語法 (0.19以後) 使用 WordCount 範例解說	實作十五
10:40-11:00	中場休息
11:00-12:05	MapReduce 『邏輯流』解說
12:05-13:05	午餐時間
13:05-13:25	舊版 Hadoop MapReduce 語法 (0.19以前) 使用 WordCount 範例解說	實作十六
13:25-13:45	Inner Class v.s. Public Classes	實作十七
13:45-14:00	增加 Reducer 個數：Job.setNumReduceTasks(N)	實作十八
14:00-14:15	觀察 Mapper 中間產物：Job.setNumReduceTasks(0)	實作十九
14:15-14:30	中場休息
14:40-15:00	預設的輸入格式：TextInputFormat	實作二十
15:00-15:20	修改檔案輸入格式：KeyValueTextInputFormat	實作二十一
15:20-16:00	MapReduce 『資料流』解說
16:00-16:20	關於 MapReduce 的設定檔 Configuration	實作二十二
16:20-16:30	如果我需要兩個輸入檔呢？ Distribtued Cache	實作二十三