雲端運算之大資料處理實務班
課程目標
預備知識
- 具 Linux 操作實務與 Java 程式語言基礎者尤佳。
課程日期
- 102年10月22~23日 (週二/週三 白天9:10 ~16:20 ),共2天、計12小時 。
課程內容
2013-10-22(二)
時段 課程內容 投影片
實作步驟補充資料 09:30-11:00 Big Data 處理技術與 Hadoop 簡介 投影片 * 重點一:減少資料搬運的頻寬成本跟時間成本
* 重點二:在地運算(Data Locality)11:00-11:20 Hadoop 的三種模式與三種安裝方法 * http://hadoop.apache.org - Hadoop 專案官方首頁
* http://www.cloudera.com - RPM/DEB 套件庫 : 精誠知意圖(Etu)
* http://hortonworks.com - HDP for Windows : 趨勢騰雲(TCloud)
* http://www.mapr.com - MapR : 亦思科技11:20-12:00 單機模式(Local Mode)操作觀察 實作一 * 阿帕契基金會官網單機安裝流程
* Ubuntu 安裝 Hadoop / HBase 單機安裝腳本12:00-12:25 偽分散式模式(Pseudo-Distributed Mode)操作觀察 實作二 * 官方 Hadoop 2.0 版的自動化安裝 12:25-13:30 午餐時間 13:30-13:45 全分散式模式(Full Distributed Mode)操作觀察 實作三 13:45-14:00 HDFS 基本指令操作 實作四 14:00-14:20 基本除錯技能(一) Bash 除錯 實作五 14:20-14:30 基本除錯技能(二) Log4J 實作六 14:20-14:40 基本除錯技能(三) 切換 Hadoop 設定檔 實作七 14:40-15:00 中場休息 略過 MapReduce 基本指令操作 實作八 15:00-15:20 Hadoop FileSystem API 原始碼觀察 實作九 15:20-15:40 Hadoop FileSystem API 實作(一)
Local 檔案上傳到 HDFS實作十 15:40-15:50 Hadoop FileSystem API 實作(二)
HDFS 下載檔案到 Local實作十一 15:50-16:00 Hadoop FileSystem API 實作(三)
判斷檔案是否存在、屬性為何實作十二 略過 Windows 版 Hadoop 安裝 (1) Hadoop4Win 實作十三 * http://www.hadoop4win.org 16:00-16:10 Windows 版 Hadoop 安裝 (2) Windoop 實作十四 * http://code.google.com/p/windoop 16:10-16:30 Hadoop Eclipse Plugin 功能展示 操作展示
2013-10-23(三)
時段 課程內容 實作 補充資料 09:30-10:10 課後練習補充資料 * 如何自己建立練習環境
* CCDH / CCAH 考試認證指南
* Hadoop.TW 技術討論區
* 臉書 Hadoop.TW 社團
* 歷史課程錄影10:10-10:40 新版 Hadoop MapReduce 語法 (0.19以後)
使用 WordCount 範例解說實作十五 10:40-11:00 中場休息 11:00-12:05 MapReduce 『邏輯流』解說 12:05-13:05 午餐時間 13:05-13:25 舊版 Hadoop MapReduce 語法 (0.19以前)
使用 WordCount 範例解說實作十六 13:25-13:45 Inner Class v.s. Public Classes 實作十七 13:45-14:00 增加 Reducer 個數:Job.setNumReduceTasks(N) 實作十八 14:00-14:15 觀察 Mapper 中間產物:Job.setNumReduceTasks(0) 實作十九 14:15-14:30 中場休息 14:40-15:00 預設的輸入格式:TextInputFormat 實作二十 15:00-15:20 修改檔案輸入格式:KeyValueTextInputFormat 實作二十一 15:20-16:00 MapReduce 『資料流』解說 16:00-16:20 關於 MapReduce 的設定檔 Configuration 實作二十二 16:20-16:30 如果我需要兩個輸入檔呢?
Distribtued Cache實作二十三
補充設定
- screenrc 範例
$ cat > ~/.screenrc <<EOF caption always "%{= wk} %{= KY} [%n]%t @ %H %{-} %= %{= KR} %l %{-} | %{= KG} %Y-%m-%d %{-} " hardstatus alwayslastline " %-Lw%{= Bw}%n%f %t%{-}%+Lw %=|" vbell off EOF
- 檢查 Java 記憶體使用量
top -p `pidof java | sed 's# #,#g'`
- hadoop_labs for hadoop4win - 未經完整測試
公用環境
- 課後問題討論,建議優先至台灣 Hadoop 使用者討論區 http://forum.hadoop.tw 或臉書粉絲團 https://www.facebook.com/groups/hadoop.tw/ 進行討論。
- 需要 Hadoop 叢集環境,可至 http://hadoop.nchc.org.tw 申請帳號。
- 申請步驟,請參閱截圖說明
- 關於公用叢集的幾個重要入口:
- http://hadoop.nchc.org.tw - 實驗叢集入口網站
- http://hadoop.nchc.org.tw/ganglia - 實驗叢集負載狀態
- http://hadoop.nchc.org.tw:50030 - 實驗叢集正在執行與執行完畢的任務
- http://hadoop.nchc.org.tw:50070 - 實驗叢集的硬碟空間狀態
- http://hadoop.nchc.org.tw/hadoop-doc - Hadoop 相關說明文件
- http://hadoop.nchc.org.tw/hadoop-doc/api/index.html - Hadoop 0.20.2 javadoc 文件
Last modified 11 years ago
Last modified on Oct 23, 2013, 2:49:14 PM
Attachments (3)
- part-1.pdf (2.2 MB) - added by jazz 11 years ago.
- Hadoop_Logic_Flow.png (30.4 KB) - added by jazz 11 years ago.
- MapReduce_Data_Flow.png (15.2 KB) - added by jazz 11 years ago.