wiki:III140412

Version 10 (modified by jazz, 10 years ago) (diff)

--

雲端 Big Data 之處理、分析與應用(進階班)

報名資訊

課程日期

  • 104年04月12~13日 (週六/週日 白天9:30 ~16:30 ),共2天、計12小時 。

上課地點

  • 資策會數位教育研究所,台北市信義路三段 153 號 10 樓 1001 教室。
  • 位於捷運木柵線大安站斜對面(復興南路與信義路交叉口),燦坤樓上。
  • 上課地點與教室之確認,以上課通知函為主。

課程內容

2014-04-12(六)

時段 課程內容 投影片
實作步驟
補充資料
09:30-11:00 Big Data 處理技術與 Hadoop 簡介 投影片 * 重點一:減少資料搬運的頻寬成本跟時間成本
* 重點二:在地運算(Data Locality)
11:00-11:20 Hadoop 的三種模式與三種安裝方法 * http://hadoop.apache.org - Hadoop 專案官方首頁
* http://www.cloudera.com - RPM/DEB 套件庫 : 精誠知意圖(Etu)
* http://hortonworks.com - HDP for Windows : 趨勢騰雲(TCloud)
* http://www.mapr.com - MapR : 亦思科技
11:20-12:00 單機模式(Local Mode)操作觀察 實作一 * 阿帕契基金會官網單機安裝流程
12:00-12:25 偽分散式模式(Pseudo-Distributed Mode)操作觀察 實作二 * 官方 Hadoop 2.0 版的自動化安裝
12:25-13:30 午餐時間
13:30-13:45 全分散式模式(Full Distributed Mode)操作觀察 實作三
13:45-14:00 HDFS 基本指令操作 實作四
14:00-14:20 基本除錯技能(一) Bash 除錯 實作五
14:20-14:30 基本除錯技能(二) Log4J 實作六
14:20-14:40 基本除錯技能(三) 切換 Hadoop 設定檔 實作七
略過 MapReduce 基本指令操作 實作八
15:00-15:20 Hadoop FileSystem API 原始碼觀察 實作九
15:20-15:40 Hadoop FileSystem API 實作(一)
Local 檔案上傳到 HDFS
實作十
15:40-15:50 Hadoop FileSystem API 實作(二)
HDFS 下載檔案到 Local
實作十一
15:50-16:00 Hadoop FileSystem API 實作(三)
判斷檔案是否存在、屬性為何
實作十二

2014-04-13(日)

時段 課程內容 實作 補充資料
略過 Windows 版 Hadoop 安裝 (1) Hadoop4Win 實作十三 * http://www.hadoop4win.org
09:30-10:00 Windows 版 Hadoop 安裝 (2) Windoop 實作十四 * http://code.google.com/p/windoop
10:00-10:30 Hadoop Eclipse Plugin 功能展示 操作展示
略過 課後練習補充資料 * 如何自己建立練習環境
* CCDH / CCAH 考試認證指南
* Hadoop.TW 技術討論區
* 臉書 Hadoop.TW 社團
* 歷史課程錄影
10:30-10:40 中場休息
10:40-11:00 新版 Hadoop MapReduce 語法 (0.19以後)
使用 WordCount 範例解說
實作十五
11:00-12:00 MapReduce 『邏輯流』解說 圖解說明
12:00-12:20 舊版 Hadoop MapReduce 語法 (0.19以前)
使用 WordCount 範例解說
實作十六
12:20-13:20 午餐時間
13:20-13:45 Inner Class v.s. Public Classes 實作十七
13:45-14:00 增加 Reducer 個數:Job.setNumReduceTasks(N) 實作十八
14:00-14:15 觀察 Mapper 中間產物:Job.setNumReduceTasks(0) 實作十九
14:15-14:30 中場休息
14:40-15:00 預設的輸入格式:TextInputFormat 實作二十
15:00-15:20 修改檔案輸入格式:KeyValueTextInputFormat 實作二十一
15:20-16:00 MapReduce 『資料流』解說 圖解說明
16:00-16:20 關於 MapReduce 的設定檔 Configuration 實作二十二
16:20-16:30 如果我需要兩個輸入檔呢?
Distribtued Cache
實作二十三

補充設定

  • screenrc 範例
    $ cat > ~/.screenrc <<EOF
    caption always "%{= wk} %{= KY} [%n]%t @ %H %{-} %= %{= KR} %l %{-} | %{= KG} %Y-%m-%d %{-} "
    hardstatus alwayslastline " %-Lw%{= Bw}%n%f %t%{-}%+Lw %=|"
    vbell off
    EOF
    
  • 檢查 Java 記憶體使用量
    top -p `pidof java | sed 's# #,#g'`
    

補充

  • 修改 mapred-site.xml 的參數,增加 mapper 與 reducer 的 slot 個數
      <property>
        <name>mapred.tasktracker.map.tasks.maximum</name>
        <value>4</value>
      <property>
      <property>
        <name>mapred.tasktracker.reduce.tasks.maximum</name>
        <value>4</value>
      <property>
    

公用環境

Attachments (2)