Version 7 (modified by jazz, 9 years ago) (diff) |
---|
大數據與 Hadoop 開源系統軟體
上課地點
課程內容
2016-04-12
時段 課程內容 投影片
實作步驟補充資料 09:30-11:00 Big Data 處理技術與 Hadoop 簡介 投影片 * 重點一:減少資料搬運的頻寬成本跟時間成本
* 重點二:在地運算(Data Locality)
Self Learning
Hadoop 的三種模式與三種安裝方法 * http://hadoop.apache.org - Hadoop 專案官方首頁
* http://www.cloudera.com - RPM/DEB 套件庫 : 精誠知意圖(Etu)
* http://hortonworks.com - HDP for Windows : 趨勢騰雲(TCloud)
* http://www.mapr.com - MapR : 亦思科技如何自己建立練習環境 - CDH / HDP
* Cloudera Live - Hue 介面練習
* CCDH / CCAH 考試認證指南
* Hadoop.TW 技術討論區
* 臉書 Hadoop.TW 社團
* 歷史課程錄影
Hands-On Labs
單機模式(Local Mode)操作觀察 實作一 * 阿帕契基金會官網單機安裝流程 偽分散式模式(Pseudo-Distributed Mode)操作觀察 實作二 * 官方 Hadoop 2.0 版的自動化安裝 全分散式模式(Full Distributed Mode)操作觀察 實作三 HDFS 基本指令操作 實作四 基本除錯技能(一) Bash 除錯 實作五 基本除錯技能(二) Log4J 實作六 基本除錯技能(三) 切換 Hadoop 設定檔 實作七 MapReduce 基本指令操作 實作八? Hadoop FileSystem API 原始碼觀察 實作九? Hadoop FileSystem API 實作(一)
Local 檔案上傳到 HDFS實作十? Hadoop FileSystem API 實作(二)
HDFS 下載檔案到 Local實作十一? Hadoop FileSystem API 實作(三)
判斷檔案是否存在、屬性為何實作十二? Windows 版 Hadoop 安裝 (1) Hadoop4Win 實作十三? * http://www.hadoop4win.org Windows 版 Hadoop 安裝 (2) Windoop 實作十四? * http://code.google.com/p/windoop 新版 Hadoop MapReduce 語法 (0.19以後)
使用 WordCount 範例解說實作十五? MapReduce 『邏輯流』解說 圖解說明? 舊版 Hadoop MapReduce 語法 (0.19以前)
使用 WordCount 範例解說實作十六? Inner Class v.s. Public Classes 實作十七? 增加 Reducer 個數:Job.setNumReduceTasks(N) 實作十八? 觀察 Mapper 中間產物:Job.setNumReduceTasks(0) 實作十九? 預設的輸入格式:TextInputFormat 實作二十? 修改檔案輸入格式:KeyValueTextInputFormat 實作二十一? MapReduce 『資料流』解說 圖解說明? 關於 MapReduce 的設定檔 Configuration 實作二十二? 如果我需要兩個輸入檔呢?
Distribtued Cache實作二十三?
Homework
Basic ReverseIndex HW1 Extra PageRank CSIE Big Data Systems - Fall 2013 - Professor Shih-wei Liao
補充設定
- screenrc 範例
$ cat > ~/.screenrc <<EOF caption always "%{= wk} %{= KY} [%n]%t @ %H %{-} %= %{= KR} %l %{-} | %{= KG} %Y-%m-%d %{-} " hardstatus alwayslastline " %-Lw%{= Bw}%n%f %t%{-}%+Lw %=|" vbell off EOF
- 檢查 Java 記憶體使用量
top -p `pidof java | sed 's# #,#g'`
補充
- HDFS Explore
- 開發環境 IDE 與 Hadoop Plugin - 目前只剩下 Eclipse Plugin, Netbean 與 KamaSphere Studio 的外掛已經無法下載
- 修改 mapred-site.xml 的參數,增加 mapper 與 reducer 的 slot 個數
<property> <name>mapred.tasktracker.map.tasks.maximum</name> <value>4</value> <property> <property> <name>mapred.tasktracker.reduce.tasks.maximum</name> <value>4</value> <property>
- https://developer.yahoo.com/hadoop/tutorial/module7.html
- 其他參數設定的參考
- 安裝 Ganglia
sudo apt-get -y install ganglia-webfrontend gmetad ganglia-monitor
公用環境
- 課後問題討論,建議優先至台灣 Hadoop 使用者討論區 http://forum.hadoop.tw 或臉書粉絲團 https://www.facebook.com/groups/hadoop.tw/ 進行討論。
Attachments (2)
- part-1.pdf (2.2 MB) - added by jazz 9 years ago.
- part-2.pdf (3.1 MB) - added by jazz 9 years ago.