Version 13 (modified by jazz, 9 years ago) (diff) |
---|
大數據與 Hadoop 開源系統軟體
上課地點
課程內容
2016-04-12
時段 課程內容 投影片
實作步驟補充資料 09:00-10:00 Big Data 處理技術與 Hadoop 簡介 投影片 * 重點一:減少資料搬運的頻寬成本跟時間成本
* 重點二:在地運算(Data Locality)10:00-12:00 淺談巨量資料專案的導入規劃與相關經驗分享 投影片
Self Learning
Hadoop 的三種模式與三種安裝方法 * http://hadoop.apache.org - Hadoop 專案官方首頁
* http://www.cloudera.com - RPM/DEB 套件庫 : 精誠知意圖(Etu)
* http://hortonworks.com - HDP for Windows : 趨勢騰雲(TCloud)
* http://www.mapr.com - MapR : 亦思科技如何自己建立練習環境 - CDH / HDP
* Cloudera Live - Hue 介面練習本土社群學習資源 * CCDH / CCAH 考試認證指南
* Hadoop.TW 技術討論區
* 臉書 Hadoop.TW 社團
* 歷史課程錄影
Hands-On Labs
單機模式(Local Mode)操作觀察 實作一 * http://koding.com/login
* 阿帕契基金會官網單機安裝流程偽分散式模式(Pseudo-Distributed Mode)操作觀察 實作二 * 官方 Hadoop 2.0 版的自動化安裝 全分散式模式(Full Distributed Mode)操作觀察 實作三 HDFS 基本指令操作 實作四 MapReduce 基本指令操作 實作五 Hadoop FileSystem API 原始碼觀察 實作六 WordCount 範例程式編譯 實作七
Homework
Basic ReverseIndex HW1 Extra PageRank CSIE Big Data Systems - Fall 2013 - Professor Shih-wei Liao
補充設定
- screenrc 範例
$ cat > ~/.screenrc <<EOF caption always "%{= wk} %{= KY} [%n]%t @ %H %{-} %= %{= KR} %l %{-} | %{= KG} %Y-%m-%d %{-} " hardstatus alwayslastline " %-Lw%{= Bw}%n%f %t%{-}%+Lw %=|" vbell off EOF
- 檢查 Java 記憶體使用量
top -p `pidof java | sed 's# #,#g'`
補充
- HDFS Explore
- 開發環境 IDE 與 Hadoop Plugin - 目前只剩下 Eclipse Plugin, Netbean 與 KamaSphere Studio 的外掛已經無法下載
- 修改 mapred-site.xml 的參數,增加 mapper 與 reducer 的 slot 個數
<property> <name>mapred.tasktracker.map.tasks.maximum</name> <value>4</value> <property> <property> <name>mapred.tasktracker.reduce.tasks.maximum</name> <value>4</value> <property>
- https://developer.yahoo.com/hadoop/tutorial/module7.html
- 其他參數設定的參考
- 安裝 Ganglia
sudo apt-get -y install ganglia-webfrontend gmetad ganglia-monitor
公用環境
- 課後問題討論,建議優先至台灣 Hadoop 使用者討論區 http://forum.hadoop.tw 或臉書粉絲團 https://www.facebook.com/groups/hadoop.tw/ 進行討論。
Attachments (2)
- part-1.pdf (2.2 MB) - added by jazz 9 years ago.
- part-2.pdf (3.1 MB) - added by jazz 9 years ago.