wiki:NTUOSS160412
大數據與 Hadoop 開源系統軟體

上課地點

課程內容

2016-04-12

時段 課程內容 投影片
實作步驟
補充資料
09:00-10:00 Big Data 處理技術與 Hadoop 簡介 投影片 * 重點一:減少資料搬運的頻寬成本跟時間成本
* 重點二:在地運算(Data Locality)
10:00-12:00 淺談巨量資料專案的導入規劃與相關經驗分享 投影片

Hands-On Labs

單機模式(Local Mode)操作觀察 實作一 * https://koding.com/Login
* 阿帕契基金會官網單機安裝流程
偽分散式模式(Pseudo-Distributed Mode)操作觀察 實作二 * 官方 Hadoop 2.0 版的自動化安裝
全分散式模式(Full Distributed Mode)操作觀察 實作三
HDFS 基本指令操作 實作四
MapReduce 基本指令操作 實作五
Hadoop FileSystem API 原始碼觀察 實作六
WordCount 範例程式編譯 實作七

Homework

ReverseIndex 作業
請自我挑戰的請參考 PageRank CSIE Big Data Systems - Fall 2013 - Professor Shih-wei Liao

自我學習

Hadoop 的三種模式與三種安裝方法 * http://hadoop.apache.org - Hadoop 專案官方首頁
* http://www.cloudera.com - RPM/DEB 套件庫 : 精誠知意圖(Etu)
* http://hortonworks.com - HDP for Windows : 趨勢騰雲(TCloud)
* http://www.mapr.com - MapR : 亦思科技
如何自己建立練習環境 - CDH / HDP
* Cloudera Live - Hue 介面練習
本土社群學習資源 * CCDH / CCAH 考試認證指南
* Hadoop.TW 技術討論區
* 臉書 Hadoop.TW 社團

補充設定

  • screenrc 範例
    $ cat > ~/.screenrc <<EOF
    caption always "%{= wk} %{= KY} [%n]%t @ %H %{-} %= %{= KR} %l %{-} | %{= KG} %Y-%m-%d %{-} "
    hardstatus alwayslastline " %-Lw%{= Bw}%n%f %t%{-}%+Lw %=|"
    vbell off
    EOF
    
  • 檢查 Java 記憶體使用量
    top -p `pidof java | sed 's# #,#g'`
    

課後討論

Last modified 8 years ago Last modified on Apr 11, 2016, 6:42:20 PM

Attachments (2)