wiki:NTUOSS160412

Version 13 (modified by jazz, 9 years ago) (diff)

--

大數據與 Hadoop 開源系統軟體

上課地點

課程內容

2016-04-12

時段 課程內容 投影片
實作步驟
補充資料
09:00-10:00 Big Data 處理技術與 Hadoop 簡介 投影片 * 重點一:減少資料搬運的頻寬成本跟時間成本
* 重點二:在地運算(Data Locality)
10:00-12:00 淺談巨量資料專案的導入規劃與相關經驗分享 投影片

Self Learning

Hadoop 的三種模式與三種安裝方法 * http://hadoop.apache.org - Hadoop 專案官方首頁
* http://www.cloudera.com - RPM/DEB 套件庫 : 精誠知意圖(Etu)
* http://hortonworks.com - HDP for Windows : 趨勢騰雲(TCloud)
* http://www.mapr.com - MapR : 亦思科技
如何自己建立練習環境 - CDH / HDP
* Cloudera Live - Hue 介面練習
本土社群學習資源 * CCDH / CCAH 考試認證指南
* Hadoop.TW 技術討論區
* 臉書 Hadoop.TW 社團
* 歷史課程錄影

Hands-On Labs

單機模式(Local Mode)操作觀察 實作一 * http://koding.com/login
* 阿帕契基金會官網單機安裝流程
偽分散式模式(Pseudo-Distributed Mode)操作觀察 實作二 * 官方 Hadoop 2.0 版的自動化安裝
全分散式模式(Full Distributed Mode)操作觀察 實作三
HDFS 基本指令操作 實作四
MapReduce 基本指令操作 實作五
Hadoop FileSystem API 原始碼觀察 實作六
WordCount 範例程式編譯 實作七

Homework

Basic ReverseIndex HW1
Extra PageRank CSIE Big Data Systems - Fall 2013 - Professor Shih-wei Liao

補充設定

  • screenrc 範例
    $ cat > ~/.screenrc <<EOF
    caption always "%{= wk} %{= KY} [%n]%t @ %H %{-} %= %{= KR} %l %{-} | %{= KG} %Y-%m-%d %{-} "
    hardstatus alwayslastline " %-Lw%{= Bw}%n%f %t%{-}%+Lw %=|"
    vbell off
    EOF
    
  • 檢查 Java 記憶體使用量
    top -p `pidof java | sed 's# #,#g'`
    

補充

公用環境

Attachments (2)