{{{ #!html
Hadoop與MapReduce實作基礎班
}}} [[PageOutline]] = 課程資訊 = * 上課時間: 2011/03/03~04 09:10 ~ 17:20 2 天,共計 16 個小時 * 上課地點: 板橋訓練所 板橋市民族路 168 號,或各營運處遠距教室 綜合大樓 301 電腦教室 = 課程大綱 = * 目標: {{{ #!text Hadoop 是一個開源雲端運算平台,包含:HDFS分散式檔案系統、MapReduce 分散式平行運算框架。 搭配 HBase 分散式資料庫,恰可以比擬谷歌(Google)的三項關鍵技術。 MapReduce 架構是一種 特別適用於處理單一功能性的大量資料處理技術,它可以運行在數千部甚至上萬部伺服器上,同時共同來 解決某一問題,因此 MapReduce 正好可拿來專門應用在雲端運算需要的大型分散資料處理工作。例如: 網頁資料搜尋、廣告業務、惡頁網頁分析等。本課程將針對這三項主要技術的實作做介紹,透過講師帶領 學員實際上機操作,熟悉Hadoop 的平台架設與 MapReduce 程式設計技巧。 }}} * 對象 {{{ #!text 程式開發人員(具Java程式設計能力)、系統管理人員(具備Linux管理經驗) }}} == '''2011-03-03''' == * [raw-attachment:wiki:Hinet110303:11-03-03_Day_1.pdf 第一天投影片 PDF 檔] || 上午時段 || 課程內容 || 投影片 || 實作步驟 || 錄影 / 補充資料 || || 09:10~10:00 || Hadoop 簡介:緣起與術語 || [raw-attachment:wiki:Hinet110303:part-1.pdf Part-01] || || 1. [http://hadoop.apache.org 認識 Hadoop 官方網站][[BR]]2. [http://hadoop.apache.org/common/releases.html#Download 學習下載 Hadoop 壓縮檔][[BR]]3. [http://wiki.apache.org/hadoop/PoweredBy 有誰在用 Hadoop] || || 10:00~10:20 || Hadoop 單機安裝[[BR]](for Windows XP Users) [[BR]] 方法一:[http://hadoop.apache.org/common/docs/current/single_node_setup.html 官方單機安裝步驟] [[BR]] 方法二:使用 [wiki:Hadoop4Win hadoop4win] [[BR]] 方法三:使用 [#虛擬機器 虛擬機器(VM)] || [http://hadoop.apache.org/common/docs/current/single_node_setup.html 文件一][[BR]][wiki:NCHCCloudCourse100802/Lab1 文件二] || [wiki:Hadoop4Win#安裝方法 實作一] || <註> Hadoop 的三種模式:[[BR]](1) 單機模式(Local Mode/Standalone Mode) [[BR]] (2) 偽分散模式(Pseudo-Distributed Mode) [[BR]] (3) 完整分散模式(Fully-Distributed Mode) || || 10:20~10:30 || 中場休息 || || || || 10:30~11:20 || HDFS 簡介 || [raw-attachment:wiki:Hinet110303:part-2.pdf Part-02] || || || || 11:20~11:50 || HDFS 操作練習 || || [wiki:Hadoop4Win#測試方法 牛刀小試][[BR]][wiki:NCHCCloudCourse100802/Lab2 實作二] || || || 下午時段 || 課程內容 || 投影片 || 實作步驟 || 錄影 / 補充資料 || || 13:30~14:20 || HDFS 常見故障排解 || || [wiki:Hinet110303/Demo1 示範展示] || 1. 狀況一:名稱空間不一致[[BR]](namespaceId mismatch) [[BR]] 2. 狀況二:進入安全模式(safe mode) [[BR]] 3. 狀況三:區塊遺失(missing blocks) || || 14:20~14:30 || 中場休息 || || || || || 14:30~15:00 || MapReduce 簡介:基本概念 || [raw-attachment:wiki:Hinet110303:part-3.pdf Part-03] || || 1. [http://en.wikipedia.org/wiki/Functional_Programming 函數編程(Functional Programming)] [[BR]] 2. [http://labs.google.com/papers/mapreduce.html Google MapReduce 論文] [[BR]] 3. [http://code.google.com/intl/zh-TW/edu/parallel/mapreduce-tutorial.html Google 校園教學] || || 15:00~15:20 || MapReduce 範例操作 || || [wiki:Hadoop4Win#測試方法 牛刀小試][[BR]][wiki:NCHCCloudCourse100802/Lab3 實作三] || || || 15:20~15:30 || 中場休息 || || || || 15:30~16:00 || MapReduce 程式設計 101 || [raw-attachment:wiki:Hinet110303:part-3.pdf Part-03] || || 1. [http://hadoop.apache.org/common/docs/r0.20.2/api/index.html?overview-summary.html Hadoop 0.20.2 API 線上文件] || || 16:00~17:00 || 從範例學 MapReduce || || [wiki:NCHCCloudCourse100802/Lab4 實作四] || 1. 閱讀 Hadoop 範例程式 !WordCount || == '''2011-03-04''' == * [raw-attachment:wiki:Hinet110303:11-03-04_Day_2.pdf 第二天投影片 PDF 檔] || 上午時段 || 課程內容 || 投影片 || 實作步驟 || 錄影 / 補充資料 || || 09:10~09:40 || 安裝 !VirtualBox || [raw-attachment:wiki:Hinet110303:part-4.pdf Part-04] || || || || 09:40~10:20 || Hadoop 叢集安裝 [[BR]] (for !VirtualBox Single Node) || [raw-attachment:wiki:Hinet110303:part-5.pdf Part-05] || || 1. 使用 [http://drbl-hadoop.sf.net DRBL-hadoop Live CD] [[BR]] 2. [wiki:Hadoop_Lab7 Linux 純手工打造參考步驟] [[BR]] 3. 參考 [http://www.cloudera.com/downloads/ Cloudera 套件 CDH2/CDH3] || || 10:20~10:30 || 中場休息 || || || || 10:30~11:20 || Hadoop 相關專案(1) [[BR]] - Hadoop Streaming || [raw-attachment:wiki:Hinet110303:part-6.pdf Part-06] || [wiki:NCHCCloudCourse100928/Lab1 實作五] || 1. [wiki:Streaming 用 PHP / Python 跑 Hadoop Streaming] || || 11:20~12:00 || Hadoop 相關專案(2) [[BR]] - HBase 簡介 || [raw-attachment:wiki:Hinet110303:part-6.pdf Part-06] || || 1. [http://hbase.apache.org HBase 官方網站] || || 下午時段 || 課程內容 || 投影片 || 實作步驟 || 錄影 / 補充資料 || || 13:30~14:20 || Hadoop 開發環境 Eclipse 與 Netbean Plugin || || [wiki:NCHCCloudCourse100928/Netbeans 實作六] || 1. [http://www.hadoopstudio.org KarmaSphere Hadoop Studio] [[BR]] 2. [wiki:NCHCCloudCourse100928_2_IDE Eclipse 3.3.2 與 Hadoop 外掛] || || 14:20~14:30 || 中場休息 || || || || || == 虛擬機器 == * 使用[http://www.cloudera.com/downloads/ Cloudera 提供的 VMWare Image] (CDH2, 0.20.x) * 使用[http://developer.yahoo.com/hadoop/tutorial/module3.html#vm Yahoo! Hadoop Tutorial 的 VMWare Image] (0.20.S) * 使用[http://code.google.com/intl/zh-TW/edu/parallel/tools/hadoopvm/index.html Google 提供的 Hadoop VMWare Image] (0.13,很舊了)