雲端運算核心技術 Hadoop 與 MapReduce 上機練習 (加映場)
2010-04-07 (三)
上午時段 課程內容 投影片 補充資料 13:30~14:00 Hadoop簡介 Part-01 14:10~14:30 Hadoop 安裝與設定解析 Part-02 - 單機 Windows 嚐鮮實驗環境 - Hadoop4Win
- Cloudera Hadoop 虛擬機器14:30~15:00 HDFS 操作與 MapReduce 範例程式展示 Demo-01
Demo-02
2010-05-01 (六)
時段 課程內容 投影片 補充資料 從 C++ 到 Java
- public, private, field, method
- this
- constructor: default, overloaded
- Garbage collection
- finalize (destructor)
- static, final
- packagePart-03
實作一0. The Java Tutorials
1. Classes and Objects: A Deeper Look (類別與物件)
2. Object-Oriented Programming: Inheritance (繼承)
3. Object-Oriented Programming: Polymorphism (多型)
4. Thinking in Java 2e 中文版
5. Thinking in Java 4e 原文版
6. 入門練習一
6. 入門練習二
6. 入門練習三Map Reduce 程式設計
- WordCount 程式逐行解說Part-04 VirtualBox Part-05
補充資料
- STEP 1 : 使用 Cloudera Hadoop 虛擬機器 作練習
- STEP 2 : 申請 21 台 hadoop 實驗環境帳號:http://hadoop.nchc.org.tw
- STEP 3 : 深入了解 Hadoop 的參考資料:http://classcloud.org/media 歷史課程錄影(兩天)
- STEP 4 : 作業討論區:http://forum.hadoop.tw
開發工具
- 補充:用 Eclipse 開發 hadoop 程式
- 基於 NetBeans 的 MapReduce 開發環境 - Karmasphere Studio for Hadoop - Karmasphere Studio for Hadoop is a Sample screenshot MapReduce development environment (IDE) based on NetBeans.
- STEP 1: 下載 NetBeans IDE 6.8 - Windows / Linux / Mac OS X
- STEP 2: 參考 安裝步驟 文件,設定 JDK 路徑與安裝擴充套件
- STEP 3: 參考 基本入門 文件,學習如何使用 Karmasphere Studio for Hadoop 來開發 MapReduce 程式。目前感覺它的 Job Workflow Plugin 介面,對於初學者寫程式來說,還蠻不錯的,因為可以直接看到 InputFileFormat 的 Key 跟 Value 長怎樣。
- 備註:宣稱 Karmasphere Studio for Hadoop 可以支援跨平台工作部署 - Hadoop Clients and Operating System Portability
作業題組
- 題組一與題組二,請擇一作答。
- 題組一:
- 使用 Cloudera Hadoop VM 練習完成 inverse index 題目撰寫。
- 標準題:因為有多數同學不熟悉 Java 程式語言,因此第一次作業主要以環境安裝、實作練習為主,請各位同學繳交實驗報告一份。(80%)
- 加分題:以 Cloudera Hadoop VM 那一份待運算的資料,比較 inverse index 在單機虛擬機器的執行時間與在 21 台實驗環境上的執行時間。(20%)
- 提示:開啟 Cloudera Hadoop VM 瀏覽器,選 exercise 的 inverse index,題目說明的最後一行有重要提示。
- 參考報告格式:
- 實驗步驟
- 標準題結果:(1) shakespear 資料集跑 inverse index 執行結果前 20 筆;(2) 從 JobTracker 網頁( http://localhost:50030 )查詢執行時間。
- 加分題結果:(1) shakespear 資料集跑 inverse index 執行結果前 20 筆;(2) 從 JobTracker 網頁( http://hadoop.nchc.org.tw:50030 )查詢執行時間。
- 繳交時間:六月二日(三)
- 繳交方式:以個人為單位,將報告 e-mail 至 jazz@…
- 題組二:
- 已知 java 語法中,extends 代表繼承自父類別,implement 代表實作某介面(Interface,類似 C++ 多重繼承),請根據 WordCount 範例程式(wordcount.java),繪製 UML 類別圖(參考下圖,實線代表繼承,虛線代表實作)。(20%) 註:繪製 UML 可以使用 Violet UML Editor
- 以 hadoop 0.20.2 預設的 conf 目錄為輸入,使用 hadoop fs -put conf input 上傳檔案至 HDFS,請嘗試在 wordcount 範例程式中加入 system.out.println,並回答 map() 函數輸入的 key 內容為何?(20%)
- 乘上題,根據 wordcount 執行過程,當單機執行時,請問同時有幾個 mapper 被執行?並請參考以下圖形,繪製單機運作時 mapper 與 reducer 運作順序。(20%)
- 將 wordcount 範例移植到國網中心 hadoop.nchc.org.tw 上運行,請問同時有幾個 mapper 被執行?並請參考以下圖形,繪製單機運作時 mapper 與 reducer 運作順序。(20%)
- 試根據單機執行與叢集執行的 JobTracker 網頁( http://localhost:50030 & http://hadoop.nchc.org.tw:50030 )查詢總執行時間,並比較兩者之時間差異。(20%)
- 繳交時間:六月二日(三)
- 繳交方式:以個人為單位,將報告 e-mail 至 jazz@…
Last modified 14 years ago
Last modified on May 13, 2010, 12:07:44 PM
Attachments (13)
- JavaHTP6e_08.ppt (1.0 MB) - added by jazz 15 years ago.
- JavaHTP6e_09.ppt (960.5 KB) - added by jazz 15 years ago.
- JavaHTP6e_10.ppt (2.8 MB) - added by jazz 15 years ago.
- Thinking_In_Java_4th.pdf (6.1 MB) - added by jazz 15 years ago.
- ThinkingInJavaCh1-9_big5.pdf (4.6 MB) - added by jazz 15 years ago.
- Part-01.pdf (731.3 KB) - added by jazz 15 years ago.
- Part-02.pdf (276.7 KB) - added by jazz 15 years ago.
- Time2.java (4.2 KB) - added by jazz 15 years ago.
- Time2Test.java (2.8 KB) - added by jazz 15 years ago.
- Part-03.pdf (361.3 KB) - added by jazz 15 years ago.
- Part-04.pdf (383.5 KB) - added by jazz 15 years ago.
- Part-05.pdf (6.4 MB) - added by jazz 15 years ago.
- Test.java (404 bytes) - added by jazz 15 years ago.