雲端運算基礎課程 (Hadoop簡介、安裝與範例實作)
課程資訊
- 上課時間: 2010/04/27 (二) ~ 2010/04/28 (三) 09:30 ~ 16:30 2 天,共計 12 個小時
- 上課地點: 國家高速網路與計算中心 新竹事業群(300 新竹市科學工業園區研發六路七號) <地圖> 電腦教室 B
- 報名網頁課程資訊
課程大綱
2010-04-27 (二)
上午時段 課程內容 投影片 實作步驟 錄影 / 補充資料 09:30~11:10 介紹課程 與 雲端運算簡介 Part-00, Part-01 1. Parallel Machine Learning Problems
2. 影像處理參考:吳冠龍先生,台大資工系通訊與多媒體實驗室
Image Selection for Large-Scale Flickr Photos using Hadoop
3. ACM 論文:Canonical image selection ...
4. Customizing InputFileFormats for Image Processing in Hadoop,Jeff Conner, Arizona State University11:10~11:20 休息 11:20~11:50 Hadoop簡介 Part-02 11:50~12:00 實作A: Hadoop 單機安裝與基本操作 實作A 下午時段 課程內容 投影片 實作步驟 錄影 / 補充資料 13:00~13:30 Hadoop Overview Part-03 13:30~14:30 Hadoop Distributed File System簡介 Part-04 14:30~14:40 實作B: HDFS 實用指令操作 實作B 14:40~14:50 休息 14:50~15:40 Map Reduce 介紹 Part-05 不同語言的 MapReduce 實作 15:40~16:00 實作C: 執行 MapReduce 基本運算 實作C 16:00~16:55 設定參數解析 Part-5.5 關於 master / slave 設定 16:55~17:00 回家前停止hadoop服務 停止Hadoop
2010-04-28 (三)
- 請先 啟動Hadoop
上午時段 課程內容 投影片 實作步驟 錄影 / 補充資料 09:00~10:00 Map Reduce 程式設計 Part-06 10:00~11:00 實作D: Hadoop 程式編譯與執行 實作D 1. 更多教材
2. Streaming 用法11:00~11:10 休息 11:10~12:00 用 Eclipse 開發 hadoop 程式 Demo 基於 NetBeans 的 MapReduce 開發環境 - Hadoop Studio 下午時段 課程內容 投影片 實作步驟 13:00~13:30 Hadoop 應用實例: 搜尋引擎 Nutch 簡介 Part-07 實作E 13:30~14:00 Hadoop 叢集安裝設定解析 Part-08 Yahoo Hadoop Tutorial:
Module 7: Managing a Hadoop Cluster
- 說明了小中大不同等級叢集可以做的 Hadoop 系統參數調整14:00~15:00 實作F: Hadoop 叢集安裝操作 實作F 15:00~15:30 實作G: Hadoop 叢集進階操作 實作G 15:30~15:40 休息 15:40~16:30 實作H:DRBL 快速佈屬 Hadoop Part-09 實作H DRBL-Hadoop Live CD 展示 ( 6 min ) 課程小結 Part-10
補充資料
- 基於 NetBeans 的 MapReduce 開發環境 - Karmasphere Studio for Hadoop - Karmasphere Studio for Hadoop is a MapReduce development environment (IDE) based on NetBeans.
- STEP 1: 下載 NetBeans IDE 6.8 - Windows/Linux/Mac OS X
- STEP 2: 參考 安裝步驟 文件,設定 JDK 路徑與安裝擴充套件
- STEP 3: 參考 基本入門 文件,學習如何使用 Karmasphere Studio for Hadoop 來開發 MapReduce 程式。目前感覺它的 Job Workflow Plugin 介面,對於初學者寫程式來說,還蠻不錯的,因為可以直接看到 InputFileFormat 的 Key 跟 Value 長怎樣。
- 備註:宣稱 Karmasphere Studio for Hadoop 可以支援跨平台工作部署 - Hadoop Clients and Operating System Portability
- 如何修改 Hadoop 原始碼:
- 請根據想要修改的對象,到 hadoop-*/src 找對應的原始碼(Ex. FairScheduler, NameNode, DataNode 等)
- 修改完回到 hadoop-* 目錄,下 ant 重新編譯。
- 論壇相關討論:要怎麼編譯 hadoop 的 scheduler 呢??
- Using MongoDb to store geographic data
- GIS 地理資訊系統的資料量是相當可觀的,但如何提供一個分散式的資料庫可以做資料查詢就是很多雲端系統應該要解決的問題。MongoDB 算是 NoSQL 資料庫實作的一支。
Last modified 14 years ago
Last modified on Jul 30, 2010, 5:12:02 PM
Attachments (12)
- 08.HadoopCluster.pdf (411.4 KB) - added by waue 15 years ago.
- 07.Nutch.pdf (396.2 KB) - added by waue 15 years ago.
- 20100427_hadoop基礎課程_ppt.zip (9.3 MB) - added by waue 15 years ago.
- 01.CloudIntro.pdf (2.7 MB) - added by jazz 15 years ago.
- 00.CourseOutline.pdf (109.4 KB) - added by jazz 15 years ago.
- 03.HadoopOverview.pdf (495.3 KB) - added by waue 15 years ago.
- 04.HDFS.pdf (530.8 KB) - added by waue 15 years ago.
- 05.MapReduce.pdf (477.7 KB) - added by waue 15 years ago.
- 05-5.HadoopSetupCommand.pdf (521.6 KB) - added by waue 15 years ago.
- 06.MR_Programing.pdf (383.5 KB) - added by waue 15 years ago.
- 02.HadoopIntro.pdf (458.9 KB) - added by waue 15 years ago.
- 06-2.eclipse.pdf (1.4 MB) - added by waue 15 years ago.