Changes between Initial Version and Version 1 of Hinet120814


Ignore:
Timestamp:
Aug 7, 2012, 8:57:05 AM (12 years ago)
Author:
jazz
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • Hinet120814

    v1 v1  
     1{{{
     2#!html
     3<div style="text-align: center;"><big
     4 style="font-weight: bold;"><big><big>雲端平台Hadoop與MapReduce實作基礎班</big></big></big></div>
     5}}}
     6[[PageOutline]]
     7
     8= 預備知識 =
     9
     10 * 具 Linux 操作實務與 Java 程式語言基礎者尤佳。
     11
     12= 課程日期 =
     13
     14 * 101年08月14日~08月15日,共 2 天、計 12 小時 。
     15
     16= 課程內容 =
     17
     18 * [raw-attachment:wiki:Hinet120814:12-08-14_Big_Data_and_Hadoop.pdf 完整版投影片]
     19
     20== '''2012-08-14(二)''' ==
     21
     22 || 上午時段 || 課程內容 || 投影片 || 實作 || 補充資料 ||
     23 || 09:10~10:00 || 淺談海量資料的趨勢、挑戰與因應對策 || [raw-attachment:wiki:Hinet120702:part-1.pdf part-1] || || ||
     24 || 10:00~10:10 || 中場休息 || || || ||
     25 || 10:10~11:00 || 處理海量資料的資訊架構與關鍵技術 || [raw-attachment:wiki:Hinet120702:part-2.pdf part-2] || || ||
     26 || 11:00~11:10 || 中場休息 || || || ||
     27 || 11:10~12:00 || 實作一:Hadoop 單機安裝 || || [wiki:Hinet120702/Lab1 實作一][[BR]][wiki:Hinet120702/Lab2 實作二] || ||
     28 || 12:00~13:30 || 午餐、午休 || || || ||
     29 || 下午時段 || 課程內容 || 投影片 || 實作 || 補充資料 ||
     30 || 13:30~14:20 || Hadoop 簡介:緣起與術語 || [raw-attachment:wiki:Hinet120702:part-3.pdf part-3] || || ||
     31 || 14:20~14:30 || 中場休息 || || || ||
     32 || 14:30~15:20 || HDFS 觀念與指令解說 || [raw-attachment:wiki:Hinet120702:part-4.pdf part-4] || || ||
     33 || 15:20~15:30 || 中場休息 || || || ||
     34 || 15:30~16:20 || 實作二:HDFS 操作實務 || || [wiki:Hinet120702/Lab3 實作三][[BR]][wiki:Hinet120702/Lab4 實作四] || ||
     35
     36== '''2012-08-15(三)''' ==
     37
     38 || 上午時段 || 課程內容 || 投影片 || 實作 || 補充資料 ||
     39 || 09:10~10:00 || MapReduce 簡介 || [raw-attachment:wiki:Hinet120702:part-5.pdf part-5] || || ||
     40 || 10:00~10:10 || 中場休息 || || || ||
     41 || 10:10~11:00 || 實作三:MapReduce 範例操作 || || [wiki:Hinet120702/Lab5 實作五][[BR]][wiki:Hinet120702/Lab6 實作六] || ||
     42 || 11:00~11:10 || 中場休息 || || || ||
     43 || 11:10~11:30 || Hadoop 叢集安裝設定解說 || [raw-attachment:wiki:Hinet120702:part-6.pdf part-6] || || ||
     44 || 11:30~12:00 || 實作四:Hadoop 程式編譯實務 || || [wiki:Hinet120702/Lab7 實作七][[BR]][wiki:Hinet120702/Lab8 實作八] || ||
     45 || 下午時段 || 課程內容 || 投影片 || 實作 || 補充資料 ||
     46 || 13:30~14:00 || Hadoop 相關專案(1) Hadoop Streaming || [raw-attachment:wiki:Hinet120702:part-7.pdf part-7] || || ||
     47 || 14:00~14:20 || 實作五:Hadoop Streaming 操作練習 || || [wiki:Hinet120702/Lab9 實作九][[BR]][wiki:Hinet120702/Lab10 實作十] || ||
     48 || 14:20~14:30 || 中場休息 || || || ||
     49 || 14:30~15:00 || Hadoop 相關專案(2) - Pig || [raw-attachment:wiki:Hinet120702:part-8.pdf part-8] || || ||
     50 || 15:00~15:20 || 實作六:Pig Latin 操作練習 || || [wiki:Hinet120702/Lab11 實作十一] || ||
     51 || 15:20~15:30 || 中場休息 || || || ||
     52 || 15:30~16:00 || HBase 操作觀察 || || [wiki:Hinet120702/Lab12 實作十二] || ||
     53 || 16:00~16:20 || Hadoop 示範應用 - 抓抓龍(Crawlzilla) || [raw-attachment:wiki:Hinet120702:part-9.pdf part-9] || || ||
     54 ||  補充 || 實作七:抓抓龍安裝操作(示範) || || [wiki:Hinet120702/Lab13 實作十三] || ||
     55 ||  補充 || Hadoop 示範應用 - 雲端入侵日誌分析系統(ICAS) || [raw-attachment:wiki:Hinet120702:part-10.pdf part-10] || || ||
     56
     57= 參考資料 =
     58
     59 * Hadoop 常見應用領域:
     60   * [http://www-304.ibm.com/easyaccess/fileserve?contentid=217007 Data Intensive Analytics with Hadoop: A Look Inside]
     61   * 商業智慧
     62     * http://www.pentaho.com/ - Pentaho 這間 BI 公司是 Hadoop 技術的長期支持者
     63   * 金融業
     64     * 2010-10-12 : VISA 採用 Hadoop 做風險評估 - [http://www.slideshare.net/cloudera/hw09-large-scale-transaction-analysis HadoopWorld 2009 : Large Scale Transaction Analysis]
     65     * 中國信託
     66   * 電信業
     67     * 2011-06-12 : [http://www.ithome.com.tw/itadm/article.php?c=68023 中華電信用Hadoop技術分析通話明細]
     68   * 人力資源
     69     * [http://www.simplyhired.com/a/jobtrends/trend/q-xen%2C+hyper-v%2C+hbase%2C+hadoop SimplyHired 就業技能調查排行榜]
     70     * [http://www.indeed.com/jobtrends?q=xen%2C+hyper-v%2C+hbase%2C+hadoop&l= Indeed 就業技能調查排行榜]
     71   * 行銷趨勢
     72     * [http://www.eland.com.tw/solutions/opview_insight 意藍科技 雲端服務 OpView 品牌口碑雷達] - ([http://www.eland.com.tw/news/news/20100506 2010-05-06])
     73     * [http://www.i-buzz.com.tw/index.asp i-Buzz網路口碑研究中心]
     74   * 科學教育
     75     * 生資
     76       * [http://www.slideshare.net/mndoci/hadoop-for-bioinformatics Hadoop for Bioinformatics]
     77       * [http://cloudcomputing.sys-con.com/node/1869333 The Future of Hadoop in Bioinformatics]
     78       * [http://abhishek-tiwari.com/2010/08/mapreduce-and-hadoop-algorithms-in-bioinformatics-papers.html Mapreduce and Hadoop Algorithms in Bioinformatics Papers]
     79     * 統計
     80       * [https://mpi-inf.mpg.de/~rgemulla/publications/das10ricardo.pdf Ricardo: Integrating R and Hadoop]
     81       * [http://www.rhipe.org RHIPE: R and Hadoop Integrated Programming Environment]
     82
     83 * 免費課程 - 把類似今天的課程再聽一次
     84   * http://www.classcloud.org/media
     85 * Hadoop 進階程式設計相關資訊
     86   * [http://trac.nchc.org.tw/cloud/wiki/NCHCCloudCourse110721 雲端運算進階課程(一)@ 新竹 - Hadoop 進階程式設計與 HBase 資料庫整合實作]
     87   * [http://trac.nchc.org.tw/cloud/wiki/NCHCCloudCourse100928_2_IDE 編譯環境設定- 安裝 Eclipse 3.3.2 與 Hadoop 外掛程式]
     88   * [http://trac.nchc.org.tw/cloud/wiki/NCHCCloudCourse100928/Netbeans 安裝 Netbean 6.9.1 中文版與 KamaSphere Studio 外掛程式]
     89
     90= 問答集錦 =
     91
     92 1. 需求: 用 HBase 做日誌分析, 根據相同 Event 去計數某一時間區段的連線次數(或網路攻擊次數)
     93  * 建議: 參考 [http://sublogical.blogspot.tw/2011/10/cross-posted-from-my-company-blog-post.html HBase Storage and Pig] 採用 HBase 當儲存, 用 Pig 做上層 COUNT, JOIN 統計分析
     94  * [http://hbase.apache.org/book/schema.html Chapter 6. HBase and Schema Design] - HBase 官方文件對於設計 HBase Schema 的建議
     95 1. 運用 Hadoop 提供 PaaS 服務:
     96  * [http://www.snaplogic.com/solutions/bigdata/ SnapLogic SnapReduce] - 這間公司目標想把 Hadoop 變成更簡單,設計了圖形化介面來作 Map / Reduce 工作的規劃。
     97  * [http://www.youtube.com/watch?v=J9fSPwHT8o8 SnapReduce 的展示影片]
     98
     99= 課後練習 =
     100
     101 * 使用[http://trac.nchc.org.tw/cloud/wiki/Hadoop4Win Hadoop4Win] - 在 Windows 上安裝單機版 Hadoop 與 HBase 練習環境 ('''注意:僅供練習使用,請勿用於實際營運!''')
     102 * 使用 HBase 0.90 改寫以上範例 [http://trac.nchc.org.tw/cloud/wiki/waue/2011/0426  code example ]
     103 * [http://sourceforge.net/projects/drbl-hadoop/files/ DRBL-Hadoop Live CD] (CDH2, 0.20.x) - 國網中心 hadoop.nchc.org.tw 的底層作法,使用方法仍在整理中~但已足夠作為練習 Hadoop 的執行環境
     104 * 使用[http://www.cloudera.com/downloads/ Cloudera 提供的 VMWare Image] (CDH2, 0.20.x)
     105 * 使用[http://developer.yahoo.com/hadoop/tutorial/module3.html#vm Yahoo! Hadoop Tutorial 的 VMWare Image] (0.20.S)
     106 * 使用[http://code.google.com/intl/zh-TW/edu/parallel/tools/hadoopvm/index.html Google 提供的 Hadoop VMWare Image] (0.13,很舊了)
     107
     108= 公用環境 =
     109
     110 * 課後問題討論,建議優先至台灣 Hadoop 使用者討論區 http://forum.hadoop.tw 進行討論。
     111 * 需要 Hadoop 叢集環境,可至 http://hadoop.nchc.org.tw 申請帳號。
     112   * 申請步驟,請參閱[wiki:YMU110509/Lab1 截圖說明]
     113 * 關於公用叢集的幾個重要入口:
     114 * http://hadoop.nchc.org.tw - 實驗叢集入口網站
     115 * http://hadoop.nchc.org.tw/ganglia - 實驗叢集負載狀態
     116 * http://hadoop.nchc.org.tw:50030 - 實驗叢集正在執行與執行完畢的任務
     117 * http://hadoop.nchc.org.tw:50070 - 實驗叢集的硬碟空間狀態
     118 * http://hadoop.nchc.org.tw/hadoop-doc - Hadoop 相關說明文件
     119 * http://hadoop.nchc.org.tw/hadoop-doc/api/index.html - Hadoop 0.20.2 javadoc 文件
     120
     121= 輔助工具 =
     122
     123 * [http://portableapps.com/apps/internet/firefox_portable/localization Firefox Portable (繁體中文版)]
     124 * [http://azo-freeware.blogspot.com/2009/08/zoomit-40.html ZoomIt (簡報放大鏡)]
     125
     126 * 中華電信 hicloud 帳務 - 02-23445568