Changes between Version 4 and Version 5 of 0428Hadoop_Lab4


Ignore:
Timestamp:
Apr 27, 2009, 5:23:51 PM (15 years ago)
Author:
jazz
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • 0428Hadoop_Lab4

    v4 v5  
    99 * 某些情況下,後來的環境也許會跟之前配置的不同,比如說,原本只有五台機器架設hadoop,但是也許老闆今天心血來潮,又撥了五台電腦給你。在接續之前的環境動態的擴增節點的方法,請看以下作法。
    1010
    11  == 1.0 說明 ==
     11== 1.0 說明 ==
     12
    1213 * 要新增的節點上,hadoop版本與設定檔要與原先的相同
    1314 * 是否能連到正確的位址取決於conf/hadoop-site.xml內的jobTracker, Namenode資訊是否正確  (目前測試結果與conf/slave、masters無關)
    1415
    15  == 1.1 加入datanode ==
     16== 1.1 加入datanode ==
    1617
    1718 * 在要加入的節點上面下此指令
     
    2425starting datanode, logging to /tmp/hadoop/logs/hadoop-waue-datanode-Dx7200.out
    2526}}}
    26  == 1.2 加入 taskTracker ==
     27
     28== 1.2 加入 taskTracker ==
     29
    2730 * 是否能連到正確的namenode取決於conf/hadoop-site.xml,目前測試結果與conf/slave、masters無關
    2831{{{
     
    3639
    3740-----
     41
    3842= 狀況二: 怎麼讓我的HDFS內資料均勻分散於各個Node上 =
     43
    3944 * 下面指令用於分析數據塊分佈和重新平衡!DataNode上的數據分佈
    4045{{{
     
    5156Balancing took 186.0 milliseconds
    5257}}}
     58
    5359------
    5460
    55  = 狀況三:如何讓已上線服務的Hadoop進行升級並且不失去以前的資料 =
     61= 狀況三:如何讓已上線服務的Hadoop進行升級並且不失去以前的資料 =
     62
    5663 * 假設從原本的hadoop 0.16升級到hadoop 0.18
    5764 * 如果把conf/這個資料夾至於$Hadoop_home目錄下的話,一旦換版本就連conf也被一併換掉,但無論hadoop的版本新舊,其實設定檔及其資訊是可以共用的。
    58  == step 1. 停止hdfs ==
     65
     66== step 1. 停止hdfs ==
     67
    5968 * 先看狀態
    6069{{{
     
    7180}}}
    7281
    73  == Step 2. 鍊結新版本hadoop ==
     82== Step 2. 鍊結新版本hadoop ==
     83
    7484 * 把conf 移至/opt/conf ,hadoop 0.16 與 hadoop 0.18用 ln 做捷徑代換。
    7585 * 以下假設你已經下載好hadoop0.18並解壓縮後,資料夾名稱為hadoop-0.18.3
     
    8191}}}
    8292
    83  == step 3. 設置環境變數==
     93== step 3. 設置環境變數 ==
     94
    8495 * 由於conf已不在hadoop_home內,因此記得匯入conf/hadoop-env.sh的參數
    8596 * 填入hadoop-env.sh 內$HADOOP_CONF_DIR正確路徑,並匯入資訊
     
    8899}}}
    89100
    90  == step 4. 每個節點都部署新版本的Hadoop ==
     101== step 4. 每個節點都部署新版本的Hadoop ==
     102
    91103 * 若有多個node的話,則每個node的hadoop版本都要統一,否則會出現問題
    92104
    93  == step 5. 啟動 ==
     105== step 5. 啟動 ==
     106
    94107{{{
    95108$ bin/start-dfs.sh -upgrade
     
    99112
    100113-------
    101  = 狀況四:如何讓已上線服務的Hadoop進行降級並且不失去以前的資料 =
     114
     115= 狀況四:如何讓已上線服務的Hadoop進行降級並且不失去以前的資料 =
     116
    102117 * 此情況與狀況三相反,因此作法類似狀況三,下面的狀況假設設定檔已在/opt/conf內,並且/opt內也都有hadoop-0.16 與 hadoop-0.18.3 兩個資料夾,而且節點只有一台。
    103  == step 1. 在原本停止集群 ==
     118
     119== step 1. 停止 HDFS ==
     120
    104121{{{
    105122$ cd /opt/hadoop
    106123$ bin/stop-dfs.sh
    107124}}}
    108  == step 2. 部署老版本的Hadoop ==
     125
     126== step 2. 部署老版本的Hadoop ==
     127
    109128{{{
    110129$ rm /opt/hadoop
     
    112131}}}
    113132
    114  == step 3. 退回之前版本 ==
     133== step 3. 退回之前版本 ==
     134
    115135{{{
    116136$ bin/start-dfs.sh -rollback
     
    118138
    119139-----
    120  = 狀況五:我的HDFS檔案系統是否正常 =
     140
     141= 狀況五:我的HDFS檔案系統是否正常 =
     142
    121143 * 在此介紹HDFS文件系統檢查工具 "bin/hadoop fsck"
    122144
     
    178200-----
    179201
    180  = 狀況六:我的系統似乎跑太多Job,我要幫他減肥 =
    181 
    182  == step 1. 把所有程序列出來 ==
     202= 狀況六:我的系統似乎跑太多Job,我要幫他減肥 =
     203
     204== step 1. 把所有程序列出來 ==
     205
    183206 * 可到JobTracker:50030網頁來看程序的Jobid
    184207 * 或用指令印出所有程序
     
    196219job_200904021140_0006   2       1238658644666   waue
    197220}}}
    198  == step 2. more detail ==
     221
     222== step 2. more detail ==
     223
    199224 * 查看工作狀態
    200225{{{
     
    219244...略
    220245}}}
    221  == step 3. 殺很大、殺不用錢 ==
    222  * 終止正在執行的程序,如 id為 job_200904021140_0001
     246
     247== step 3. 殺很大、殺不用錢 ==
     248
     249 * 終止正在執行的程序,如 id 為 job_200904021140_0001
    223250{{{
    224251$ bin/hadoop job -kill job_200904021140_0001
    225252}}}
    226253--------
    227  = 狀況七:怎麼看目前的Hadoop版本 =
     254
     255= 狀況七:怎麼看目前的Hadoop版本 =
     256
    228257 * 印出目前的hadoop 版本
    229258{{{
     
    238267
    239268-----
    240  = 狀況八:我要設定HDFS的帳戶及配額 =
    241  == step 1. 先設定各使用者的預設資料夾,屬性及讀寫權限
     269= 狀況八:我要設定HDFS的帳戶及配額 =
     270
     271== step 1. 先設定各使用者的預設資料夾,屬性及讀寫權限 ==
     272
    242273 * hdfs的權限有owner, group, other三種
    243274 * 而用戶的身份取決於client上的使用者 (用 whoami),群組為(bash -c groups)
     
    259290dfs.umask = 022
    260291}}}
    261  == step2. 設定配額 ==
     292
     293== step2. 設定配額 ==
    262294
    263295 * 目錄配額是對目錄樹上該目錄下的名字數量做硬性限制