Context Navigation

Changes between Version 20 and Version 21 of jazz/Hadoop_Lab3

Timestamp:: Mar 25, 2009, 11:51:53 PM (17 years ago)
Author:: waue
Comment:: --

Legend:

: Unmodified
: Added
: Removed
: Modified

jazz/Hadoop_Lab3

-                      v20
+                      v21
 == 前言 ==
  * 您手邊有兩台電腦，假設剛剛操作的電腦為node1,另一台則為node2。則稍後的環境如下
+ * 您手邊有兩台電腦，假設剛剛操作的電腦為Node 1 ,另一台則為Node 2 。則稍後的環境如下
  || || '''管理Data的身份''' || '''管理Job的身份''' ||
  || '''node1''' || namenode(master)& datanode || tasktracker(slave)||
  || '''node2''' || datanode(slave) || jobtracker(master)& tasktracker||
+ || '''Node 1 ''' || namenode(master)& datanode || tasktracker(slave)||
+ || '''Node 2 ''' || datanode(slave) || jobtracker(master)& tasktracker||
  * 這個實做會架設運作在叢集環境上的Hadoop，因此若是你的電腦還存在著之前的實做一的環境，請先作step 0，以移除掉之前的設定。
+ * 以下Node_1_IP_Addr代表你node1的ip位址，Node_2_IP_Addr為你node2的ip位址，請查清楚之後作設定
+ * 為了簡化操作步驟，'''大部分的指令在node1執行即可，不過step2 的安裝java則需要在node2上實機操作喔！'''
+ * 以下node01代表你Node 1 的ip位址，node02為你Node 2 的ip位址，請查清楚之後作設定
+ * 為了簡化操作步驟，'''大部分的指令在Node 1 執行即可，不過step2 的安裝java則需要在Node 2 上實機操作喔！'''
+ * 維持好習慣，請幫你待會要操作的主機設root密碼
+{{{
+~$ sudo passwd
+}}}
 === 清除所有在實做一作過的環境 ===
  * node1 （有操作過實做一的電腦）執行
+ * 在 Node 1  （有操作過實做一的電腦）上操作
 {{{
 ~$ cd ~
 …
 ~$ rm -rf ~/.ssh
 }}}
+ * change root password
+{{{
+~$ sudo passwd
+}}}
+ * check IP adress of Node 1 and Node 2
+ == step 0. 設定機器的ip & hostname 資訊 ==
+ * 查詢Node 1 與 Node 2 上的IP資訊
 {{{
 ~$ /sbin/ifconfig
 }}}
+ * edit /etc/hosts
+ * 編輯 /etc/hosts 檔
 {{{
 ~$ sudo su -
+~# echo "192.168.100.1 Node_1_IP_Addr" >> /etc/hosts
+~# echo "192.168.100.2 Node_2_IP_Addr" >> /etc/hosts
+}}}
+ * share /etc/hosts from Node 1 to Node 2
+{{{
+~# scp /etc/hosts root@Node2_IP_Addr:/etc/hosts
+~# echo "192.168.100.1 node01" >> /etc/hosts
+~# echo "192.168.100.2 node02" >> /etc/hosts
+}}}
+ * 把剛剛設定好 Node 1 的/etc/hosts 分享到 Node 2
+{{{
+~# scp /etc/hosts root@Node 2 _IP_Addr:/etc/hosts
 ~# exit
 }}}
  == step 1. 設定兩台機器登入免密碼 ==
  * 在node1上操作
+ * 在Node 1 上操作
 {{{
 …
 ~$ ssh-keygen -t rsa -f ~/.ssh/id_rsa -P ""
 ~$ cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys
 ~$ scp -r ~/.ssh Node_2_IP_Addr:~/
 ~$ ssh Node_2_IP_Addr
+~$ scp -r ~/.ssh node02:~/
+~$ ssh node02
 ~$ alias ssh='ssh -o "StrictHostKeyChecking no"'
 ~$ ssh Node_1_IP_Addr
+~$ ssh node01
 ~$ exit
 ~$ exit
 }}}
  * 完成後請登入確認不用輸入密碼，（第一次登入需按 yes ，第二次就可以直接登入到系統），以免日後輸入密碼不只手軟而已....
+ * 完成後請登入確認不用輸入密碼，（第一次登入需按 yes ，第二次就可以直接登入到系統），以免日後輸入密碼不隻手軟而已....
  == step 2. 安裝java ==
  * 為兩台電腦安裝java
    * node1 & node2 都要操作以下指令
+   * Node 1  & Node 2  都要操作以下指令
 {{{
 ~$ sudo apt-get purge java-gcj-compat
 …
  == step 3. 下載安裝Hadoop到node1 ==
  * 先在node1上安裝，其他node的安裝等設定好之後在一起作
+ == step 3. 下載安裝Hadoop到Node 1  ==
+ * 先在Node 1 上安裝，其他node的安裝等設定好之後在一起作
 {{{
 …
  == step 4. 設定 hadoop-env.sh ==
  * node1上用gedit 編輯 conf/hadoop-env.sh
+ * Node 1 上用gedit 編輯 conf/hadoop-env.sh
 {{{
 …
 export HADOOP_HOME=/opt/hadoop
 export HADOOP_CONF_DIR=/opt/hadoop/conf
 export HADOOP_LOG_DIR=/home/hadooper/logs
 export HADOOP_PID_DIR=/home/hadooper/pids
+export HADOOP_LOG_DIR=/tmp/hadoop/logs
+export HADOOP_PID_DIR=/tmp/hadoop/pids
 }}}
    * 注意，在此實做中，我們多設定了HADOOP_PID_DIR及HADOOP_LOG_DIR的參數，並且把值寫入到我們hadooper的家目錄中，此舉並非完全必要，但一個目的是介紹更多hadoop-env.sh內的參數，另一目的為讓log,pid等常變資料與hadoop家目錄分離
 …
   <property>
     <name>fs.default.name</name>
     <value>hdfs://Node_1_IP_Addr:9000/</value>
+    <value>hdfs://node01:9000/</value>
     <description> </description>
   </property>
   <property>
     <name>mapred.job.tracker</name>
     <value>Node_2_IP_Addr:9001</value>
+    <value>node02:9001</value>
     <description>  </description>
   </property>
 …
 }}}
    * 注意！ 我們多加了一個參數hadoop.tmp.dir，讓預設的中介資料存放在/tmp/hadoop/ 而不是/tmp/ 下，更多內容可以看conf/hadoop-default.xml
    * 注意！fs.default.name = hdfs://Node_1_IP_Addr:9000/ ；而mapred.job.tracker = Node_2_IP_Addr:9001，看出差異了嗎！一個有指hdfs://，一個沒有，重要！易混淆。
+   * 注意！fs.default.name = hdfs://node01:9000/ ；而mapred.job.tracker = node02:9001，看出差異了嗎！一個有指hdfs://，一個沒有，重要！易混淆。
  == step 6. 設定masters及slaves ==
 …
 /opt/hadoop$ gedit conf/slaves
 }}}
  原本內容只有localhost一行，請刪除此行並換上Node1及node2的ip
+ 原本內容只有localhost一行，請刪除此行並換上Node 1 及Node 2 的ip
 {{{
 #!sh
+Node_1_IP_Addr
+Node_2_IP_Addr
+node01
+node02
 }}}
 == step 7. Hadoop_Home內的資料複製到其他主機上 ==
  * 在node1上對遠端node2作開資料夾/opt/hadoop及權限設定
 {{{
 /opt/hadoop$ ssh Node_2_IP_Addr "sudo mkdir /opt/hadoop"
 /opt/hadoop$ ssh Node_2_IP_Addr "sudo chown -R hadooper:hadooper /opt/hadoop"
 }}}
  * 複製node1的hadoop資料夾到node2上
 {{{
 /opt/hadoop$ scp -r /opt/hadoop/* Node_2_IP_Addr:/opt/hadoop/
+ * 在Node 1 上對遠端Node 2 作開資料夾/opt/hadoop及權限設定
+{{{
+/opt/hadoop$ ssh node02 "sudo mkdir /opt/hadoop"
+/opt/hadoop$ ssh node02 "sudo chown -R hadooper:hadooper /opt/hadoop"
+}}}
+ * 複製Node 1 的hadoop資料夾到Node 2 上
+{{{
+/opt/hadoop$ scp -r /opt/hadoop/* node02:/opt/hadoop/
 }}}
 …
  * 以上我們已經安裝及設定好 Hadoop 的叢集環境，接著讓我們來啟動 Hadoop ，首先還是先格式化hdfs，在node1 上操作
+ * 以上我們已經安裝及設定好 Hadoop 的叢集環境，接著讓我們來啟動 Hadoop ，首先還是先格式化hdfs，在Node 1  上操作
 {{{
 …
 /************************************************************
 STARTUP_MSG: Starting NameNode
 STARTUP_MSG:   host = Node_2_IP_Addr
+STARTUP_MSG:   host = node02
 STARTUP_MSG:   args = [-format]
 STARTUP_MSG:   version = 0.18.3
 …
 /03/23 20:19:47 INFO dfs.NameNode: SHUTDOWN_MSG:
 /************************************************************
 SHUTDOWN_MSG: Shutting down NameNode at Node_2_IP_Addr
+SHUTDOWN_MSG: Shutting down NameNode at node02
 ************************************************************/
 }}}
 …
  * bin/start-dfs.sh腳本會參照namenode上${HADOOP_CONF_DIR}/slaves文件的內容，在所有列出的slave上啟動datanode。
    * 在node1上，執行下面的命令啟動HDFS：
+   * 在Node 1 上，執行下面的命令啟動HDFS：
 {{{
 …
 ------
    * http://Node_1_IP_Addr:50070/ - Hadoop DFS 狀態
+   * http://node01:50070/ - Hadoop DFS 狀態
    * [[Image(datanode.png)]]
 ------
    * ps: 然而JobTracker還沒啟動，因此 http://Node_2_IP_Addr:50030/ 網頁無法顯示
+   * ps: 然而JobTracker還沒啟動，因此 http://node02:50030/ 網頁無法顯示
  * bin/start-mapred.sh腳本會參照jobtracker上${HADOOP_CONF_DIR}/slaves文件的內容，在所有列出的slave上啟動tasktracker。
    * 用ssh 操作node2執行下面的命令啟動Map/Reduce：
 {{{
 /opt/hadoop$ ssh Node_2_IP_Addr "/opt/hadoop/bin/start-mapred.sh"
+   * 用ssh 操作Node 2 執行下面的命令啟動Map/Reduce：
+{{{
+/opt/hadoop$ ssh node02 "/opt/hadoop/bin/start-mapred.sh"
 }}}
  * 啟動之後, jobtracker也正常運作囉！
 ------
    * http://Node_2_IP_Addr:50030/ - Hadoop 管理介面
+   * http://node02:50030/ - Hadoop 管理介面
    * [[Image(job.png)]]
 ------
 …
 == step 10. 停止hadoop ==
  * 在node1上，執行下面的命令停止HDFS：
+ * 在Node 1 上，執行下面的命令停止HDFS：
 {{{
 /opt/hadoop$ bin/stop-dfs.sh
 …
    * bin/stop-dfs.sh腳本會參照namenode上${HADOOP_CONF_DIR}/slaves文件的內容，在所有列出的slave上停止namenode
  * 在node1上，執行下面的命令停止Map/Reduce：
+ * 在Node 1 上，執行下面的命令停止Map/Reduce：
 {{{
 /opt/hadoop$ bin/stop-mapred.sh
 …
 == 練習 ==
  * 看 conf/hadoop-default.xml 的更多內容
  * 和別人組隊，組成4台node的cluster，其中node1 只當 namenode ，node2 只當 jobtracker，而node3, node4 兩台電腦則身兼 datanode及tasktracker的工作。
+ * 和別人組隊，組成4台node的cluster，其中Node 1  只當 namenode ，Node 2  只當 jobtracker，而node3, node4 兩台電腦則身兼 datanode及tasktracker的工作。