wiki:wade/torque

Version 22 (modified by wade, 14 years ago) (diff)

--

https://trac.nchc.org.tw/grid/wiki/wade/torque/教學

Introduction

Portable Batch System (PBS) 主要用在 Job scheduling,主要的功能為分配計算 tasks。這裡所使用的 Tarque 是以 open PBS 為基礎建立的一套實作方法。

Components of Batch System

  • Master node:

這個 node 會執行 pbs_server,用來接收、產生、管理及保護使用者的批次工作,它也可以根據系統的需求參與 tasks 執行。

這些 nodes 會執行 pbs_sched,用來工作排程、資源分配及節點管理。這些 nodes 讓使用者作為管理他們工作量的入口點,透過這些 nodes,使用者可以送出或是追縱 jobs,此外,有些系統甚至會預留一些 nodes 來做 interactive,例如測試或是故障檢修用。

  • Compute nodes:

這些 nodes 會執行 pbs_mon ,這些 nodes 就像可憐的驢子一樣默默的接收來自 pbs_server 交辦的批次工作,執行相關程式,最後將結果回傳給 pbs_server 。

  • Resources:

包含 high-speed networks, storage systems, license managers, etc。

Install

  • Environment:
    • Virtual Machine:Sun xVM VirtualBox 1.6.0
    • Operation System:Ubuntu 8.04 LTS
    • PBS:Torque 2.3.3
  • download:
    wget http://www.clusterresources.com/downloads/torque/torque-2.3.3.tar.gz
    
  • Extract and build:
    tar zxvf torque-2.3.3.tar.gz
    cd torque-2.3.3
    ./configure --prefix=/opt/torque-2.3.3
    make
    make install
    
    • ' configure: error: C compiler cannot create executables ' or ' C compiler cannot create executables '
      sudo apt-get install libc6-dev
      

Testing

$ echo "sleep 60; date" | /opt/pbs/bin/qsub
$ /opt/pbs/bin/qstat

陽明問題

  • 問題:
    $ pbsnodes -a
    
    bio035
        state = down
        np = 1
    
    • 看 log:
      $ vim /var/spool/torque/mom_logs/日期
      
      pbs_mom;n/a;mom_server_check_connection;connection to server bio037 timeout
      
  • 解法:
    • 參考:http://trac.nchc.org.tw/grid/wiki/jazz/09-09-11
    • 修改 /etc/hosts,在後面加上 bio037
      $ sudo vim /etc/hosts
      
      xxx.xxx.xxx.254 bio-eth0 bio037
      
    • 將 server host 複製底下的 client 的 /etc
      $ sudo /opt/drbl/sbin/drbl-cp-host /etc/hosts /etc
      
    • 把下面的 node 重開 pbs_mom。

Reference