[[PageOutline]] [https://trac.nchc.org.tw/grid/wiki/wade/torque/教學] = Introduction = Portable Batch System (PBS) 主要用在 Job scheduling,主要的功能為分配計算 tasks。這裡所使用的 Tarque 是以 open PBS 為基礎建立的一套實作方法。 = Components of Batch System = * Master node: 這個 node 會執行 pbs_server,用來接收、產生、管理及保護使用者的批次工作,它也可以根據系統的需求參與 tasks 執行。 * Submit/Interactive nodes: 這些 nodes 會執行 pbs_sched,用來工作排程、資源分配及節點管理。這些 nodes 讓使用者作為管理他們工作量的入口點,透過這些 nodes,使用者可以送出或是追縱 jobs,此外,有些系統甚至會預留一些 nodes 來做 interactive,例如測試或是故障檢修用。 * Compute nodes: 這些 nodes 會執行 pbs_mon ,這些 nodes 就像可憐的驢子一樣默默的接收來自 pbs_server 交辦的批次工作,執行相關程式,最後將結果回傳給 pbs_server 。 * Resources: 包含 high-speed networks, storage systems, license managers, etc。 = Install = * Environment: * Virtual Machine:Sun xVM !VirtualBox 1.6.0 * Operation System:Ubuntu 8.04 LTS * PBS:Torque 2.3.3 * download: {{{ wget http://www.clusterresources.com/downloads/torque/torque-2.3.3.tar.gz }}} * Extract and build: {{{ tar zxvf torque-2.3.3.tar.gz cd torque-2.3.3 ./configure --prefix=/opt/torque-2.3.3 make make install }}} * ' configure: error: C compiler cannot create executables ' or ' C compiler cannot create executables ' {{{ sudo apt-get install libc6-dev }}} * 可參考:[grid:source:drbl-biocluster/BioCluster_Setup.sh BioCluster_Setup.sh] = Testing = {{{ $ echo "sleep 60; date" | /opt/pbs/bin/qsub $ /opt/pbs/bin/qstat }}} = 陽明問題 = * 問題: { $ pbsnodes -a bio035 state = down np = 1 { 看 log: { $ vim /var/spool/torque/mom_logs/日期 pbs_mom;n/a;mom_server_check_connection;connection to server bio037 timeout } bio032 state = free * 解法: * 參考:http://trac.nchc.org.tw/grid/wiki/jazz/09-09-11 * 修改 /etc/hosts,在後面加上 bio037 {{{ $ sudo vim /etc/hosts xxx.xxx.xxx.254 bio-eth0 bio037 }}} * 將 server host 複製底下的 client 的 /etc {{{ $ sudo /opt/drbl/sbin/drbl-cp-host /etc/hosts /etc }}} * 把下面的 node 重開 pbs_mom。 = Reference = * [https://trac.nchc.org.tw/grid/wiki/jazz/09-09-11] * [https://trac.nchc.org.tw/grid/wiki/jazz/09-11-02 站內教學] * [https://trac.nchc.org.tw/grid/wiki/jazz/drbl-torque script撰寫] * [https://trac.nchc.org.tw/grid/wiki/jazz/09-06-29 安裝相關] * [http://www.clusterresources.com/pages/products/torque-resource-manager.php Torque home page] * [http://www.globusconsortium.org/tutorial/ch2/ 友組推薦網站] * Queuing System, 吳長興, 國家高速網路與計算中心 2007 年度第一期教育訓練課程 CLUSTER/GRID 基礎研習營 p133-p164 * [影片][https://cms.nchc.org.tw/course_material/NCHC0024/html/_frame.htm 吳長興 2004 年「PC Cluster 整體性課程研習」主講「Queue & Management Systems」] (限用 IE 開啟)