= 黑肚龍 Haduzilla = * 導入 Hadoop 的步驟: 1. 硬體規格選擇 2. 安裝叢集環境 3. 進行效能測試與調校 4. 實際營運 * [理念] 系統營運管理本身就已經是一門學問了~若能'''將過去的營運經驗化為管理制度與標準作業流程(SOP)''',對產業推動也是有貢獻的! == 安裝叢集環境 == == 效能測試與調校 == == 實際營運 == * 硬碟空間不足 -> 造成 NameNode 的 fsimage 無法寫入 * Action 1 : 歷史 Log 檔的蒐集、壓縮與分析 * Action 2 : Ganglia 搭配 Nagios 進行 Event 通報 * 記憶體 HEAP Size 不足,已經開始使用 SWAP -> 整體效能不彰 * Action 1 : Ganglia 搭配 Nagios 進行 Event 處理 - (1) GC (2) Drop Cache * 網路問題 * Q: 當有大量資料上傳時,容易發生 drop packets - 待確認!! 是否與 Switch 的 Buffer 設定有關? * Multi-Tenancy(多租戶) 環境 * 帳號申請流程 * 帳號管理 * NIS ? LDAP ? OpenID 整合? * 帳號預設政策 * 家目錄預設硬碟空間 Quota? * 帳號的生命周期 * 多久之後失效?多久沒使用進行通報?失效用戶的家目錄資料備份? == 常見問題 == * 產生過多的 IOWait 造成系統反應緩慢 * 記憶體不足: {{{ [1786800.621065] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message. }}}