= 2010-08-03 = == Hadoop == * [http://articles.sitepoint.com/article/scale-big-time-with-hadoop Scaling Big Time with Hadoop] * [http://wiki.apache.org/hadoop/Hive/GettingStarted#MovieLens_User_Ratings Getting Started page to add a large movie database to the Hive installation] * [[Image(http://articles.sitepoint.com/articleresources/2010-07-28-scaling-hadoop/figures/cluster.jpg)]] == Linux : System Security == * 最近幫陽明管的機器接連遭受 ssh 入侵攻擊,並發現系統在執行 scanssh 的程式。從 [http://www.pubbs.net/200907/debian/56352-are-these-scan-logs-dangerous-.html Are these scan logs dangerous ?] 這篇文章中學到原來可以用 debsums 檢查檔案 md5sum 正不正確,就來測試一下。 {{{ # apt-get install debsums # debsums -c }}} * debsums -c 會顯示出有被竄改過,而且是 deb 套件中的檔案。因為這樣跑才發現原來系統的 /usr/bin/ssh 跟 /usr/sbin/sshd 都被改過。所以重裝 openssh-client 跟 openssh-server 把被竄改過的 binary 蓋掉。 {{{ # apt-get --reinstall install openssh-client openssh-server }}} * 另外跑 rkhunter 的時候看到兩個 warning 關於 /usr/bin/unhide 這個指令,原來是可以拿來檢查是否有隱藏在 proc, sys 或者隱藏的 TCP/UDP 連線。當安裝 rkhunter 的時候也會安裝 unhide 套件,所以不用過度擔心那個 warning。 {{{ # /usr/bin/unhide-linux26 proc # /usr/bin/unhide-linux26 sys # /usr/bin/unhide-tcp }}}