= 2010-05-12 = == GNU R / Hadoop / GPU == * 這幾天在 hadoop 論壇上解決 Hadoop 執行矩陣運算的問題,心裡不禁懷疑純用 Hadoop MapReduce 來算矩陣,會不會比用原本就設計來計算矩陣的 [http://www.scilab.org/ SciLab], [http://www.gnu.org/software/octave/ GNU Octave] 或統計軟體 [http://www.r-project.org GNU R] 相形遜色呢?? 從新檢視過去的紀錄,[http://www.stat.purdue.edu/rhipe/ 普渡大學的 RHIPE] 這一個結合 R 跟 Hadoop 的 Java 套件是個令人好奇的東西。 * R v.s. Hadoop - * [http://www.stat.purdue.edu/rhipe/ 普渡大學的 RHIPE] - R and Hadoop Integrated Processing - 2010 年五月都還有更新!! * [http://cran.r-project.org/web/packages/mapReduce/ R 官方的 mapReduce 套件] - flexible mapReduce algorithm for parallel computation * [http://cran.r-project.org/web/packages/HadoopStreaming R 官方的 HadoopStreaming 套件] - Utilities for using R scripts in Hadoop streaming - 如果要用 R 跑 Hadoop Streaming 模式可以試試看。 * R v.s. GPU - * [http://cran.r-project.org/web/packages/gputools gputools] - A few GPU enabled functions * [https://gforge.nbic.nl/projects/rgpu/ RGPU] - == Hadoop / Web Service == * [http://www.jaql.org/ Jaql] - a new query language being developed for JSON data. * http://code.google.com/p/jaql/ ([wiki:jazz/09-08-17 2009-08-17], [wiki:jazz/08-10-20 2008-10-20]) * Doug Cutting 於 CIKM'08 (Conference Information and Knowledge Management 2008) 投影片介紹了兩個 Hadoop 延伸專案: Mahout 跟 Jaql * 看了一下 [http://www.analyticalway.com/?tag=hadoop JAQL Data Management] 的語法,感覺有點類似 Pig,差別只在於針對的資料是 JSON 格式。在專案的[http://code.google.com/p/jaql/wiki/JaqlOverview 簡介]中也有提到它嘗試借 SQL, XQuery, LISP 跟 Pig Latin 的優點。感覺是寫簡單的 Java 程式,然後可以從 JSON 格式輸入檔,產生查詢結果也是 JSON 的工具。不太想是我想像中可以用 javascript 直接查詢 JSON 的 [http://lloyd.github.com/jsondb/ JSONDB]。 == Python / Hadoop / Neural Network == * 今天在搜尋 [http://www.scilab.org SciLab]/[http://www.gnu.org/software/octave/ GNU Octave] 與 Hadoop / MapReduce 是否存在關聯時,意外找到 [http://goossaert.com/ Emmanuel Goossaert] 這個人,CV 看起來還蠻利害的,寫了很多基於 Python 語言的 Hadoop, !SciLab, ANN 類神經網路的東西。 == Data Analysis == * Hadoop 最常用在資料探勘與資料分析,或許漸漸地也會開始有人去發展這些資料分析工具與 Hadoop 平台的整合套件(槳糊)吧!! * [http://www.analyticalway.com/?tag=software Data Analysis 常用的商業與自由軟體] * [http://anyall.org/blog/2009/02/comparison-of-data-analysis-packages-r-matlab-scipy-excel-sas-spss-stata/ Comparison of data analysis packages: R, Matlab, SciPy, Excel, SAS, SPSS, Stata] * [http://anyall.org/blog/2008/12/statistics-vs-machine-learning-fight/ Statistics vs. Machine Learning, fight!] - 哈!!當統計對上機器學習, 到底是演算法比較重要呢??還是機率統計比較重要呢??( 李開副:「一斤的資料比一兩的演算法重要」- 2008-05-06 )