2010-05-12
GNU R / Hadoop / GPU
- 這幾天在 hadoop 論壇上解決 Hadoop 執行矩陣運算的問題,心裡不禁懷疑純用 Hadoop MapReduce 來算矩陣,會不會比用原本就設計來計算矩陣的 SciLab, GNU Octave 或統計軟體 GNU R 相形遜色呢?? 從新檢視過去的紀錄,普渡大學的 RHIPE 這一個結合 R 跟 Hadoop 的 Java 套件是個令人好奇的東西。
- R v.s. Hadoop -
- 普渡大學的 RHIPE - R and Hadoop Integrated Processing - 2010 年五月都還有更新!!
- R 官方的 mapReduce 套件 - flexible mapReduce algorithm for parallel computation
- R 官方的 HadoopStreaming 套件 - Utilities for using R scripts in Hadoop streaming - 如果要用 R 跑 Hadoop Streaming 模式可以試試看。
Hadoop / Web Service
- Jaql - a new query language being developed for JSON data.
- http://code.google.com/p/jaql/ (2009-08-17, 2008-10-20)
- Doug Cutting 於 CIKM'08 (Conference Information and Knowledge Management 2008) 投影片介紹了兩個 Hadoop 延伸專案: Mahout 跟 Jaql
- 看了一下 JAQL Data Management 的語法,感覺有點類似 Pig,差別只在於針對的資料是 JSON 格式。在專案的簡介中也有提到它嘗試借 SQL, XQuery, LISP 跟 Pig Latin 的優點。感覺是寫簡單的 Java 程式,然後可以從 JSON 格式輸入檔,產生查詢結果也是 JSON 的工具。不太想是我想像中可以用 javascript 直接查詢 JSON 的 JSONDB。
Python / Hadoop / Neural Network
- 今天在搜尋 SciLab/GNU Octave 與 Hadoop / MapReduce 是否存在關聯時,意外找到 Emmanuel Goossaert 這個人,CV 看起來還蠻利害的,寫了很多基於 Python 語言的 Hadoop, SciLab, ANN 類神經網路的東西。
Data Analysis
- Hadoop 最常用在資料探勘與資料分析,或許漸漸地也會開始有人去發展這些資料分析工具與 Hadoop 平台的整合套件(槳糊)吧!!
- Data Analysis 常用的商業與自由軟體
- Comparison of data analysis packages: R, Matlab, SciPy, Excel, SAS, SPSS, Stata
- Statistics vs. Machine Learning, fight! - 哈!!當統計對上機器學習, 到底是演算法比較重要呢??還是機率統計比較重要呢??( 李開副:「一斤的資料比一兩的演算法重要」- 2008-05-06 )
Last modified 14 years ago
Last modified on May 12, 2010, 3:28:09 AM