Version 7 (modified by jazz, 16 years ago) (diff) |
---|
2009-04-06
Hadoop / MapReduce
- 關於 MapReduce:
- Introduction to Amazon Elastic MapReduce
- Finding Similar Items with Amazon Elastic MapReduce, Python, and Hadoop Streaming - 用 Hadoop 做相似度分析,可應用在生物資訊領域。
- Hadoop Map/Reduce 教程
- Improving MapReduce Performance in Heterogeneous Environments - MapReduce 在異質環境下的效能改良研究
- MapReduce: Simplified Data Processing on Large Clusters - Google 的 MapReduce 論文
- Hadoop Wiki 上關於 Amazon EC2 的使用說明
- [限制] Hadoop 0.18.3 不支援 Stream 下的數值排序 - Streaming should provide an option for numerical sort of keys
Cloud Computing and Science
- 去年在 eScience 2008 看的一些演講錄影,現在論文也已經可以在 IEEE Xplore 上找到了。
- 這兩篇是講述將 MapReduce 運用在生物資訊領域的實例。
- 跟虛擬化、生物影像、生物資訊、Mircoarray有關:
- 有幾篇則跟 MapReduce 有關,如: MapReduce for Data Intensive Scientific Analyses
- 跟虛擬化有關的
- 跟生物統計 / R 相關
- 此外,在 SourceForge 上也有一些應用專案:
- 當然我最關切的是"Amazon 提供公共資料庫"的舉動對整個學術生態所造成的影響。此舉跟國網中心提供科學資料庫的定位十分相似,雖然 Amazon 在台灣區推廣有本土化方面的阻撓,但是如果真的有心朝國際化發展的話,台灣的學生應該要多學著使用這些服務,去做更大型的運算才對。這邊的討論提供了許多參考連結。