Changes between Initial Version and Version 1 of jazz/11-05-24


Ignore:
Timestamp:
May 24, 2011, 10:37:55 PM (13 years ago)
Author:
jazz
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • jazz/11-05-24

    v1 v1  
     1= 2011-05-24 =
     2
     3== Hadoop ==
     4
     5 * [http://www.syncsort.com/Hadoop.aspx Syncsort DMExpress for Hadoop Acceleration] - hadoop 真的越來越多改良。
     6  * 這間公司主要做的是改善 Sort 的部份。
     7  * [[Image(http://www.syncsort.com/Portals/0/Quotes/comScore-Hadoop-benchmarkLG.png)]]
     8  * [[Image(http://www.syncsort.com/Portals/0/Quotes/DMExpress-Hadoop.jpg)]]
     9
     10 * [http://hadoopblog.blogspot.com/2011/05/realtime-hadoop-usage-at-facebook-part.html Realtime Hadoop usage at Facebook -- Part 1] - 臉書工程師近期寫的論文,介紹為何 Facebook 選擇使用 Hadoop 跟 HBase
     11
     12== Hadoop for Windows ==
     13
     14 * [http://blogs.msdn.com/b/mariok/archive/2011/05/11/hadoop-in-azure.aspx Hadoop in Azure] - 介紹如何在 Windows Azure 平台上佈署 Hadoop 叢集。看起來跟 [https://issues.apache.org/jira/browse/HADOOP-6767 HADOOP-6767] "Patch for running Hadoop on Windows without Cygwin" 這個 patch 的作法類似,都是透過 Java Service Wrapper 有關。只是 HADOOP-6767 用的是 GPL / Commercial 混合授權的 [http://wrapper.tanukisoftware.org/ JSW (Java Service Wrapper)],而這篇文章的作者用的是[http://yajsw.sourceforge.net/ YAJSW(Yet Another Java Service Wrapper)]。但是基本精神很清楚,就是盡可能地用 Windows 的 CMD 或 BAT 來取代原本 hadoop 這隻 bash shell script。如此就可以不依賴 Cygwin 環境,並且把 Hadoop Service 以 Windows Service 方式跑在背景。
     15
     16== Big Data ==
     17
     18 * [http://www.ecommercetimes.com/story/For-FOSS-Firms-Data-Means-Dollars-72471.html For FOSS Firms, Data Means Dollars] - 這篇文章主要是在訪問 Cloudera 但是我覺得有一個標題下得很好。資料才是重點,軟體不是重點。這再次顯示了雲端時代,也是就是資料的時代(Entering the Age of Data)。
     19{{{
     20Focus on Data, Not Software
     21}}}
     22 * 所以文章最後提到說「軟體現在只是一種方法(Software is now a means, not an end in and of itself)」
     23
     24 * [http://it.tmcnet.com/news/2011/05/17/5515689.htm Most Data Integration Tools are not Meeting 'Big Data' Demands] - 企業資料倉儲(Enterprise Data Warehouse),前端需要資料整合工具(Data Integration Tool),或者 ETL 工具來整合不同的資料來源。不過目前看起來這些資料整合工具,未必符合 Big Data 的需求。
     25
     26 * [http://www.sys-con.com/node/1835758/print Big Data Meets Data Virtualization]
     27  * [http://www.compositesw.com/assets/demos/data_virtualization/DV_preso.html Composite Data Virtualization Presentation] - Composite Software 這間公司對於資料虛擬化(Data Virtualization)的定義,其實就是在講資料倉儲技術(怎麼把多個不同的資料來源,變成類似資料庫)
     28
     29 * [http://www.readwriteweb.com/enterprise/2011/05/from-big-data-to-nosql-the-rea.php From Big Data to NoSQL: The ReadWriteWeb Guide to Data Terminology (Part 1)]
     30
     31== Open Data ==
     32
     33 * [http://www.law.upenn.edu/blogs/regblog/2011/05/open-government-and-its-impact.html Open Government and Its Impact]
     34
     35 * [http://radar.oreilly.com/print/2011/05/strataweek-royal-society-science-trains-hadoop.html Why is UK train departure data not open data?] - 哈,說明[http://placr.co.uk/blog/2011/05/why-train-departure-information-is-not-currently-open-data/ 為何英國的火車出發時間不是公開資料],答案是原本營運該系統的是私人公司,只開放 API 不公開資料,而且 API 必須花錢買才行。但是當火車營運單位變成國家公共的,那麼資料是否也該變成公共的呢?這真是個弔詭的問題呀~
     36
     37== OSQA ==
     38
     39 * http://www.osqa.net/ - The Open Source Q&A System
     40 * GPL 授權,使用 Python 與 Django 撰寫而成。整體感覺跟
     41 * 今天看到 [http://sql-performance-explained.com/ SQL Performance Explained] 這本介紹 SQL 效能調校免費電子書的作者 Markus Winard 的另一個網站 http://ask.use-the-index-luke.com/ 是用 OSQA 架設的。
     42 * [[Image(http://www.osqa.net/wp-content/uploads/2010/04/gallery-osqa.png)]]
     43 * 看完之後覺得:好像老了~經營社群還在用 phpBB 論壇~