Jazz Yao-Tsung Wang 提到:
2008/12/24 Jimmy Kuo <kuo.yangyang@xxxxxxxxx>:Google 有自家的系統,需要用 Hadoop 嗎 ?Google 跟 IBM 合作提供給學校的實驗平台是採用 Hadoop 沒錯。 畢竟他自家的 GFS 跟 BigTable 只有 Open Document (論文) 沒有 Open Source。
確實是提供 Hadoop,我有拿到帳號,正在試玩中~
(2) 趨勢科技運用在掃毒上面(因為檔案很多,病毒碼比對又可以輕易分散運算)新聞稿好像只有提趨勢用雲端技術,但沒明確說他是用 Hadoop 而且,個人感覺 "雲端技術" 這個字眼,有點被濫用了...嗯,這樣說起來確實是如此。 我個人是比較好奇 Web Mail 的線上掃毒是怎麼處理的。
如果是我寫,應該不會 "預掃" 等 user 開信再即時掃,這樣似乎不必用到 cloud computing ?
(3) 國網中心目前用在網路入侵偵測的 Log 分析上。(資安) 我也看到一些應用在生物資訊方面的研究, 只是還沒有真正看到展示。我們 Lab 會用在語音、弦律比對 (查詢) 上面,現在卡在怎麼跟 web 整合 Hadoop 的運作方式,似乎不合適要即時反應的應用,如 web,隨便送個 job 都 要幾十秒... 比較合適批次處理,如 Log 分析 當然,也可能是我對 Hadoop 還不夠了解,研究中~確實目前整體上看起來,Hadoop 比較合適運用在 Near Time 或需要大量 Pre-processing 的應用上。 就像在電腦叢集上要達成 Real Time 運算,就不需要用排程器是一樣的道理。
同意。
要做 Real Time 應用除了演算法要寫成接受串流輸入,程式執行的方式也必須 是 Daemon 的模式。或許用 MPI 會比較恰當一點,因為這樣的即時分散式運算 強調的應該是即時訊息傳遞。
不能即時訊息傳遞,自然會限制一些應用MPI 一般而言,也是要送入 scheduler (也可以不),以即時性來說,個人也覺得 不合適
程式也許要等個一、兩天才會排到 ... 然後 run 個十秒結束.... 我個人也滿好奇,Hadoop 這樣的技術,如何在一般企業使用 題外話 Log 分析,可以試試 Splunk http://www.splunk.com/ Jimmy
Jazz