[hadoop-taiwan] Re: hadoop的 應用

  • From: Jimmy Kuo <kuo.yangyang@xxxxxxxxx>
  • To: hadoop-taiwan@xxxxxxxxxxxxx
  • Date: Wed, 24 Dec 2008 14:33:27 +0800



Jazz Yao-Tsung Wang 提到:
2008/12/24 Jimmy Kuo <kuo.yangyang@xxxxxxxxx>:
Google 有自家的系統,需要用 Hadoop 嗎 ?

Google 跟 IBM 合作提供給學校的實驗平台是採用 Hadoop 沒錯。
畢竟他自家的 GFS 跟 BigTable 只有 Open Document (論文) 沒有 Open Source。

確實是提供 Hadoop,我有拿到帳號,正在試玩中~
(2) 趨勢科技運用在掃毒上面(因為檔案很多,病毒碼比對又可以輕易分散運算)
新聞稿好像只有提趨勢用雲端技術,但沒明確說他是用 Hadoop
而且,個人感覺 "雲端技術" 這個字眼,有點被濫用了...

嗯,這樣說起來確實是如此。
我個人是比較好奇 Web Mail 的線上掃毒是怎麼處理的。

如果是我寫,應該不會 "預掃"
等 user 開信再即時掃,這樣似乎不必用到 cloud computing ?

(3) 國網中心目前用在網路入侵偵測的 Log 分析上。(資安)
我也看到一些應用在生物資訊方面的研究,
只是還沒有真正看到展示。
我們 Lab 會用在語音、弦律比對 (查詢) 上面,現在卡在怎麼跟 web 整合
Hadoop 的運作方式,似乎不合適要即時反應的應用,如 web,隨便送個  job 都 要幾十秒...
比較合適批次處理,如 Log 分析
當然,也可能是我對  Hadoop 還不夠了解,研究中~

確實目前整體上看起來,Hadoop 比較合適運用在 Near Time
或需要大量 Pre-processing 的應用上。
就像在電腦叢集上要達成 Real Time 運算,就不需要用排程器是一樣的道理。
同意。
要做 Real Time 應用除了演算法要寫成接受串流輸入,程式執行的方式也必須
是 Daemon 的模式。或許用 MPI 會比較恰當一點,因為這樣的即時分散式運算
強調的應該是即時訊息傳遞。
不能即時訊息傳遞,自然會限制一些應用
MPI 一般而言,也是要送入 scheduler (也可以不),以即時性來說,個人也覺得 不合適
程式也許要等個一、兩天才會排到 ... 然後 run 個十秒結束....

我個人也滿好奇,Hadoop 這樣的技術,如何在一般企業使用

題外話
Log 分析,可以試試 Splunk
http://www.splunk.com/

Jimmy

Jazz

Other related posts: