[hadoop-taiwan] RE: [hadoop-taiwan] Re: hadoop的應 用

  • From: 曹漢清(Brian) <briantsao@xxxxxxxxxx>
  • To: <hadoop-taiwan@xxxxxxxxxxxxx>
  • Date: Wed, 24 Dec 2008 17:00:20 +0800

嗯!我也是一樣很好奇

一般的公司或是企業如何使用Hadoop技術

所以才發起這個問題,

請教這方面有經驗的人

 

From: hadoop-taiwan-bounce@xxxxxxxxxxxxx 
[mailto:hadoop-taiwan-bounce@xxxxxxxxxxxxx] On Behalf Of Jimmy Kuo
Sent: Wednesday, December 24, 2008 2:33 PM
To: hadoop-taiwan@xxxxxxxxxxxxx
Subject: [hadoop-taiwan] Re: hadoop的應用

 



Jazz Yao-Tsung Wang 提到: 

2008/12/24 Jimmy Kuo  <mailto:kuo.yangyang@xxxxxxxxx> <kuo.yangyang@xxxxxxxxx>:
  

Google 有自家的系統,需要用 Hadoop 嗎 ?
    

 
Google 跟 IBM 合作提供給學校的實驗平台是採用 Hadoop 沒錯。
畢竟他自家的 GFS 跟 BigTable 只有 Open Document (論文) 沒有 Open Source。
 
  

確實是提供 Hadoop,我有拿到帳號,正在試玩中~



(2) 趨勢科技運用在掃毒上面(因為檔案很多,病毒碼比對又可以輕易分散運算)
      

新聞稿好像只有提趨勢用雲端技術,但沒明確說他是用 Hadoop
而且,個人感覺 "雲端技術" 這個字眼,有點被濫用了...
    

 
嗯,這樣說起來確實是如此。
我個人是比較好奇 Web Mail 的線上掃毒是怎麼處理的。
 
  

如果是我寫,應該不會 "預掃"
等 user 開信再即時掃,這樣似乎不必用到 cloud computing ?




(3) 國網中心目前用在網路入侵偵測的 Log 分析上。(資安)
我也看到一些應用在生物資訊方面的研究,
只是還沒有真正看到展示。
      

我們 Lab 會用在語音、弦律比對 (查詢) 上面,現在卡在怎麼跟 web 整合
Hadoop 的運作方式,似乎不合適要即時反應的應用,如 web,隨便送個  job 都 要幾十秒...
比較合適批次處理,如 Log 分析
當然,也可能是我對  Hadoop 還不夠了解,研究中~
    

 
確實目前整體上看起來,Hadoop 比較合適運用在 Near Time
或需要大量 Pre-processing 的應用上。
就像在電腦叢集上要達成 Real Time 運算,就不需要用排程器是一樣的道理。
  

同意。



要做 Real Time 應用除了演算法要寫成接受串流輸入,程式執行的方式也必須
是 Daemon 的模式。或許用 MPI 會比較恰當一點,因為這樣的即時分散式運算
強調的應該是即時訊息傳遞。
  

不能即時訊息傳遞,自然會限制一些應用
MPI 一般而言,也是要送入 scheduler (也可以不),以即時性來說,個人也覺得不合適
程式也許要等個一、兩天才會排到 ... 然後 run 個十秒結束....

我個人也滿好奇,Hadoop 這樣的技術,如何在一般企業使用

題外話
Log 分析,可以試試 Splunk
http://www.splunk.com/

Jimmy




 
Jazz
  

Other related posts: