文章內(nèi)容

“大數(shù)據(jù)”的價值——以Hadoop為核心

發(fā)布時間: 2012/8/2 14:24:00

面對海量的業(yè)務數(shù)據(jù)，Hadoop和其他工具正在視圖揭示深奧的企業(yè)與外部數(shù)據(jù)的關鍵內(nèi)幕。

在追求競爭優(yōu)勢的無止境征程中，企業(yè)開始求助于企業(yè)與外部數(shù)據(jù)的大型信息庫來發(fā)現(xiàn)趨勢、統(tǒng)計數(shù)據(jù)以及其他幫助決定下一步行動的全面、精確的信息。這些數(shù)據(jù)以及相關工具、平臺和分析技術常常被稱之為“大數(shù)據(jù)”（Big Data）。如今，“大數(shù)據(jù)”這一術語在技術人員和IT經(jīng)理等群體中變得越來越流行。

雖然決策者意識到“大數(shù)據(jù)”中存在的價值，但對大多數(shù)企業(yè)而已，這一直是一種難以得到的價值。但這正是 IT部門可以發(fā)揮作用的地方。IT部門可以開發(fā)讓研究人員能夠深入大型數(shù)據(jù)中進行分析，并發(fā)現(xiàn)重要趨勢的服務。換句話說，IT將證明自己是使“大數(shù)據(jù)”的承諾變?yōu)楝F(xiàn)實的催化劑。

“大數(shù)據(jù)”已經(jīng)在多個領域證明了它的重要性和價值。像美國國家海洋與大氣管理局（NOAA）、美國國家航空航天局（NASA）這樣的研究機構、多家醫(yī)藥公司和多家能源公司都積累了大量的數(shù)據(jù)，現(xiàn)在每天都在利用“大數(shù)據(jù)”技術從這些數(shù)據(jù)中獲取價值。

NOAA利用“海量數(shù)據(jù)”進行氣象、生態(tài)系統(tǒng)、天氣和商務研究。NASA則將“大數(shù)據(jù)”用于航空和其他領域。醫(yī)藥公司和能源公司利用“大數(shù)據(jù)”獲得更真實的結果，例如藥品測試和地球物理分析�！都~約時報》使用“大數(shù)據(jù)”工具進行文本分析和Web信息挖掘。迪斯尼則利用它們關聯(lián)和了解跨不同商店、主題公園和Web資產(chǎn)的客戶行為。

“大數(shù)據(jù)”對今天企業(yè)的價值還體現(xiàn)在另外一方面。大型機構面臨著維護海量結構化和非結構化數(shù)據(jù)（從數(shù)據(jù)倉庫中的交易數(shù)據(jù)，到雇員的微博，從供應商記錄到管理文件）的需要，以遵從政府的法規(guī)。最近的幾場官司更是對這種需求起到了推波助瀾的作用，它們促使企業(yè)保留大量的文檔、電子郵件和其他在打官司時實施電子發(fā)現(xiàn)（e-Discovery）可能需要的電子通信記錄（例如即時消息和IP電話）。

也許，那些追逐“大數(shù)據(jù)”的機構面臨的最大挑戰(zhàn)是獲得一種平臺，這種平臺可以保存與訪問所有當前與未來的信息，并高性價比地在線提交信息供分析之用。這意味著一種高可伸縮的平臺。這類平臺由存儲技術、查詢語言、分析工具、內(nèi)容分析工具以及傳輸基礎設施（其中有很多需要由IT部門部署和維護運營的設備）構成。

目前有許多獲得這些工具的專有與開源資源。這些工具常常來自新興廠商，但也有像亞馬遜和谷歌這樣的知名云技術公司。事實上，云的使用解決了在數(shù)據(jù)存儲和計算能力方面“大數(shù)據(jù)”的可伸縮性問題。但是，“大數(shù)據(jù)”不一定采用“自助式”的部署。IBM和EMC等大廠商同樣提供用于“大數(shù)據(jù)”項目的工具，這些工具的費用會很高，企業(yè)需要付出更多的部署成本。

以Hadoop為核心

在開源領域中，Hadoop可算是大名鼎鼎。Hadoop是由Apache軟件基金會管理的一個項目，包含由谷歌驅動的、用于構建整合、組合和了解數(shù)據(jù)的平臺的技術。

從技術上看，Hadoop由兩項關鍵服務構成：采用Hadoop分布式文件系統(tǒng)（HDFS）的可靠數(shù)據(jù)存儲服務，以及利用一種叫做MapReduce技術的高性能并行數(shù)據(jù)處理服務。這兩項服務的共同目標是，提供一個使對結構化和復雜數(shù)據(jù)的快速、可靠分析變?yōu)楝F(xiàn)實的基礎。在許多案例中，企業(yè)將Hadoop與老的IT系統(tǒng)部署在一起，從而能夠以有力的新方式組合新舊數(shù)據(jù)集合。Hadoop讓企業(yè)可以根據(jù)自有信息和問題定制，更容易地分析和研究復雜數(shù)據(jù)。

Hadoop運行在商用獨立的服務群集上。你可以隨時添加或刪除Hadoop群集中的服務器。Hadoop系統(tǒng)會檢測和補償任何服務器上出現(xiàn)的硬件或系統(tǒng)問題。換句話說，Hadoop是自愈系統(tǒng)。在出現(xiàn)系統(tǒng)變化或故障時，它仍可以運行大規(guī)模的高性能處理任務，并提供數(shù)據(jù)。

雖然Hadoop提供了數(shù)據(jù)存儲和并行處理平臺，但其真正的價值來自于這項技術的添加件、交叉集成和定制實現(xiàn)。為此，Hadoop還提供向這一平臺增加功能性和新能力的子項目，具體如下：

■Hadoop Common：支持其他Hadoop子項目的通用工具。

■Chukwa：管理大型分布式系統(tǒng)的數(shù)據(jù)采集系統(tǒng)。

■HBase：支持大型表格結構化數(shù)據(jù)存儲的可伸縮、分布式數(shù)據(jù)庫。

■HDFS：向應用數(shù)據(jù)提供高吞吐量訪問的分布式文件系統(tǒng)。

■Hive：提供數(shù)據(jù)匯總和隨機查詢的數(shù)據(jù)倉庫基礎設施。

■MapReduce：用于對計算群集上的大型數(shù)據(jù)集合進行分布式處理的軟件框架。

■Pig：用于并行計算的高級數(shù)據(jù)流語言和執(zhí)行框架。

■ZooKeeper：用于分布式應用的高性能協(xié)調(diào)服務。

Hadoop平臺的多數(shù)實現(xiàn)至少包括其中的一些子項目，因為這些子項目常常是利用“大數(shù)據(jù)”所不可或缺的。例如，大多數(shù)機構會選擇使用HDFS作為主分布式文件系統(tǒng)，選擇可以保存幾十億行數(shù)據(jù)的HBase作為數(shù)據(jù)庫。而使用MapReduce則幾乎是肯定的事情，因為其引擎賦予了Hadoop平臺速度和靈活性。

利用MapReduce，開發(fā)人員可以開發(fā)跨處理器分布式群集或獨立計算機的、并行處理海量非結構化數(shù)據(jù)的程序。MapReduce框架可以劃分為兩個功能區(qū)：其中Map具備將工作分配給分布式群集中不同節(jié)點的功能；Reduce則負責核對工作，將工作結果轉化為單一值。

MapReduce的主要優(yōu)勢之一是容錯性。MapReduce是通過監(jiān)測群集中的每個節(jié)點來實現(xiàn)容錯性的。每個節(jié)點定期向MapReduce報告和返回完成的工作與狀態(tài)更新。如果某個節(jié)點的靜默時間長度超出了預期值，主節(jié)點就會發(fā)出通知，并把工作重新分配給其他節(jié)點。

擴展Hadoop

除了許多開源支持工具外（例如Clojure和Thrift），市場上還有幾十種商用選擇，雖然許多工具是利用Hadoop為基礎構建的。PricewaterhouseCoopers技術與創(chuàng)新中心近日發(fā)表了“大數(shù)據(jù)”模塊化構建及其與IT部署和業(yè)務使用關系的深度指南。

Datameer是其中的一個例子。Datameer提供一種平臺，用于采集與讀取不同類型的大型數(shù)據(jù)庫，將它們植入到Hadoop框架中，然后提供分析這些數(shù)據(jù)的工具。Datameer實際上是尋求將Hadoop的復雜性隱藏起來，并提供運行在 Hadoop之上的分析工具。Datameer的誘人之處是超過10TB的數(shù)據(jù)源，Datameer認為在這種數(shù)據(jù)規(guī)模水平上，企業(yè)在使用傳統(tǒng)技術進行分析時開始遇到困難。

另一些提供類似的“大數(shù)據(jù)”分析技術的商業(yè)廠商包括Appistry、Cloudera,、Drawn to Scale HQ、Goto Metrics、Karmasphere和Talend。3家主要數(shù)據(jù)庫廠商，IBM、微軟和甲骨文都支持與Hadoop的互動，盡管以不同的方式實現(xiàn)。開源BI廠商Pentaho也支持Hadoop。

適合各種規(guī)模的企業(yè)

“大數(shù)據(jù)”的優(yōu)勢并不只是規(guī)模，還在于性能，無論數(shù)據(jù)集合的維數(shù)有多少。這對于直接分析非常重要，例如評估某位客戶在網(wǎng)站上的行為來更好地了解他們需要什么支持或尋找什么產(chǎn)品，或者搞清當前天氣和其他條件對于送貨路線和時間安排的影響。

這正是服務器集群、高性能文件系統(tǒng)和并行處理的用武之地。過去，這些技術過于昂貴，只能為大企業(yè)所采用。今天，虛擬化和商用硬件大大降低了使用這些技術的成本，從而使“大數(shù)據(jù)”可為中小企業(yè)所用。

那些較小的企業(yè)還有另一條利用“大數(shù)據(jù)”分析的途徑——云。“大數(shù)據(jù)”云服務開始出現(xiàn)，提供迅速、高效執(zhí)行分析的平臺和工具。

但是，較小的企業(yè)真的需要利用“大數(shù)據(jù)”嗎？答案是，需要。所有的公司都有“大數(shù)據(jù)”，不管它們是否意識到它的存在。例如，大多數(shù)在線企業(yè)都從它們的日志文件和點擊流數(shù)據(jù)中采集大量的數(shù)據(jù)。對于沒有這類數(shù)據(jù)流、保存兆千字節(jié)而非兆兆字節(jié)的公司而言，“大數(shù)據(jù)”使它們可以利用巨大的、公開的數(shù)據(jù)源寶藏。

世界銀行在線發(fā)布了其有關整個世界的統(tǒng)計數(shù)據(jù)，美國國會圖書館存檔了自2006年3月起的所有 Twitter數(shù)據(jù)。此外，還有很多有關提供對它們的信息低成本訪問的新聞，以及針對數(shù)據(jù)服務的投資。除了你自己的數(shù)據(jù)外，“大數(shù)據(jù)”技術可以用于分析這些數(shù)據(jù)源，或者同時對兩者進行分析。

以FlightCaster為例。這是一家提供更高精度航班延誤預測服務的公司，在預測過程中其準確度超過了主要航空公司的估計。FlightCaster挖掘了大量有關國內(nèi)航班的海量歷史數(shù)據(jù)和實時條件下的各種因素，以及其他利用大量同樣可供航空公司使用的公開數(shù)據(jù)所得到的其他專有元素。

FlightCaster的秘密在于，其對“大數(shù)據(jù)”分析技術實際的了解和應用正確的工具實時計算結果。

隨著費用的降低和企業(yè)考慮關聯(lián)數(shù)據(jù)的新途徑，“大數(shù)據(jù)”分析技術將變得更加普及，這也許為小公司提供一種變成大公司的成長機制。谷歌、雅虎和 Facebook曾經(jīng)都是小公司，它們因利用自己的數(shù)據(jù)和了解這些數(shù)據(jù)中的關系而迅速成長。“大數(shù)據(jù)”的許多基礎來自于這些企業(yè)所開發(fā)的技術并非偶然的。今天，這些方法通過Hadoop和其他工具廣泛地提供給像您的公司這樣的企業(yè)。

本文出自：億恩科技【www.cmtents.com】

服務器租用/服務器托管中國五強！虛擬主機域名注冊頂級提供商！15年品質(zhì)保障！--億恩科技[ENKJ.COM]

上一篇 >> 解讀我們身邊被忽視的七大“云計算”
下一篇 >> IT巨頭看好移動云計算發(fā)展前景

国产欧美一区二区精品行性色_91精品午夜在线观看_亚洲精品无码激情国产_91精品啪在线观看国产城中村_91看片国产一区二区色欲

服務器租用

服務器托管

機柜批發(fā)

云服務器

建站俠

空間/域名

安全保姆

幫助類別

幫助中心

文章內(nèi)容

“大數(shù)據(jù)”的價值——以Hadoop為核心

同類文章

億恩公告

在線客服