仿佛只是一夜之間,“大數(shù)據(jù)(Big Data)”火了。
那一個個關(guān)于大數(shù)據(jù)的傳奇故事,一樁樁爭奪大數(shù)據(jù)制高點而展開的并購案,一個接一個輪流發(fā)布大數(shù)據(jù)戰(zhàn)略的IT廠商,還有那一場場以大數(shù)據(jù)為主題的各種研討會,無一不在宣告,IT界又迎來了新的興奮點、新的機遇,同時,也是新的挑戰(zhàn)。
“數(shù)”中自有黃金屋
嚴格地說,大數(shù)據(jù)并非一個新詞,被譽為“數(shù)據(jù)倉庫之父”的Bill Inmon早在上個世紀90年代就經(jīng)常將“Big Data”掛在嘴邊了。大數(shù)據(jù)之所以在近一兩年迅速走紅,要歸結(jié)于互聯(lián)網(wǎng)、移動設(shè)備、物聯(lián)網(wǎng)和云計算的迅猛發(fā)展,使得人類每分每秒都在產(chǎn)生巨量數(shù)據(jù)——從出現(xiàn)文明到2003年,人類總共才創(chuàng)造 5 EB(5 ExaBytes)的數(shù)據(jù),但是我們現(xiàn)在僅在兩天內(nèi)就創(chuàng)造出相同的數(shù)據(jù)量。來自IDC全球存儲及大數(shù)據(jù)研究項目副總裁Benjamin Woo表示,到2020年,全球數(shù)據(jù)使用量預計暴增44倍,達到35.2ZB。35ZB是什么概念呢?(1ZB=1024EB=1048576PB=1073741824TB,1073741824TB×35=37580963840TB),也就是說全球大概需要376億個1TB硬盤來存儲數(shù)據(jù)。
但是大數(shù)據(jù)并非單指數(shù)據(jù)量之大。對于大數(shù)據(jù),IDC的定義是:“為了更經(jīng)濟地從高頻率獲取的、大容量的、不同結(jié)構(gòu)和類型的數(shù)據(jù)中獲取價值,而設(shè)計的新一代架構(gòu)和技術(shù)。”人們普遍將該定義概括為四個V,即更大的容量(volume,從TB級躍升至PB級,甚至EB級)、更高的多樣性(variety,包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)),以及更快的生成速度(velocity)。前面三個“V”的組合推動了第四個因素——價值(value)。
關(guān)于大數(shù)據(jù)所蘊含的價值,有許多為人所津津樂道的故事可以佐證:
美國印地安那大學和英國曼徹斯特大學的學者通過提取Twitter上的非結(jié)構(gòu)化數(shù)據(jù)分析公眾情緒,再將情緒曲線與道瓊斯工業(yè)指數(shù)進行對照分析,發(fā)現(xiàn)可以提前3~4天預測股市大盤走勢。基于此,他們已經(jīng)推出了歐洲第一只基于社交媒體的對沖基金。
(單位:百萬美元)
又例如,英國的科學家根據(jù)Twitter的數(shù)據(jù)來跟蹤流感的爆發(fā)。他們主要基于用戶發(fā)布信息中的關(guān)鍵詞,例如“我頭痛”等,并結(jié)合用戶的發(fā)布地點,按區(qū)域與英國衛(wèi)生部的官方數(shù)據(jù)進行了比較,最終建立起一個預測模型。創(chuàng)業(yè)團隊“SickWeather”甚至以預測疾病為主題開展了自己的創(chuàng)業(yè)項目。
象這樣的大數(shù)據(jù)經(jīng)典案例還有不少,而整個商業(yè)社會對大數(shù)據(jù)將帶來的影響給出了極高的評價——
麥肯錫全球研究機構(gòu)在2011年5月發(fā)布的《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個前沿領(lǐng)域》中表示,充分利用大數(shù)據(jù)可幫助全球個人定位服務提供商增加1000億美元收入、幫助歐洲公共部門的管理每年提升2500億美元產(chǎn)值、幫助美國醫(yī)療保健行業(yè)每年提升3000億美元產(chǎn)值,并可幫助美國零售業(yè)獲得60%以上的凈利潤增長。
在今年年初的瑞士達沃斯論壇上,一份題為《大數(shù)據(jù),大影響》(Big Data,Big Impact)的報告宣稱,數(shù)據(jù)已經(jīng)成為一種新的經(jīng)濟資產(chǎn)類別,就像貨幣或黃金一樣。
而《華爾街日報》在文章《科技變革即將引領(lǐng)新的經(jīng)濟繁榮》中更是大膽預測:“我們再次處于三場宏大技術(shù)變革的開端,他們可能足以匹敵20世紀的那場變革,這三場變革的震中都在美國,他們分別是大數(shù)據(jù)、智能制造和無線網(wǎng)絡(luò)革命。”
更加值得關(guān)注的則是,美國已經(jīng)把大數(shù)據(jù)上升到了國家戰(zhàn)略的層面。根據(jù)美國白宮今年3月29日新聞,奧巴馬政府宣布投資2億美元啟動“大數(shù)據(jù)研究和發(fā)展計劃”,希望增強收集海量數(shù)據(jù)、分析萃取信息的能力。
在我國,大數(shù)據(jù)作為一個較新的概念,目前尚未直接以專有名詞被我國政府提出來給予政策支持。不過,在2012年12月8日工信部發(fā)布的物聯(lián)網(wǎng)“十二五”規(guī)劃上,信息處理技術(shù)作為四項關(guān)鍵技術(shù)創(chuàng)新工程之一已經(jīng)被提出來,其中包括了海量數(shù)據(jù)存儲、數(shù)據(jù)挖掘、圖像視頻智能分析,這都是大數(shù)據(jù)的重要組成部分。而另外三項關(guān)鍵技術(shù)創(chuàng)新工程,包括信息感知技術(shù)、信息傳輸技術(shù)、信息安全技術(shù),也都與大數(shù)據(jù)密切相關(guān)。
大數(shù)據(jù)的價值和重要性已經(jīng)毋庸置疑,但大數(shù)據(jù)究竟帶來了哪些新的技術(shù)趨勢,它對當前IT產(chǎn)業(yè)的勢力格局會造成何種影響,更關(guān)鍵的是,每個企業(yè)如何才能獲取大數(shù)據(jù)中的“寶藏”?則是我們真正關(guān)注的焦點。
淘金的工具、流程與方法
作為一門新興科學,大數(shù)據(jù)帶來新的挑戰(zhàn)的同時,催生了許多新的技術(shù)和趨勢。
“現(xiàn)有的軟件和工具主要適用于以結(jié)構(gòu)化數(shù)據(jù)為主的傳統(tǒng)數(shù)據(jù),要想及時捕捉、存儲、聚合和管理這些大數(shù)據(jù),以及對數(shù)據(jù)進行深度分析和挖掘,我們不得不需要新的技術(shù)和能力。”英特爾亞太研發(fā)有限公司總經(jīng)理何京翔說。
英特爾亞太研發(fā)有限公司總經(jīng)理 何京翔
這些新技術(shù)包括分布式緩存、基于MPP(海量并行處理)的分布式數(shù)據(jù)庫、分布式文件系統(tǒng)、各種NoSQL分布式存儲方案等,而其中最炙手可熱的新技術(shù)就是Hadoop。
Hadoop主要由HDFS、MapReduce和Hbase組成。 它是一個分布式系統(tǒng)基礎(chǔ)架構(gòu),由Apache基金會開發(fā),用戶可以在不了解分布式底層細節(jié)的情況下開發(fā)分布式程序。簡單地說來,Hadoop是一套開源的、基礎(chǔ)是Java的、能夠讓數(shù)千臺x86服務器組成一個穩(wěn)定的、強大的集群,對Pb級別的大數(shù)據(jù)進行存儲、計算的軟件平臺。谷歌、雅虎、亞馬遜、Facebook,以及國內(nèi)的淘寶、百度等都采用了Hadoop技術(shù)來處理海量數(shù)據(jù)。
盡管Hadoop是開源軟件,但英特爾、IBM、Cloudera等廠商都推出他們各自的Hadoop特別發(fā)行版本。這些特別發(fā)行版本一般都會有一些附加特性,比如高級管理工具及相關(guān)的支持維護服務,主要適合企業(yè)用戶。畢竟絕大多數(shù)企業(yè)用戶都和互聯(lián)網(wǎng)公司一樣具有強大的技術(shù)實力,采用具有商業(yè)支持的開源Hadoop技術(shù)能夠快速切入到大數(shù)據(jù)應用中去。民生證券技術(shù)總監(jiān)顏陽就特別強調(diào):“做大數(shù)據(jù)的分析與應用,全靠企業(yè)自身的話還是很有難度,也不見得是最省事的方式,而且最核心最有價值的工作其實是建立分析模型。因此,我建議企業(yè)用戶在大數(shù)據(jù)平臺建設(shè)上借助商用的大數(shù)據(jù)解決方案或有商業(yè)支持的開源技術(shù),從而將更多的精力投入在商業(yè)模式上。”
民生證券技術(shù)總監(jiān) 顏陽
在大數(shù)據(jù)的具體處理流程上,人文科技創(chuàng)始人吳朱華表示:“大數(shù)據(jù)的處理流程一般包括采集、導入、分析、挖掘四個階段,每個階段都有許多挑戰(zhàn)。”
人文科技創(chuàng)始人 吳朱華