大數(shù)據(jù)無疑是近期最時髦的詞匯了。不管是云計算、社交網(wǎng)絡(luò),還是物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)和智慧城市,都要與大數(shù)據(jù)扯上關(guān)系。大數(shù)據(jù)已經(jīng)成為有特別含義的專用詞匯,不在單指數(shù)據(jù)體量大。那么,大數(shù)據(jù)發(fā)展的現(xiàn)狀,大數(shù)據(jù)能給我們帶來什么?很多人不一定清楚。下面,我想就這些問題和大家一起交流一下。
本系列內(nèi)容主要闡述2014年中國大數(shù)據(jù)發(fā)展概況,分為以下章節(jié):
一、國內(nèi)外大數(shù)據(jù)的發(fā)展?fàn)顩r及應(yīng)用
二、我國大數(shù)據(jù)的發(fā)展趨勢及誤區(qū)
三、我國大數(shù)據(jù)發(fā)展的機(jī)遇和困境
四、對我國發(fā)展大數(shù)據(jù)的建議
五、結(jié)論
一、 國內(nèi)外大數(shù)據(jù)的發(fā)展?fàn)顩r及應(yīng)用
1、大數(shù)據(jù)已深耕于經(jīng)濟(jì)領(lǐng)域且創(chuàng)造了巨大的經(jīng)濟(jì)價值
美國的大數(shù)據(jù)產(chǎn)業(yè)已經(jīng)創(chuàng)造了巨大的價值,具體表現(xiàn)在:
1)大數(shù)據(jù)使美國醫(yī)療服務(wù)質(zhì)量得到提高。
對于醫(yī)療服務(wù)的提供方和支付方來說,在減少醫(yī)療成本的同時不斷提高醫(yī)療質(zhì)量和效率仍然是一個難以實(shí)現(xiàn)的目標(biāo),而這也是改善民生的重大機(jī)遇。2010年,全美醫(yī)療支出占國內(nèi)生產(chǎn)總值的17.9%,比2000年增長13.8%。而且,某些慢性疾病如糖尿病的患病率正在增加,正在消耗更多的醫(yī)療資源。
對這些疾病和其他相關(guān)健康服務(wù)的管理將深刻地影響國家的福祉。在這方面大數(shù)據(jù)可以發(fā)揮作用。為在廣大人群中取得最有效的醫(yī)療效果,更多地使用電子健康記錄(電子健康檔案),并與新的分析工具相結(jié)合,將提供挖掘信息的機(jī)會。研究人員可以利用信息尋找有效的統(tǒng)計趨勢,并依據(jù)真實(shí)的醫(yī)療服務(wù)質(zhì)量開展醫(yī)療評估。
2)大數(shù)據(jù)使美國的交通更加便利。
通過完善信息和自動駕駛功能,大數(shù)據(jù)有可能在許多方面徹底改變交通的面貌。開車的人多,交通堵塞就多,其后果是浪費(fèi)能源,造成全球氣候變暖,耗費(fèi)時間和金錢。手持設(shè)備、車輛和道路上的分布式傳感器則可以提供實(shí)時交通信息。這些信息,再加上更好的自動駕駛功能,可以使駕駛更安全,交通堵塞更少。智能汽車日益互聯(lián)的新型交通生態(tài)系統(tǒng)有可能徹底改變道路使用方式。
3)大數(shù)據(jù)使美國的教育質(zhì)量得到提升。
大數(shù)據(jù)可以對美國教育及其在全球經(jīng)濟(jì)中的競爭力產(chǎn)生深遠(yuǎn)影響。例如,通過深入地跟蹤和分析學(xué)生的在線學(xué)習(xí)活動——精細(xì)至每個鼠標(biāo)點(diǎn)擊動作,研究人員能夠確定學(xué)生的學(xué)習(xí)方式和提高學(xué)習(xí)的方法。這種分析可以針對成千上萬的學(xué)生進(jìn)行,而不是孤立的小型研究。課程和教學(xué)方法,無論是在線的,還是傳統(tǒng)的,都可以根據(jù)大規(guī)模分析所收集到的信息進(jìn)行修訂。
4)大數(shù)據(jù)提高了美國的征稅效率。
由于迅速發(fā)現(xiàn)異常的能力日益增加,政府稅務(wù)部門可以縮小“稅收缺口”,即納稅人應(yīng)付稅款與其自愿繳稅額之間的差額,并且對于那些試圖進(jìn)行不當(dāng)納稅申報的人,會深刻地改變他們的行為方式。大多數(shù)稅務(wù)機(jī)構(gòu)實(shí)行“自愿繳稅與追討欠稅并舉”的模式。在這種模式下,它們接受納稅人的納稅申報單并辦理退稅,并對一部分納稅申報單進(jìn)行抽查,以找出有意或無意欠稅的情況。
大數(shù)據(jù)則能夠提高欺詐檢測的水平,在納稅申報之初就揭露違規(guī)情況,減少問題退稅的發(fā)放。資料表明,在醫(yī)療領(lǐng)域每年產(chǎn)生3000億美元的潛在價值;在公共管理部門,每年產(chǎn)生2500億美元的潛在價值;在個人位置數(shù)據(jù)領(lǐng)域,每年產(chǎn)生1000億美元的市場;在零售業(yè)能夠增加60%的營業(yè)額;在制造業(yè)部門,能夠降低50%的產(chǎn)品開發(fā)及裝配成本。
5)大數(shù)據(jù)在歐洲公共管理部門得到深入應(yīng)用。
大數(shù)據(jù)在OECD組織中的歐洲國家公共管理部門創(chuàng)造了1500到3000億歐元或更高的潛在經(jīng)濟(jì)價值,這些經(jīng)濟(jì)價值主要通過政府公共管理機(jī)構(gòu)開支的減少、轉(zhuǎn)移支付的下降及稅收的增加來實(shí)現(xiàn)。三是全球大數(shù)據(jù)人才需求將上升并且出現(xiàn)供需缺口。Gartner咨詢公司預(yù)測,到2015年,大數(shù)據(jù)人才需求達(dá)到440萬人,人才需求缺口將達(dá)到三分之一。
2、歐美等發(fā)達(dá)國家把數(shù)據(jù)資產(chǎn)上升到國家信息戰(zhàn)略高度
1)美國已經(jīng)布局大數(shù)據(jù)產(chǎn)業(yè)。
美國政府將大數(shù)據(jù)視為強(qiáng)化美國競爭力的關(guān)鍵因素之一,把大數(shù)據(jù)研究和生產(chǎn)計劃提高到國家戰(zhàn)略層面。2012年3月,美國奧巴馬政府宣布投資2億美元啟動“大數(shù)據(jù)研究和發(fā)展計劃”,這是繼1993年美國宣布“信息高速公路”計劃后的又一次重大科技發(fā)展部署。美國政府認(rèn)為大數(shù)據(jù)是“未來的新石油與礦產(chǎn)”,將“大數(shù)據(jù)研究”上升為國家意志,對未來的科技與經(jīng)濟(jì)發(fā)展必將帶來深遠(yuǎn)影響。
以美國科學(xué)與技術(shù)政策辦公室(OSTP)為首,國土安全部、美國國家科學(xué)基金會、國防部、美國國家安全局、能源部等已經(jīng)開始了與民間企業(yè)或大學(xué)開展多項(xiàng)大數(shù)據(jù)相關(guān)的各種研究開發(fā)。美國政府為之撥出超過2億美元的研究開發(fā)預(yù)算。奧巴馬指出,通過提高從大型復(fù)雜的數(shù)字?jǐn)?shù)據(jù)集中提取知識和觀點(diǎn)的能力,承諾幫助加快在科學(xué)與工程中的步伐,改變教學(xué)研究,加強(qiáng)國家安全。
據(jù)悉,美國國防部已經(jīng)在積極部署大數(shù)據(jù)行動,利用海量數(shù)據(jù)挖掘高價值情報,提高快速響應(yīng)能力,實(shí)現(xiàn)決策自動化。而美國中央情報局通過利用大數(shù)據(jù)技術(shù),將分析搜集的數(shù)據(jù)時間由63天縮減到27分鐘。
2012年5月美國數(shù)字政府戰(zhàn)略發(fā)布,更是提出要通過協(xié)調(diào)化的方式,所有部門共同提高收集、儲存、保留、管理、分析和共享海量數(shù)據(jù)所需核心技術(shù)的先進(jìn)性,并形成合力;擴(kuò)大大數(shù)據(jù)技術(shù)開發(fā)和應(yīng)用所需人才的供給。以信息和客戶為中心,改變聯(lián)邦政府工作方式,為美國民眾提供更優(yōu)公共服務(wù)。
2)歐盟及日韓將會緊隨其后。
繼美國率先開啟大數(shù)據(jù)國家戰(zhàn)略先河之后,歐盟、日本及韓國等國家也將跟進(jìn),預(yù)計不久相應(yīng)的戰(zhàn)略舉措也將出臺。數(shù)據(jù)規(guī)模及運(yùn)用數(shù)據(jù)的能力將成為綜合國力的重要組成部分,對數(shù)據(jù)的占有和控制也將成為國家間爭奪的焦點(diǎn)。
法國政府為促進(jìn)大數(shù)據(jù)領(lǐng)域的發(fā)展,將以培養(yǎng)新興企業(yè)、軟件制造商、工程師、信息系統(tǒng)設(shè)計師等為目標(biāo),開展一系列的投資計劃。法國政府在其發(fā)布的《數(shù)字化路線圖》中表示,將大力支持“大數(shù)據(jù)”在內(nèi)的戰(zhàn)略性高新技術(shù),法國軟件編輯聯(lián)盟曾號召政府部門和私人企業(yè)共同合作,投入3億歐元資金用于推動大數(shù)據(jù)領(lǐng)域的發(fā)展。
法國生產(chǎn)振興部部長ArnaudMontebourg、數(shù)字經(jīng)濟(jì)部副部長FleurPellerin和投資委員LouisGallois在第二屆巴黎大數(shù)據(jù)大會結(jié)束后的第二天共同宣布了將投入1150萬歐元用于支持7個未來投資項(xiàng)目。這足以證明法國政府對于大數(shù)據(jù)領(lǐng)域發(fā)展的重視。法國政府投資這些項(xiàng)目的目的在于“通過發(fā)展創(chuàng)新性解決方案,并將其用于實(shí)踐,來促進(jìn)法國在大數(shù)據(jù)領(lǐng)域的發(fā)展”。眾所周知,法國在數(shù)學(xué)和統(tǒng)計學(xué)領(lǐng)域具有獨(dú)一無二的優(yōu)勢。
日本為了提高信息通信領(lǐng)域的國際競爭力、培育新產(chǎn)業(yè),同時應(yīng)用信息通信技術(shù)應(yīng)對抗災(zāi)救災(zāi)和核電站事故等社會性問題,日本總務(wù)省于2012年7月新發(fā)布“活躍ICT日本”新綜合戰(zhàn)略,今后日本的ICT戰(zhàn)略方向備受關(guān)注。其中最為關(guān)注的是其大數(shù)據(jù)政策(從各種各樣類型的數(shù)據(jù)中,快速獲得有價值信息的能力),日本正在針對大數(shù)據(jù)推廣的現(xiàn)狀、發(fā)展動向、面臨問題等進(jìn)行探討,以期對解決社會公共問題作出貢獻(xiàn)。
2013年6月,安倍內(nèi)閣正式公布了新IT戰(zhàn)略——“創(chuàng)建最尖端IT國家宣言”。“宣言”全面闡述了2013~2020年期間以發(fā)展開放公共數(shù)據(jù)和大數(shù)據(jù)為核心的日本新IT國家戰(zhàn)略,提出要把日本建設(shè)成為一個具有“世界最高水準(zhǔn)的廣泛運(yùn)用信息產(chǎn)業(yè)技術(shù)的社會”。
3、我國大數(shù)據(jù)的國家戰(zhàn)略
爭奪新一輪技術(shù)革命制高點(diǎn)的戰(zhàn)役已經(jīng)打響,中國政府在美國提出《大數(shù)據(jù)研究和發(fā)展計劃》的2012年也批復(fù)了“十二五國家政務(wù)信息化建設(shè)工程規(guī)劃”,總投資額估計在幾百億,專門有人口、法人、空間、宏觀經(jīng)濟(jì)和文化等五大資源庫的五大建設(shè)工程。我國的開放、共享和智能的大數(shù)據(jù)的時代已經(jīng)來臨!
2012年8月份國務(wù)院制定了促進(jìn)信息消費(fèi)擴(kuò)大內(nèi)需的文件,推動商業(yè)企業(yè)加快信息基礎(chǔ)設(shè)施演進(jìn)升級,增強(qiáng)信息產(chǎn)品供給能力,形成行業(yè)聯(lián)盟,制定行業(yè)標(biāo)準(zhǔn),構(gòu)建大數(shù)據(jù)產(chǎn)業(yè)鏈,促進(jìn)創(chuàng)新鏈與產(chǎn)業(yè)鏈有效嫁接。
同時,構(gòu)建大數(shù)據(jù)研究平臺,整合創(chuàng)新資源,實(shí)施“專項(xiàng)計劃”,突破關(guān)鍵技術(shù)。大力推進(jìn)國家發(fā)改委和中科院基礎(chǔ)研究大數(shù)據(jù)服務(wù)平臺應(yīng)用示范項(xiàng)目,廣東率先啟動大數(shù)據(jù)戰(zhàn)略推動政府轉(zhuǎn)型,北京正積極探索政府公布大數(shù)據(jù)供社會開發(fā),上海也啟動大數(shù)據(jù)研發(fā)三年行動計劃。
當(dāng)前,在政府部門數(shù)據(jù)對外開放,由企業(yè)系統(tǒng)分析大數(shù)據(jù)進(jìn)行投資經(jīng)營方面,上海無疑是先行一步。2014年5月15日,上海市自今年起推動各級政府部門將數(shù)據(jù)對外開放,并鼓勵社會對其進(jìn)行加工和運(yùn)用。
根據(jù)上海市經(jīng)信委印發(fā)的《2014年度上海市政府?dāng)?shù)據(jù)資源向社會開放工作計劃》,目前已確定190項(xiàng)數(shù)據(jù)內(nèi)容作為2014年重點(diǎn)開放領(lǐng)域,涵蓋28個市級部門,涉及公共安全、公共服務(wù)、交通服務(wù)、教育科技、產(chǎn)業(yè)發(fā)展、金融服務(wù)、能源環(huán)境、健康衛(wèi)生、文化娛樂等11個領(lǐng)域。
其中市場監(jiān)管類數(shù)據(jù)和交通數(shù)據(jù)資源的開放將成為重點(diǎn),這些與市民息息相關(guān)的信息查詢屆時將完全開放。這意味著企業(yè)運(yùn)用大數(shù)據(jù)在上海“掘金”的時代來臨,企業(yè)投資和上海民生相關(guān)的產(chǎn)業(yè)如交通運(yùn)輸、餐飲等,可以不再“盲人摸象”。
在立足國家戰(zhàn)略和產(chǎn)業(yè)政策推動大數(shù)據(jù)收集和分析技術(shù)快速發(fā)展的同時,我們也應(yīng)清醒地認(rèn)識到避免數(shù)據(jù)壟斷和保護(hù)數(shù)據(jù)安全的重要性,及早開展相關(guān)法律法規(guī)的探討和研究。
伴隨著大數(shù)據(jù)時代的來臨,世界各國對數(shù)據(jù)的重視提到了前所未有的高度。套上大數(shù)據(jù)的光環(huán)后,原本那些存放在服務(wù)器上平淡無奇的陳年舊數(shù)一夜之間身價倍增。按照世界經(jīng)濟(jì)論壇報告的看法,“大數(shù)據(jù)為新財富,價值堪比石油”。正如大數(shù)據(jù)之父維克托所預(yù)測,“雖然數(shù)據(jù)還沒有被列入企業(yè)的資產(chǎn)負(fù)債表,但這只是一個時間問題。”
今天的國家將大數(shù)據(jù)視為國家戰(zhàn)略,并且在實(shí)施上,也已經(jīng)進(jìn)入到企業(yè)戰(zhàn)略層面,這種認(rèn)識已經(jīng)遠(yuǎn)遠(yuǎn)超出當(dāng)年的信息化戰(zhàn)略。我們上面介紹了許多國外的動態(tài),末了自然也要落腳到本國,思考本國可能采取的發(fā)展道路。但是,尚未見到網(wǎng)絡(luò)安全戰(zhàn)略和信息化發(fā)展戰(zhàn)略全文(據(jù)說兩會期間公布,也就是這幾天),我們也不妨先總結(jié)國外的情形,以便進(jìn)行比較。
2014年2月27日中央網(wǎng)絡(luò)安全和信息化領(lǐng)導(dǎo)小組宣告成立,組長習(xí)近平指出,沒有網(wǎng)絡(luò)安全就沒有國家安全,沒有信息化就沒有現(xiàn)代化。建設(shè)網(wǎng)絡(luò)強(qiáng)國,要有自己的技術(shù),有過硬的技術(shù);要有豐富全面的信息服務(wù),繁榮發(fā)展的網(wǎng)絡(luò)文化;要有良好的信息基礎(chǔ)設(shè)施,形成實(shí)力雄厚的信息經(jīng)濟(jì);要有高素質(zhì)的網(wǎng)絡(luò)安全和信息化人才隊(duì)伍;要積極開展雙邊、多邊的互聯(lián)網(wǎng)國際交流合作。從話的另一方面也說明目前我們沒有自己的過硬技術(shù),網(wǎng)絡(luò)文化還有點(diǎn)問題,基礎(chǔ)設(shè)施還是太差,人才隊(duì)伍素質(zhì)跟不上需求,也沒有可靠的盟友,信息經(jīng)濟(jì)實(shí)力太弱。
毫無疑問,中國的底子太薄了。但是,大數(shù)據(jù)是信息化時代的“石油”。開發(fā)大數(shù)據(jù)資源的能力將影響未來國家的核心競爭力。我國不能幻想走在別人修好的道路,更不能等靠,只能依賴自身能力加速前行,這種能力就是將數(shù)據(jù)轉(zhuǎn)化為信息和知識的速度與技術(shù),而這種轉(zhuǎn)化速度和技術(shù),則決定了大數(shù)據(jù)技術(shù)能力的高低。
二、我國大數(shù)據(jù)的發(fā)展趨勢及誤區(qū)
1、我國大數(shù)據(jù)的發(fā)展趨勢
在全球經(jīng)濟(jì)、技術(shù)一體化的今天,我國IT行業(yè)已經(jīng)開啟了大數(shù)據(jù)的起航之旅,大數(shù)據(jù)已經(jīng)在經(jīng)濟(jì)領(lǐng)域發(fā)揮重要作用。據(jù)計世咨訊預(yù)測,2012年,政府、互聯(lián)網(wǎng)、電信、金融等領(lǐng)域市場規(guī)模占據(jù)近一半的市場份額。大數(shù)據(jù)在主要經(jīng)濟(jì)領(lǐng)域的發(fā)展趨勢如下:
1)大數(shù)據(jù)在經(jīng)濟(jì)預(yù)警方面發(fā)揮重要作用
在2008年金融危機(jī)中,阿里平臺的海量交易記錄預(yù)測了經(jīng)濟(jì)指數(shù)的下滑。2008年初,阿里巴巴平臺上整個買家詢盤數(shù)急劇下滑,預(yù)示了經(jīng)濟(jì)危機(jī)的來臨。數(shù)以萬計的中小制造商及時獲得阿里巴巴的預(yù)警,為預(yù)防危機(jī)做好了準(zhǔn)備。
2)大數(shù)據(jù)分析成為市場營銷的重要手段
與傳統(tǒng)的市場研究方法不同,大數(shù)據(jù)的市場研究方法不再局限于抽樣調(diào)查,而是基于幾乎全樣本空間。例如,百度擁有中國最大的消費(fèi)者行為數(shù)據(jù)庫,覆蓋95%的中國網(wǎng)民,搜索市場占比達(dá)87%。百度基于最真實(shí)的用戶行為數(shù)據(jù)和多維度研究工具,幫助寶潔精準(zhǔn)的定位了消費(fèi)者的地域分布、興趣愛好等信息,根據(jù)百度分析的結(jié)論,寶潔適時地調(diào)整了營銷策略。
3)大數(shù)據(jù)在臨床診斷、遠(yuǎn)程監(jiān)控、藥品研發(fā)等領(lǐng)域發(fā)揮重要作用
我國目前已經(jīng)有十余座城市開展了數(shù)字醫(yī)療。病歷、影像、遠(yuǎn)程醫(yī)療等都會產(chǎn)生大量的數(shù)據(jù)并形成電子病歷及健康檔案。基于這些海量數(shù)據(jù),醫(yī)院能夠精準(zhǔn)地分析病人的體征、治療費(fèi)用和療效數(shù)據(jù),可避免過度及副作用較為明顯的治療,此外還可以利用這些數(shù)據(jù)進(jìn)行實(shí)現(xiàn)計算機(jī)遠(yuǎn)程監(jiān)護(hù),對慢性病進(jìn)行管理等。
4)大數(shù)據(jù)為金融領(lǐng)域的客戶管理、營銷管理及風(fēng)險管理提供重要支撐
大數(shù)據(jù)能夠解決金融領(lǐng)域海量數(shù)據(jù)的存儲、查詢優(yōu)化及聲音、影像等非結(jié)構(gòu)化數(shù)據(jù)的處理。金融系統(tǒng)可以通過大數(shù)據(jù)分析平臺,導(dǎo)入客戶社交網(wǎng)絡(luò)、電子商務(wù)、終端媒體產(chǎn)生的數(shù)據(jù),從而構(gòu)建客戶視圖。依托大數(shù)據(jù)平臺可以進(jìn)行客戶行為跟蹤、分析,進(jìn)而獲取用戶的消費(fèi)習(xí)慣、風(fēng)險收益偏好等。針對用戶這些特性,銀行等金融部門能夠?qū)嵤╋L(fēng)險及營銷管理。
當(dāng)前,我國正處在全面建成小康社會征程中,工業(yè)化、信息化、城鎮(zhèn)化、農(nóng)業(yè)現(xiàn)代化任務(wù)很重,建設(shè)下一代信息基礎(chǔ)設(shè)施,發(fā)展現(xiàn)代信息技術(shù)產(chǎn)業(yè)體系,健全信息安全保障體系,推進(jìn)信息網(wǎng)絡(luò)技術(shù)廣泛運(yùn)用,是實(shí)現(xiàn)四化同步發(fā)展的保證。大數(shù)據(jù)分析對我們深刻領(lǐng)會世情和國情,把握規(guī)律,實(shí)現(xiàn)科學(xué)發(fā)展,做出科學(xué)決策具有重要意義。
中國人口居世界首位,將會成為產(chǎn)生數(shù)據(jù)量最多的國家,但我們對數(shù)據(jù)保存不夠重視,對存儲數(shù)據(jù)的利用率也不高。此外,我國一些部門和機(jī)構(gòu)擁有大量數(shù)據(jù)卻不愿與其他部門共享,導(dǎo)致信息不完整或重復(fù)投資。政府應(yīng)通過體制機(jī)制改革打破數(shù)據(jù)割據(jù)與封鎖,應(yīng)注重公開信息,應(yīng)重視數(shù)據(jù)挖掘。美國聯(lián)邦政府建立統(tǒng)一數(shù)據(jù)開放門戶網(wǎng)站,為社會提供信息服務(wù)并鼓勵挖掘與利用。
2、我國大數(shù)據(jù)行業(yè)的誤區(qū)
誤區(qū)一:只有搞大數(shù)據(jù)技術(shù)開發(fā)的,才是真正“圈內(nèi)人”。
筆者曾經(jīng)參加過若干會議,70%是偏技術(shù)的,在場的都是國內(nèi)各個數(shù)據(jù)相關(guān)項(xiàng)目經(jīng)理和技術(shù)帶頭人,大家討論的話題都是在升級CDH版本的時候有什么問題,在處理Hive作業(yè)的時候哪種方式更好,在Storm、Kafka匹配時如何效率更高,在Spark應(yīng)用時內(nèi)存如何釋放這些問題。參會者都一個態(tài)度:不懂大數(shù)據(jù)技術(shù)的人沒資格評論大數(shù)據(jù),您要不懂Hadoop2.0中的資源配置,不懂Spark在內(nèi)存的駐留時間調(diào)優(yōu),不懂Kafka采集就別參加這個會!對了,最近Google完全拋棄MR只用Dataflow了,您懂嗎?不懂滾粗!
在這里我想說,技術(shù)的進(jìn)步都是由業(yè)務(wù)驅(qū)動的,某寶去了IOE才能叫大數(shù)據(jù)嗎,我作為一個聾啞人按摩師用結(jié)繩記事完成了對于不同體型的人,用什么按摩手法進(jìn)行全流程治療,就不叫大數(shù)據(jù)分析了嗎?技術(shù)發(fā)展到什么程度,只有一小部分是由科學(xué)家追求極致的精神驅(qū)動,大部分原因是因?yàn)闃I(yè)務(wù)發(fā)展到一定程度,要求技術(shù)必須做出進(jìn)步才能達(dá)成目標(biāo)的。
所以,真正的大數(shù)據(jù)“圈內(nèi)人”至少要包含以下幾種人:
1)業(yè)務(wù)運(yùn)營人員。
比如互聯(lián)網(wǎng)的產(chǎn)品經(jīng)理要求技術(shù)人員,必須在用戶到達(dá)網(wǎng)站的時候就算出他今天的心情指數(shù),而且要實(shí)現(xiàn)動態(tài)監(jiān)測,這時候只能用Storm或者Spark來處理了;比如電信運(yùn)營商要求做到實(shí)時營銷,用戶進(jìn)入營業(yè)廳的時候,必須馬上推送短信給用戶,提示他本營業(yè)廳有一個特別適合他的相親對象(呈現(xiàn)身高、三圍、體重等指標(biāo)),但是見面前要先購買4G手機(jī);再比如病人來到銀行開戶,銀行了解到用戶最近1周曾經(jīng)去醫(yī)院門診過兩次,出國旅游過3次,帶孩子游泳兩次,馬上客戶經(jīng)理就給客戶推薦相關(guān)的銀行保險+理財產(chǎn)品。這些業(yè)務(wù)人員,往往是驅(qū)動技術(shù)進(jìn)步的核心原因。
2)架構(gòu)師。
架構(gòu)師有多么重要,當(dāng)一個業(yè)務(wù)人員和一個工程師,一個說著業(yè)務(wù)語言,一個說著技術(shù)術(shù)語在那里討論問題的時候,工程師往往想著用什么樣的代碼能馬上讓他閉嘴,而架構(gòu)師往往會跳出來說“不,不能那樣,你這樣寫只能解決一個問題并且會制造后續(xù)的若干問題,按照我這個方案來,可以解決后續(xù)的若干問題!”一個非技術(shù)企業(yè)的IT系統(tǒng)水平,往往有70%以上的標(biāo)準(zhǔn)掌握在架構(gòu)設(shè)計人員手里,盡快很多優(yōu)秀的架構(gòu)師都是從工程師慢慢發(fā)展學(xué)習(xí)而來的,IT架構(gòu)的重要性,很多企業(yè)都意識到了,這就是很多企業(yè)有CTO和CIO兩個職位,同樣重要!架構(gòu)之美,當(dāng)IT系統(tǒng)平穩(wěn)運(yùn)行的時候沒人能感受到,但是在一個煙囪林立、架構(gòu)混亂的環(huán)境中走過的人眼中,IT開發(fā)一定要架構(gòu)現(xiàn)行,開發(fā)在后!
3)投資人。
老板,不用說了,老板給你吃穿,你給老板賣命,天生的基礎(chǔ)資料提供者,老板說要有山便有了山,老板說要做實(shí)時數(shù)據(jù)處理分析,便有了Storm,老板說要做開源,便有了Hadoop,老板還說要做迭代挖掘,便有了Spark……
4)科學(xué)家。
他們是別人眼中的Geek,他們是別人眼中的高大上,他們是類似于霍金一樣的神秘的早出晚歸晝伏夜出的眼睛男女,他們是驅(qū)動世界技術(shù)進(jìn)步的核心力量。除了世界頂級的IT公司(往往世界技術(shù)方向掌握在他們手中),其他公司一般需要1-2個科學(xué)家足以,他們是真正投身于科學(xué)的人,不要讓他們?nèi)タ紤]業(yè)務(wù)場景,不要讓他們?nèi)タ紤]業(yè)務(wù)流程,不要讓他們?nèi)ビ嬎愠杀,不要讓他們(nèi)タ紤]項(xiàng)目進(jìn)度,他們唯一需要考慮的就是如何在某個指標(biāo)上擊敗對手,在某個指標(biāo)上提高0.1%已經(jīng)讓他們可以連續(xù)奮戰(zhàn),不眠不休,讓我們都為這些科學(xué)家喝彩和歡呼吧。在中國,我認(rèn)為真正的大數(shù)據(jù)科學(xué)家不超過百人……
5)工程師。
工程師是這樣一群可愛的人,他們年輕,沖動,有理想,又被人尊稱為“屌絲”“鍵盤黨”,他們孜孜不倦的為自己的理想而拼搏,每次自己取得一點(diǎn)點(diǎn)進(jìn)步的時候,都在考慮是不是地鐵口的雞蛋灌餅又漲了五毛錢。他們敏感,自負(fù),從來不屑于和業(yè)務(wù)人員去爭論。工程師和科學(xué)家的不同點(diǎn)在于,工程師需要頻繁改動代碼,頻繁測試程序,頻繁上線,但是最后的系統(tǒng)是由若干工程師的代碼組合起來的。每個自負(fù)的工程師看到系統(tǒng)的歷史代碼都會鄙視的發(fā)出一聲“哼,這垃圾代碼”,之后便投入到被后人繼續(xù)鄙視的代碼編寫工作中去。
6)跟風(fēng)者。
他們中有些是培訓(xùn)師,有些是殺馬特洗剪吹,有些是煤老板有些是失足少女。他們的特點(diǎn)就是炒,和炒房者唯一不同的就是,他們不用付出金錢,他們認(rèn)為只要和數(shù)據(jù)沾邊就叫大數(shù)據(jù),他們有些人甚至從來沒碰過IT系統(tǒng),他們是渾水摸魚、濫竽充數(shù)的高手,他們是被前幾種人鄙視的隱形人。不過我想說,歡迎來炒,一個行業(yè)炒的越兇,真正有價值的人就更能發(fā)揮自己的作用。
誤區(qū)二:只有大數(shù)據(jù)才能拯救世界
大數(shù)據(jù)目前的技術(shù)和應(yīng)用都是在數(shù)據(jù)分析、數(shù)據(jù)倉庫等方面,主要針對OLAP(OnlineAnalyticalSystem),從技術(shù)角度來說,包含我總結(jié)的兩條腿:一條腿是批量數(shù)據(jù)處理(包括MR、MPP等),另一條腿實(shí)時數(shù)據(jù)流處理(Storm、內(nèi)存數(shù)據(jù)庫等)。
在此基礎(chǔ)上,部分場景又發(fā)現(xiàn)MR框架或?qū)崟r框架不能很好的滿足近線、迭代的挖掘需要,故又產(chǎn)生了目前非;鸬幕趦(nèi)存數(shù)據(jù)處理Spark框架。很多企業(yè)目前的大數(shù)據(jù)框架是,一方面以Hadoop2.0之上的Hive、Pig框架處理底層的數(shù)據(jù)加工和處理,把按照業(yè)務(wù)邏輯處理完的數(shù)據(jù)直接送入到應(yīng)用數(shù)據(jù)庫中;另一方面以Storm流處理引擎處理實(shí)時的數(shù)據(jù),根據(jù)業(yè)務(wù)營銷的規(guī)則觸發(fā)相應(yīng)的營銷場景。同時,用基于Spark處理技術(shù)集群滿足對于實(shí)時數(shù)據(jù)加工、挖掘的需求。
以上描述可以看出,大數(shù)據(jù)說白了就是還沒有進(jìn)入真正的交易系統(tǒng),沒有在OLTP(OnlineTransactionsystem)方面做出太大的貢獻(xiàn)。至于很多文章把大數(shù)據(jù)和物聯(lián)網(wǎng)、泛在網(wǎng)、智慧城市都聯(lián)系在一起,我認(rèn)為大數(shù)據(jù)不過是條件之一,其余的OLTP系統(tǒng)是否具備,物理網(wǎng)絡(luò)甚至組織架構(gòu)都是重要因素。
最后還想說,大數(shù)據(jù)處理技術(shù),再炫如Google的Dataflow或成熟如Hadoop2.0、數(shù)據(jù)倉庫、Storm等,本質(zhì)上都是數(shù)據(jù)加工工具,對于很多工程師來說,只需要把數(shù)據(jù)處理流程搞清楚就可以了,在這個平臺上可以用固定的模版和腳本進(jìn)行數(shù)據(jù)加工已經(jīng)足夠。畢竟數(shù)據(jù)的價值70%以上是對業(yè)務(wù)應(yīng)用而言的,一個炫詞對于業(yè)務(wù)如果沒有幫助,終將只是屠龍之術(shù)。任何技術(shù)、IT架構(gòu)都要符合業(yè)務(wù)規(guī)劃、符合業(yè)務(wù)發(fā)展的要求,否則技術(shù)只會妨礙業(yè)務(wù)和生產(chǎn)力的發(fā)展。
隨著時代變遷,大浪淘沙,作為數(shù)據(jù)行業(yè)的一員,我們每個人都在不同的角色之間轉(zhuǎn)換,今天你可能是科學(xué)家,明天就會變成架構(gòu)師,今天的工程師也會變成幾年后的科學(xué)家,部分人還終將步入跟風(fēng)者的行列。
三、我國大數(shù)據(jù)發(fā)展的機(jī)遇和困境
1、大數(shù)據(jù)迎來大發(fā)展的機(jī)遇
大數(shù)據(jù)的快速發(fā)展,使它成為IT領(lǐng)域的又一大新興產(chǎn)業(yè)。據(jù)中央財經(jīng)大學(xué)中國經(jīng)濟(jì)管理研究院博士張永力估算,國外大數(shù)據(jù)行業(yè)約有1000億美元的市場,而且每年都以10%的速度在增長,增速是軟件行業(yè)的兩倍。我國2012年大數(shù)據(jù)市場規(guī)模大約4.7億元,2013年增速將達(dá)到138%,達(dá)到11.2億元,產(chǎn)業(yè)發(fā)展?jié)摿Ψ浅>薮蟆?/p>
1)政府積極介入推動
2009年,聯(lián)合國啟動“全球脈動計劃”,借大數(shù)據(jù)推動落后地區(qū)發(fā)展。2012年1月,世界經(jīng)濟(jì)論壇年會把“大數(shù)據(jù)、大影響”作為重要議題。美國從開放政府?dāng)?shù)據(jù)、開展關(guān)鍵技術(shù)研究和推動大數(shù)據(jù)應(yīng)用三方面布局大數(shù)據(jù)產(chǎn)業(yè)。美國在開放政府上非常積極,通過Data.gov開放37萬個數(shù)據(jù)集,并開放網(wǎng)站的API和源代碼,提供上千個數(shù)據(jù)應(yīng)用。除了推動本國政府?dāng)?shù)據(jù)開放,美國倡導(dǎo)發(fā)起全球開放政府?dāng)?shù)據(jù)運(yùn)動,已有41個國家響應(yīng)。美國政府還投資兩億美元促進(jìn)大數(shù)據(jù)核心技術(shù)研究和應(yīng)用,把大數(shù)據(jù)放在與集成電路、互聯(lián)網(wǎng)同等重要的位臵,從國家層面推進(jìn)。
2)資本市場也對大數(shù)據(jù)鐘愛有加
2012年4月,大數(shù)據(jù)分析公司Splunk高調(diào)宣傳大數(shù)據(jù),引發(fā)投資者關(guān)注。12月初,為企業(yè)市場提供Hadoop解決方案的創(chuàng)業(yè)公司Cloudera獲得6500萬美元融資,估值約為7億美元。近期,高盛聯(lián)席主席斯科特。斯坦福說:“投資大數(shù)據(jù)及其運(yùn)用回報率最高”。大數(shù)據(jù)領(lǐng)域的企業(yè)并購熱度也在上升,單筆平均并購金額方面,大數(shù)據(jù)超過云計算位居IT領(lǐng)域榜首,在總并購額上也位居第二。
3)人才需求巨大
據(jù)一家國際咨詢公司,蓋特納咨詢公司預(yù)測大數(shù)據(jù)將為全球帶來440萬個IT新崗位和上千萬個非IT崗位。麥肯錫公司預(yù)測美國到2018年需要深度數(shù)據(jù)分析人才44萬—49萬,缺口14萬—19萬人;需要既熟悉本單位需求又了解大數(shù)據(jù)技術(shù)與應(yīng)用的管理者150萬,這方面的人才缺口更大。中國是人才大國,但能理解與應(yīng)用大數(shù)據(jù)的創(chuàng)新人才更是稀缺資源。
4)各方積極參與
大數(shù)據(jù)的火爆,也帶動了國內(nèi)學(xué)術(shù)界、產(chǎn)業(yè)界和政府對大數(shù)據(jù)的熱情。2011年以來,中國計算機(jī)學(xué)會、中國通信學(xué)會先后成立了大數(shù)據(jù)委員會,研究大數(shù)據(jù)中的科學(xué)與工程問題,科技部的《中國云科技發(fā)展“十二五”專項(xiàng)規(guī)劃》和工信部的《物聯(lián)網(wǎng)“十二五”發(fā)展規(guī)劃》等都把大數(shù)據(jù)技術(shù)作為一項(xiàng)重點(diǎn)予以支持。
其中工信部發(fā)布的物聯(lián)網(wǎng)“十二五”規(guī)劃上,把信息處理技術(shù)作為4項(xiàng)關(guān)鍵技術(shù)創(chuàng)新工程之一被提出來,其中包括了海量數(shù)據(jù)存儲、數(shù)據(jù)挖掘、圖像視頻智能分析,這都是大數(shù)據(jù)的重要組成部分。而另外3項(xiàng)關(guān)鍵技術(shù)創(chuàng)新工程,包括信息感知技術(shù)、信息傳輸技術(shù)、信息安全技術(shù),也都與“大數(shù)據(jù)”密切相關(guān)。
應(yīng)用方面,中國三大通信運(yùn)營商都在結(jié)合自身業(yè)務(wù)情況,積極推進(jìn)大數(shù)據(jù)應(yīng)用工作,并取得了較好的進(jìn)展。電子商務(wù)企業(yè)阿里巴巴提出要做中國數(shù)據(jù)分析第一平臺,通過掌握的企業(yè)交易數(shù)據(jù),借助大數(shù)據(jù)技術(shù)自動分析判定是否給予企業(yè)貸款,全程不會出現(xiàn)人工干預(yù)。據(jù)透露,截至目前阿里巴巴已經(jīng)放貸300多億元,壞賬率約0.3%左右,大大低于商業(yè)銀行。
研發(fā)企業(yè)方面,我國能夠處理大數(shù)據(jù)的企業(yè)并不是很多。北京永洪科技在這方面做的不錯。永洪科技在大數(shù)據(jù)、分布式計算、數(shù)據(jù)分析等領(lǐng)域具備核心競爭力、自主創(chuàng)新并擁有多項(xiàng)發(fā)明專利。推出的Z系列產(chǎn)品在大數(shù)據(jù)的應(yīng)用分析中在國際上也是領(lǐng)先的。
大數(shù)據(jù)的熱潮觸發(fā)了一場思想啟蒙運(yùn)動,使得“大數(shù)據(jù)是資產(chǎn),不是包袱”、“要拿數(shù)據(jù)說話”等觀念逐步深入人心,改變了以往不重視數(shù)據(jù)積累,不相信數(shù)據(jù)分析等認(rèn)識。有了這種思維模式的改變,大數(shù)據(jù)的應(yīng)用就有了希望。
2、大數(shù)據(jù)落地面臨的困難
應(yīng)該說,全球來看,對大數(shù)據(jù)認(rèn)識、研究和應(yīng)用還都處于初期階段。特別是對我國來說,大數(shù)據(jù)真正落地,還需要邁過三道坎。
1)數(shù)據(jù)是否足夠豐富和開放
豐富的數(shù)據(jù)源是大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的前提。而我國數(shù)字化的數(shù)據(jù)資源總量遠(yuǎn)遠(yuǎn)低于美歐,每年新增數(shù)據(jù)量僅為美國的7%,歐洲的12%,其中政府和制造業(yè)的數(shù)據(jù)資源積累遠(yuǎn)遠(yuǎn)落后于國外。就已有有限的數(shù)據(jù)資源來說,還存在標(biāo)準(zhǔn)化、準(zhǔn)確性、完整性低,利用價值不高的情況,這大大降低了數(shù)據(jù)的價值。
同時,我國政府、企業(yè)和行業(yè)信息化系統(tǒng)建設(shè)往往缺少統(tǒng)一規(guī)劃和科學(xué)論證,系統(tǒng)之間缺乏統(tǒng)一的標(biāo)準(zhǔn),形成了眾多“信息孤島”,而且受行政壟斷和商業(yè)利益所限,數(shù)據(jù)開放程度較低,以鄰為壑、共享難,這給數(shù)據(jù)利用造成極大障礙。制約我國數(shù)據(jù)資源開放和共享的一個重要因素是政策法規(guī)不完善,大數(shù)據(jù)挖掘缺乏相應(yīng)的立法,無法既保證共享又防止濫用,一方面欠缺推動政府和公共數(shù)據(jù)的政策,另一方面數(shù)據(jù)保護(hù)和隱私保護(hù)方面的制度不完善抑制了開放的積極性。因此,建立一個良性發(fā)展的數(shù)據(jù)共享生態(tài)系統(tǒng),是我國大數(shù)據(jù)發(fā)展需要邁過去的第一道砍。
2)是否掌握強(qiáng)大的數(shù)據(jù)分析工具
要以低成本和可擴(kuò)展的方式處理大數(shù)據(jù),這就需要對整個IT架構(gòu)進(jìn)行重構(gòu),開發(fā)先進(jìn)的軟件平臺和算法。這方面,國外又一次走在我們前面。特別是近年來以開源模式發(fā)展起來的Hadoop等大數(shù)據(jù)處理軟件平臺,及其相關(guān)產(chǎn)業(yè)已經(jīng)在美國初步形成。
而我國數(shù)據(jù)處理技術(shù)基礎(chǔ)薄弱,總體上以跟隨為主,難以滿足大數(shù)據(jù)大規(guī)模應(yīng)用的需求。如果把大數(shù)據(jù)比作石油,那數(shù)據(jù)分析工具就是勘探、鉆井、提煉、加工的技術(shù)。我國必須掌握大數(shù)據(jù)關(guān)鍵技術(shù),才能將資源轉(zhuǎn)化為價值。應(yīng)該說,要邁過這道坎,開源技術(shù)為我們提供了很好的基礎(chǔ)。
3)管理理念和運(yùn)作方式能否適配數(shù)據(jù)化決策
大數(shù)據(jù)開發(fā)的根本目的是以數(shù)據(jù)分析為基礎(chǔ),幫助人們做出更明智的決策,優(yōu)化企業(yè)和社會運(yùn)轉(zhuǎn)。哈佛商業(yè)評論說,大數(shù)據(jù)本質(zhì)上是“一場管理革命”。大數(shù)據(jù)時代的決策不能僅憑經(jīng)驗(yàn),而真正要“拿數(shù)據(jù)說話”。因此,大數(shù)據(jù)能夠真正發(fā)揮作用,深層次看,還要改善我們的管理模式,需要管理方式和架構(gòu)的與大數(shù)據(jù)技術(shù)工具相適配。這或許是我們最難邁過的一道坎了。
四、對我國發(fā)展大數(shù)據(jù)產(chǎn)業(yè)的建議
大數(shù)據(jù)有巨大的社會和商業(yè)價值,就看會不會挖掘,是否善于運(yùn)用數(shù)據(jù)分析的結(jié)果。同時,它又是一個應(yīng)用驅(qū)動性很強(qiáng)的服務(wù),要做好大數(shù)據(jù)產(chǎn)業(yè),為經(jīng)濟(jì)發(fā)展提供更大的動力,需要從以下幾人方面入手。
1、建立一套運(yùn)行機(jī)制。
大數(shù)據(jù)建設(shè)是一項(xiàng)有序的、動態(tài)的、可持續(xù)發(fā)展的系統(tǒng)工程,必須建立良好的運(yùn)行機(jī)制,以促進(jìn)建設(shè)過程中各個環(huán)節(jié)的正規(guī)有序,實(shí)現(xiàn)統(tǒng)合,搞好頂層設(shè)計。
2、規(guī)范一套建設(shè)標(biāo)準(zhǔn)。
沒有標(biāo)準(zhǔn)就沒有系統(tǒng)。應(yīng)建立面向不同主題、覆蓋各個領(lǐng)域、不斷動態(tài)更新的大數(shù)據(jù)建設(shè)標(biāo)準(zhǔn),為實(shí)現(xiàn)各級各類信息系統(tǒng)的網(wǎng)絡(luò)互連、信息互通、資源共享奠定基礎(chǔ)。
3、搭建一個共享平臺。
數(shù)據(jù)只有不斷流動和充分共享,才有生命力。應(yīng)在各專用數(shù)據(jù)庫建設(shè)的基礎(chǔ)上,通過數(shù)據(jù)集成,實(shí)現(xiàn)各級各類指揮信息系統(tǒng)的數(shù)據(jù)交換和數(shù)據(jù)共享。
4、培養(yǎng)一支專業(yè)隊(duì)伍。
大數(shù)據(jù)建設(shè)的每個環(huán)節(jié)都需要依靠專業(yè)人員完成,因此,必須培養(yǎng)和造就一支懂指揮、懂技術(shù)、懂管理的大數(shù)據(jù)建設(shè)專業(yè)隊(duì)伍。
五、結(jié)論
目前,大數(shù)據(jù)在電信、智慧城市、電子商務(wù)及社交娛樂等行業(yè)已經(jīng)出現(xiàn)規(guī);瘧(yīng)用,中國大數(shù)據(jù)市場將進(jìn)入高速發(fā)展時期。大數(shù)據(jù)真正的價值體現(xiàn)在從海量且多樣的內(nèi)容中提取用戶行為、用戶數(shù)據(jù)、特征并轉(zhuǎn)化為數(shù)據(jù)資源,對數(shù)據(jù)資源進(jìn)一步加以挖掘和分析,增強(qiáng)用戶信息獲取的便利性,實(shí)現(xiàn)從產(chǎn)品價值導(dǎo)向到以客戶體驗(yàn)價值為中心導(dǎo)向的轉(zhuǎn)換,客戶體驗(yàn)的提升也正是激發(fā)信息消費(fèi)的根本原因。
中國信息消費(fèi)市場規(guī)模量級巨大,增長迅速。在網(wǎng)絡(luò)能力的提升、居民消費(fèi)升級和四化加快融合發(fā)展的背景下,新技術(shù)、新產(chǎn)品、新內(nèi)容、新服務(wù)、新業(yè)態(tài)不斷激發(fā)新的消費(fèi)需求,而作為提升信息消費(fèi)體驗(yàn)的重要手段,大數(shù)據(jù)將在行業(yè)領(lǐng)域獲得廣泛應(yīng)用。
大數(shù)據(jù)已經(jīng)滲透到各個行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素,大數(shù)據(jù)的演進(jìn)與生產(chǎn)力的提高有著直接的關(guān)系。隨著網(wǎng)速的大幅提升,數(shù)據(jù)也將迎來爆發(fā)式增長,快速獲取、處理、分析海量、多樣化的交易數(shù)據(jù)、交互數(shù)據(jù)與傳感數(shù)據(jù),從而實(shí)現(xiàn)信息再價值化,對大數(shù)據(jù)的利用將成為企業(yè)提高核心競爭力和搶占市場先機(jī)的關(guān)鍵。大數(shù)據(jù)因其巨大的商業(yè)價值正在成為推動信息產(chǎn)業(yè)變革的新引擎。
中國發(fā)展大數(shù)據(jù),具有得天獨(dú)厚的優(yōu)勢,主要體現(xiàn)在我國的特殊的國情,擁有獨(dú)特的位勢和經(jīng)濟(jì)社會高速穩(wěn)定發(fā)展,給大數(shù)據(jù)及其應(yīng)用帶來了巨大的發(fā)展空間。大數(shù)據(jù)在我國各領(lǐng)域和不同行業(yè)的應(yīng)用潛力巨大、機(jī)遇重大。大數(shù)據(jù)的核心技術(shù)進(jìn)展和大數(shù)據(jù)應(yīng)用有可能帶來我國新興戰(zhàn)略性產(chǎn)業(yè)發(fā)展的新機(jī)遇。
來源:物聯(lián)網(wǎng)