大數(shù)據(jù)的概念與技術(shù)自提出以來,受到世界各國、各應(yīng)用領(lǐng)域的廣泛關(guān)注和推動。那么何謂“大數(shù)據(jù)”?大數(shù)據(jù)的“大”體現(xiàn)在哪里?
從廣義的角度上講,數(shù)據(jù)是能輸入到計(jì)算機(jī),并被計(jì)算機(jī)程序進(jìn)行加工處理的對象。而大數(shù)據(jù)是巨量數(shù)據(jù)的集合,指無法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。
目前大數(shù)據(jù)的主流包括:
非結(jié)構(gòu)化的數(shù)據(jù):(1)互聯(lián)網(wǎng)內(nèi)容數(shù)據(jù)(文字、圖片、音頻、視頻);(2)手機(jī)用戶行為數(shù)據(jù)(電信、SDK、地圖商);(3)電商交易數(shù)據(jù);(4)搜索數(shù)據(jù);(5)各類LOG文件;
結(jié)構(gòu)化數(shù)據(jù):MIS中的結(jié)構(gòu)化數(shù)據(jù)不大符合大數(shù)據(jù)特征。
大數(shù)據(jù)的“大”主要體現(xiàn)在他的4V特性,即體量大(Volume)、種類多(Variety)、價(jià)值高(Value)及速度快(Velocity)。
1、體量大(Volume)
提到“大數(shù)據(jù)”,人們往往會直觀地聯(lián)想到“大量數(shù)據(jù)”的意思,也就是大體量的數(shù)據(jù)。要想了解體量大小,首先要知道數(shù)據(jù)的體量是如何度量的。計(jì)算機(jī)中的數(shù)據(jù)存儲以字節(jié)(Byte)為基本計(jì)算單位,網(wǎng)上目前比較常用的是(B代表Byte):KB、MB、GB、TB、PB、EB等單位。每級存儲單位與其上級單位的換算關(guān)系都是1:1024,即1:2^10。
截至目前,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB,而歷史上全人類說過的所有的話的數(shù)據(jù)量大約是5EB。
2、種類多(Variety)
相對于以往便于存儲的以文本為主的結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)越來越多,包括網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等,這些多類型的數(shù)據(jù)對數(shù)據(jù)的處理能力提出了更高要求。
3、價(jià)值高(Value)
相比傳統(tǒng)數(shù)據(jù),大數(shù)據(jù)的高價(jià)值一部分來源于前兩個特性,爆發(fā)式增長的數(shù)據(jù)量保證了大數(shù)據(jù)能夠挖掘更高價(jià)值的基礎(chǔ);其次,對非結(jié)構(gòu)化數(shù)據(jù)的分析作為大數(shù)據(jù)的核心技術(shù)特色和傳統(tǒng)數(shù)據(jù)分析涉及較少的部分,又為大數(shù)據(jù)提供了挖掘高價(jià)值的更多可能性。價(jià)值密度的高低與數(shù)據(jù)總量的大小成反比。如何通過強(qiáng)大的機(jī)器算法更迅速地完成數(shù)據(jù)的價(jià)值“提純”成為目前大數(shù)據(jù)背景下亟待解決的難題。
4、速度快(Velocity)
該特性可以認(rèn)為是大數(shù)據(jù)最為基礎(chǔ)的一個特性。也是大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)挖掘的最顯著特征。沒有快速的處理能力,數(shù)據(jù)的體量再大、種類再多、價(jià)值再高也無濟(jì)于事。以電子地圖導(dǎo)航功能為例,其導(dǎo)航功能的實(shí)現(xiàn)主要依靠對海量地理數(shù)據(jù)和信息的處理。尤其是使用者對導(dǎo)航功能是實(shí)行的要求,需要計(jì)算機(jī)技術(shù)高速的處理速度和應(yīng)對無法預(yù)料的突發(fā)狀況的靈活處理能力。大數(shù)據(jù)技術(shù)能獲得如此強(qiáng)大的計(jì)算能力,主要得益于云計(jì)算的發(fā)展。
手機(jī):13609168199
郵件:jason.cui@launchinfo.cn