- 相關(guān)推薦
論文:大數據分析與應用問(wèn)題研究
【摘 要】大數據具有規模大、種類(lèi)多、生成速度快、價(jià)值巨大但密度低的特點(diǎn)。大數據應用就是利用數據分析的方法,從大數據中挖掘有效信息,為用戶(hù)提供輔助決策,實(shí)現大數據價(jià)值的過(guò)程。主要介紹了大數據定義,分析方法、應用領(lǐng)域等相關(guān)問(wèn)題。
【關(guān)鍵詞】大數據;數據分析;應用領(lǐng)域
1.大數據的定義
美國國家標準和技術(shù)研究院對大數據做出了定義:“大數據是指其數據量、采集速度,或數據表示限制了使用傳統關(guān)系型方法進(jìn)行有效分析的能力,或需要使用重要的水平縮放技術(shù)來(lái)實(shí)現高效處理的數據!蔽覀冋J為大數據價(jià)值鏈可分為:數據生成、數據采集、數據儲存以及數據分析。數據分析是大數據價(jià)值鏈的最后也是最重要的階段,是大數據價(jià)值的實(shí)現,是大數據應用的基礎,其目的在于提取有用的值,提供論斷建議或支持決策,通過(guò)對不同領(lǐng)域數據集的分析可能會(huì )產(chǎn)生不同級別的潛在價(jià)值。
雖然這些傳統的分析方法已經(jīng)被應用于大數據領(lǐng)域,但是它們在處理規模較大的數據集合時(shí),效率無(wú)法達到用戶(hù)預期,且難以處理復雜的數據,如非結構化數據。因此,出現了許多專(zhuān)門(mén)針對大數據的集成、管理及分析的技術(shù)和方法。
2.大數據分析方法
布隆過(guò)濾器:其實(shí)質(zhì)是一個(gè)位數組和一系列HASH函數。布隆過(guò)濾器的原理是利用位數組存儲數據的HASH值而不是數據本身,其本質(zhì)是利用HASH函數對數據進(jìn)行有損壓縮存儲的位圖索引。其優(yōu)點(diǎn)是具有較高的空間效率和查詢(xún)速率,缺點(diǎn)是有一定的誤識別率和刪除困難。布隆過(guò)濾器適用于允許低誤識別率的大數據場(chǎng)合。
HASH法,其本質(zhì)是將數據轉化為長(cháng)度更短的定長(cháng)的數值或索引值的方法。這種方法的優(yōu)點(diǎn)是具有快速的讀寫(xiě)和查詢(xún)速度,缺點(diǎn)是難以找到一個(gè)良好的HASH函數。
索引:無(wú)論是在管理結構化數據的傳統關(guān)系數據庫,還是管理半結構化和非結構化數據的`技術(shù)中,索引都是一個(gè)減少磁盤(pán)讀寫(xiě)開(kāi)銷(xiāo)、提高增刪改查速率的有效方法。索引的缺陷在于需要額外的開(kāi)銷(xiāo)存儲索引文件,且需要根據數據的更新而動(dòng)態(tài)維護。
TRIE樹(shù):又稱(chēng)為字典樹(shù),是HASH樹(shù)的變種形式,多被用于快速檢索,和詞頻統計。TRIE樹(shù)的思想是利用字符串的公共前綴,最大限度地減少字符串的比較,提高查詢(xún)效率。
并行計算:相對于傳統的串行計算,并行計算是指同時(shí)使用多個(gè)計算資源完成運算。其基本思想是將問(wèn)題進(jìn)行分解,由若干個(gè)獨立的處理器完成各自的任務(wù),以達到協(xié)同處理的目的。
傳統數據分析方法,大多數都是通過(guò)對原始數據集進(jìn)行抽樣或者過(guò)濾,然后對數據樣本進(jìn)行分析,尋找特征和規律,其最大的特點(diǎn)是通過(guò)復雜的算法從有限的樣本空間中獲取盡可能多的信息。隨著(zhù)計算能力和存儲能力的提升,大數據分析方法與傳統分析方法的最大區別在于分析的對象是全體數據,而不是數據樣本,其最大的特點(diǎn)在于不追求算法的復雜性和精確性,而追求可以高效地對整個(gè)數據集的分析?傊,傳統數據方法力求通過(guò)復雜算法從有限的數據集中獲取信息,其更加追求準確性;大數據分析方法則是通過(guò)高效的算法、模式,對全體數據進(jìn)行分析。
3.大數據應用領(lǐng)域
4.結束語(yǔ)
大數據引發(fā)思維變革。在大數據時(shí)代,數據的收集、獲取和分析都更加快捷,這些海量的數據將對我們的思考方式產(chǎn)生深遠的影響。分析數據時(shí)要盡可能地利用所有數據,而不只是分析少量的樣本數據。相比于精確的數據,我們更樂(lè )于接受紛繁復雜的數據。我們應該更為關(guān)注事物之間的相關(guān)關(guān)系,而不是探索因果關(guān)系。大數據的簡(jiǎn)單算法比小數據的復雜算法更為有效。大數據的分析結果將減少決策中的草率和主觀(guān)因素,數據科學(xué)家將取代“專(zhuān)家”。 [科]
【參考文獻】
[2]黃曉斌,鐘輝新.基于大數據的企業(yè)競爭情報系統模型構建[J].情報雜志,2013(03).