分析論文:云計算環(huán)境下大數據
1大數據處理流程
基本的大數據的處理流程可以分成數據采集、數據處理與集成、數據分析和數據解釋4個(gè)階段。首先獲取數據源的數據,因為在數據源端的數據包含各種各樣的結構,需要使用某種方法將其進(jìn)行預處理,使數據成為某種可以用一種算法分析的統一數據格式,接著(zhù)需要找到這種數據分析的算法,將預處理過(guò)的數據進(jìn)行算法特定的分析,并將分析的結果用可視化等手段呈現至用戶(hù)端。
1.1數據采集
大數據的采集是整個(gè)流程的基礎,隨著(zhù)互聯(lián)網(wǎng)技術(shù)和應用的發(fā)展以及各種終端設備的普及,使得數據的生產(chǎn)者范圍越來(lái)越大,數據的產(chǎn)量也越來(lái)越多,數據之間的關(guān)聯(lián)也越來(lái)越復雜,這也是大數據中“大”的體現,所以需要提高數據采集速度和精度要求。
1.2數據處理與集成
數據的處理與集成主要是對前一步采集到的大量數據進(jìn)行適當的預處理,包括格式化、去噪以及進(jìn)一步集成存儲。因為數據采集步驟采集到的數據各種各樣,其數據結構也并不統一,不利于之后的數據分析,而且,一些數據屬于無(wú)效數據,需要去除,否則會(huì )影響數據分析的精度和可靠性,所以,需要將數據統一格式并且去除無(wú)效數據。通常會(huì )設計一些過(guò)濾器來(lái)完成這一任務(wù)。
1.3數據分析
在完成了數據的采集和處理后,需要對數據進(jìn)行分析,因為在進(jìn)行數據分析后才能體現所有大數據的重要價(jià)值。數據分析的對象是上一步數據的處理與集成后的統一格式數據,需要根據所需數據的應用需求和價(jià)值體現方向對這些原始樣本數據進(jìn)一步地處理和分析,F有的數據分析通常指采用數據倉庫和數據挖掘工具對集中存儲的數據進(jìn)行分析,數據分析服務(wù)與傳統數據分析的差別在于其面向的對象不是數據,而是數據服務(wù)。
1.4數據解釋
數據解釋是對大數據分析結果的解釋與展現,在數據處理流程中,數據結果的解釋步驟是大數據分析的`用戶(hù)直接面對成果的步驟,傳統的數據顯示方式是用文本形式體現的,但是,隨著(zhù)數據量的加大,其分析結果也更復雜,傳統的數據顯示方法已經(jīng)不足以滿(mǎn)足數據分析結果輸出的需求,因此,數據分析企業(yè)會(huì )引入“數據可視化技術(shù)”作為數據解釋方式。通過(guò)可視化結果分析,可以形象地向用戶(hù)展示數據分析結果。
2云計算與大數據分析的關(guān)系
云計算是基于互聯(lián)網(wǎng)的相關(guān)服務(wù)的增加、使用和交付模式,通常涉及通過(guò)互聯(lián)網(wǎng)來(lái)提供動(dòng)態(tài)易擴展且經(jīng)常是虛擬化的資源,是一種按使用量付費的模式。這種模式提供可用的、便捷的、按需的網(wǎng)絡(luò )訪(fǎng)問(wèn),進(jìn)入可配置的計算資源共享池(資源包括網(wǎng)絡(luò )、服務(wù)器、存儲、應用軟件、服務(wù)),這些資源能夠被快速提供,只需投入很少的管理工作,或與服務(wù)供應商進(jìn)行很少的交互。目前,國內外已經(jīng)有不少成熟的云計算的應用服務(wù)。數據分析是整個(gè)大數據處理流程里最核心的部分。數據分析是以數據的價(jià)值分析為目的的活動(dòng),而基于大數據的數據分析通常表現為對已獲取的海量數據的分析,其數據來(lái)源可能是企業(yè)數據也可能是企業(yè)數據與互聯(lián)網(wǎng)數據的融合。從目前的趨勢來(lái)看,云計算是大數據的IT基礎,是大數據分析的支撐平臺,不斷增長(cháng)的數據量需要性能更高的數據分析平臺承載。所以,云計算技術(shù)的不斷發(fā)展可以為大數據分析提供更為靈活、迅速的部署方案,使得大數據分析的結果更加精確。另一方面,云計算的出現為大數據分析提供了擴展性更強,使用成本更低的存儲資源和計算資源,使得中小企業(yè)也可以通過(guò)云計算來(lái)實(shí)現屬于自己的大數據分析產(chǎn)品。大數據技術(shù)本身也是云計算技術(shù)的一種延伸。大數據技術(shù)涵蓋了從數據的海量存儲、處理到應用多方面的技術(shù),包括海量分布式文件系統、并行計算框架、數據庫、實(shí)時(shí)流數據處理以及智能分析技術(shù),如模式識別、自然語(yǔ)言理解、應用知識庫等等。但是,大數據分析要走向云計算還要賴(lài)于數據通信帶寬的提高和云資源的建設,需要確保原始數據能遷移到云環(huán)境以及資源池可以隨需彈性擴展。
3基于云計算環(huán)境的Hadoop
為了給大數據處理分析提供一個(gè)性能更高、可靠性更好的平臺,研究者基于MapReduce開(kāi)發(fā)了一個(gè)基于云計算環(huán)境的開(kāi)源平臺Hadoop。Hadoop是一個(gè)以MapReduce算法為分布式計算框架,包括分布式文件系統(HDFS)、分布式數據庫(Hbase、Cassandra)等功能模塊在內的完整生態(tài)系統,已經(jīng)成為當前最流行的大數據處理平臺,并被廣泛認可和開(kāi)發(fā)應用;贖adoop,用戶(hù)可編寫(xiě)處理海量數據的分布式并行程序,并將其運行于由成百上千個(gè)節點(diǎn)組成的大規模計算機集群上。
4實(shí)例分析
本節以電信運營(yíng)商為例,說(shuō)明在云計算環(huán)境中基于Hadoop的大數據分析給大數據用戶(hù)帶來(lái)的價(jià)值。當前傳統語(yǔ)音和短信業(yè)務(wù)量下滑,智能終端快速增長(cháng),移動(dòng)互聯(lián)網(wǎng)業(yè)務(wù)發(fā)展迅速,大數據分析可以為運營(yíng)商帶來(lái)新的機會(huì ),幫助運營(yíng)商更好地轉型。本文數據分析樣本來(lái)自于某運營(yíng)商的個(gè)人語(yǔ)音和數據業(yè)務(wù)清單,通過(guò)Hadoop2.6.0在Ubuntu12.04系統中模擬了一個(gè)大數據分析平臺來(lái)處理獲得的樣本。希望通過(guò)對樣本數據的分析與挖掘,掌握樣本本身的一些信息。以上分析只是一些很基本的簡(jiǎn)單分析,實(shí)際上樣本數據中所蘊含的價(jià)值要遠遠大于本文體現的。以上舉例意在說(shuō)明基于云計算的大數據分析可以在數據分析上體現出良好的性能,為企業(yè)帶來(lái)更豐富更有效率的信息提取、分類(lèi),并從中獲益。
5結束語(yǔ)
基于云計算的大數據分析已經(jīng)成為解決大數據問(wèn)題的主要手段,云計算環(huán)境中的大數據分析平臺部署需要綜合考慮硬件、網(wǎng)絡(luò )、軟件等各方面的集成,使大數據的海量信息積累體現價(jià)值,顯示云計算的性能優(yōu)勢,而沒(méi)有云計算技術(shù)的支撐也不能進(jìn)行高效和準確的大數據處理分析。最后本文通過(guò)一個(gè)例子來(lái)分析了基于云計算的大數據分析給企業(yè)帶來(lái)的價(jià)值,由此可見(jiàn),大數據需要云計算技術(shù)的深入挖掘,同時(shí)也促進(jìn)了云計算技術(shù)的不斷發(fā)展。
【分析論文:云計算環(huán)境下大數據】相關(guān)文章:
云計算環(huán)境數據安全研究論文04-16
云計算環(huán)境下大規模數據處理技術(shù)研究論文04-17
研究基于云計算角度下的數據存儲安全技術(shù)論文04-17
云計算環(huán)境下的網(wǎng)絡(luò )技術(shù)及其發(fā)展論文02-13