97骚碰,毛片大片免费看,亚洲第一天堂,99re思思,色好看在线视频播放,久久成人免费大片,国产又爽又色在线观看

Frame頁(yè)面網(wǎng)絡(luò )日志數據挖掘預處理方法的論文

時(shí)間:2021-06-11 09:11:33 論文 我要投稿

關(guān)于Frame頁(yè)面網(wǎng)絡(luò )日志數據挖掘預處理方法的論文

  摘 要

關(guān)于Frame頁(yè)面網(wǎng)絡(luò )日志數據挖掘預處理方法的論文

  本文結合網(wǎng)絡(luò )日志數據挖掘技術(shù),通過(guò)對Frame頁(yè)面和SubFrame頁(yè)面進(jìn)行分析,提出基于改進(jìn)的Frame頁(yè)面數據挖掘預處理方法。該方法從SubFrame頁(yè)面信息著(zhù)手,從而提高預處理過(guò)程中的信息識別能力。實(shí)驗表明,該方法在網(wǎng)絡(luò )日志的數據挖掘預處理過(guò)程中,有效提高了信息的精準度。

  【關(guān)鍵詞】數據挖掘 Frame頁(yè)面 SubFrame頁(yè)面

  1 引言

  隨著(zhù)互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,簡(jiǎn)單的信息搜索技術(shù)已經(jīng)不能滿(mǎn)足現階段網(wǎng)絡(luò )信息獲取的需求。網(wǎng)絡(luò )日志數據挖掘技術(shù)是結合網(wǎng)絡(luò )日志用戶(hù)的訪(fǎng)問(wèn)行為規律、興趣需求等信息,加以分析,優(yōu)化網(wǎng)絡(luò )內容與網(wǎng)絡(luò )文本文檔的組織結構,以此提高網(wǎng)絡(luò )站點(diǎn)的競爭力。我們發(fā)現網(wǎng)絡(luò )日志記錄往往十分龐大,傳統的預處理方法,并不能很好解決日志頁(yè)面對站點(diǎn)組織結構的影響。因此,進(jìn)行網(wǎng)絡(luò )日志預處理方法的研究,具有一定的現實(shí)意義。

  對于傳統的網(wǎng)絡(luò )日志的數據挖掘,預處理階段的Frame頁(yè)面和SubFrame頁(yè)面在用戶(hù)會(huì )話(huà)文件出現的概率很高,這就降低了會(huì )話(huà)識別的興趣度。因此,必須消除Frame頁(yè)面對網(wǎng)絡(luò )日志數據挖掘的影響。我們將Frame頁(yè)面以及其SubFrame頁(yè)面被看為一個(gè)整體,用Frame頁(yè)面代替通過(guò)會(huì )話(huà)文件尋找Frame頁(yè)面和Subframe頁(yè)面,并剔除多余的頁(yè)面,以提高日志數據挖掘的興趣性。

  2 改進(jìn)的'Frame頁(yè)面數據挖掘預處理方法

  通過(guò)對Frame頁(yè)面過(guò)濾方法,結合實(shí)際情況分析,我們利用ID3決策樹(shù)算法,提出基于改進(jìn)的Frame頁(yè)面過(guò)濾方法,以提高網(wǎng)絡(luò )日志數據挖據的效率。該方法如下:

  輸入:FS表(pidframne , pidsubframe)所對應的集合;集合屬性包括 {index.html,top.html,left.html,main.html,…}

  輸出:判定策略

  For each users session

  {

  currentframe=null

  make_node(web)

  if((cerrenframe, pid, ∈FS) make_tree(currentframe,web_left)

  Else if pid, ∈dom(FS)

  {curremtframe pidi make_decition_tree(currentframe,web_left}

  else make_decition-tree(currentframe,web_rleft

  if attribute_list=null{make_decition_tree(currentframe,web_right);}

  else if(one ofattribute_list)>allgain

  currentframe=test-attribute;

  make_decition(ai,web_left)

  Else generate_decision_tree(ai,web_right)

  }

  上述策略認為,訪(fǎng)問(wèn)站點(diǎn)的頁(yè)面為根節點(diǎn),具有信息增益最高的特征,currentframe變量記錄web當前頁(yè)面pidi。若當前頁(yè)面pidi不屬于frame頁(yè)面,則歸類(lèi)左子樹(shù),反之當前頁(yè)面pidi歸入右子樹(shù)。即pid,∈DOM(FS)。而frame頁(yè)面的subframe頁(yè)面歸類(lèi)左子樹(shù)。這樣一來(lái),frame頁(yè)面為決策樹(shù)右樹(shù),subframe頁(yè)面為決策樹(shù)左樹(shù),subframe頁(yè)面在會(huì )話(huà)識別階段得到保留,以便后續路徑補充。該方法優(yōu)化了站點(diǎn)的組織結構,較好提升了網(wǎng)絡(luò )日志數據預處理效率。

  3 實(shí)驗分析

  我們通過(guò)Frame頁(yè)面過(guò)濾預處理方法實(shí)驗,驗證本文提出的改進(jìn)方法。實(shí)驗提取700個(gè)日志所記錄的訪(fǎng)問(wèn)頁(yè)面,共20萬(wàn)條日志文件,結合本文提出的改進(jìn)Frame頁(yè)面網(wǎng)絡(luò )日志數據挖掘預處理方法,與傳統頁(yè)面預處理方法進(jìn)行對比測試。結果如表1所示。

  在表1中,絕對支持度表示用戶(hù)頻繁訪(fǎng)問(wèn)頁(yè)面的最小會(huì )話(huà)數,FSi表示用戶(hù)頻繁訪(fǎng)問(wèn)頁(yè)面集合數,*為用戶(hù)不感興趣的頁(yè)面集,△表示頁(yè)面集是用戶(hù)感興趣的,△△表示頁(yè)面集用戶(hù)感興趣程度加強。實(shí)驗表明,改進(jìn)Frame頁(yè)面過(guò)濾方法相比傳統方法,預處理結果得到提高,因此,網(wǎng)絡(luò )日志的數據挖掘效率得到加強。

  4 小結

  本文通過(guò)對網(wǎng)絡(luò )日志數據挖掘預處理技術(shù)進(jìn)行分析,結合預處理過(guò)程中的實(shí)際情況,著(zhù)重考慮SubFrame頁(yè)面剔除對站點(diǎn)組織結構的影響,提出了改進(jìn)的Frame頁(yè)面網(wǎng)絡(luò )日志數據挖掘預處理方法,實(shí)驗表明,該方法較好的提高了網(wǎng)絡(luò )日志數據挖掘的預處理精度和效率。

  參考文獻

  [1]方元康等.一種改進(jìn)的Web日志會(huì )話(huà)識別方法[J].計算機技術(shù)與發(fā)展,2008,18(11):214-216.

  [2]朱明.數據挖掘[M].合肥:中國科技大學(xué)出版社,2008:13-56.

  [3]朱志國等.持久偏愛(ài)的Web用戶(hù)訪(fǎng)問(wèn)路徑信息挖掘方法[J].情報學(xué)報,2010,29(2).

  [4]凌海峰等.基于混合蟻群算法的web用戶(hù)會(huì )話(huà)聚類(lèi)[J].計算機工程與應用,2013(22).

  [5]韓法旺.Web日志挖掘數據預處理過(guò)程研究[J].南京工業(yè)職業(yè)技術(shù)學(xué)院學(xué)報,2012(2).

  [6]凌海峰等.基于聚類(lèi)的web用戶(hù)會(huì )話(huà)識別優(yōu)化方法[J].計算機應用研究,2012(8).

【Frame頁(yè)面網(wǎng)絡(luò )日志數據挖掘預處理方法的論文】相關(guān)文章:

數據挖掘論文03-31

數據挖掘論文07-15

數據挖掘教學(xué)方法研究論文07-04

專(zhuān)利數據挖掘的論文06-12

數據挖掘論文精選5篇論文06-13

網(wǎng)絡(luò )數據挖掘規劃論文04-03

大數據自動(dòng)分析與數據挖掘探討的論文04-26

數據挖掘技術(shù)在WEB的運用論文04-26

數據挖掘在CRM中的應用論文04-10