數據信息與知識論文
一、人類(lèi)社會(huì )三大要素
人類(lèi)社會(huì )三大要素(能源 材料和信息)中,信息愈來(lái)愈顯示出其重要性和支配力,它將人類(lèi)社會(huì )由工業(yè)化時(shí)代推向信息化時(shí)代,使現代社會(huì )所有大的機構都卷入到以數據及其處理(數據搜集 存儲 檢索 傳送 分析和表示)的浪潮中。而隨著(zhù)人類(lèi)活動(dòng)范圍擴展,節奏加快,以及技術(shù)的進(jìn)步,人們能以更快速較易而廉價(jià)的方式獲取和存儲數據,這就使得數據和信息量以指數形式向上增長(cháng)。早在八十年代,人們粗略地估算到全球信息量,每隔20個(gè)月就增加班一倍。進(jìn)入九十年代,各類(lèi)機構所有數據庫數據量增長(cháng)更快。一個(gè)不大的企業(yè)每天要產(chǎn)生100MB以上來(lái)自各方面的營(yíng)業(yè)數據。美國政府部門(mén)的一個(gè)典型的大數據庫每天要接收約5TP數據量,在15秒到1分鐘時(shí)間里,要維持的數據量達到300TB,存檔數據達15-100PB。在科研方面,以美國宇航局的數據庫為例,每天從衛星下載的數據量就達3-4TB之多,而為了研究的需要,這些數據要保存七年之久。九十年代因特網(wǎng)(Internet)的出現和發(fā)展,以及隨之而來(lái)的企業(yè)內部網(wǎng)(Intranet)和企業(yè)外部網(wǎng)(Extranet)以及虛擬私有網(wǎng)(V P N--Virtual Private network)的產(chǎn)生和應用,將整個(gè)世界聯(lián)成一個(gè)小小的地球村,人們可以跨越時(shí)空地在網(wǎng)上交換信息和協(xié)同工作。這樣,展現在人們面前的已不是局限于本部門(mén),本單位和本行業(yè)的龐大數據庫,而是浩瀚無(wú)垠的信息海洋。據估計,1993年面全球數據存貯容量約為二千TP,到達2000年會(huì )增加到三百萬(wàn)TB,對這極度膨脹的數據信息量,人們受到“信息爆炸”“混沌信息空間”(Information Chaotic Spact)和“數據過(guò)!保―ata glut)的巨大壓力。
然而,人類(lèi)的各項活動(dòng)基于人類(lèi)的智慧和知識,即對外部世界的觀(guān)察和了解,正確的判斷和決策以及采取正確的行動(dòng),而數據僅僅是人們用各種工具和手段觀(guān)察外部世界所得到的原始材料,它本身沒(méi)有任何意義。從數據到智慧,要經(jīng)過(guò)分析加工處理精煉的過(guò)程。如圖1所示:數據是原材料,它只是描述發(fā)生了什么事情,它不提供判斷或解釋?zhuān)托袆?dòng)的可靠基礎。人們對數據進(jìn)行分析找出其中關(guān)系,賦予數據以某種意義和關(guān)聯(lián),這就形成所謂信息。信息雖給出了數據中一些有一定意義的東西,但它往往和人們手上的任務(wù)沒(méi)有什么關(guān)聯(lián),還不能做為判斷 決策和行動(dòng)的依據。對信息進(jìn)行再加工,進(jìn)行深入洞察,才能獲得更有用可資利用的信息,即知識.所謂知識,可以定義為“信息塊中的一組邏輯聯(lián)系,其關(guān)系是通過(guò)上下文或過(guò)程的貼近度發(fā)現的!睆男畔⒅欣斫馄淠J,即形成知識。在大量知識積累基礎上,總結成原理和法則,就形成所謂智慧(Wisdom).其實(shí),一部分人類(lèi)文明發(fā)展史,就是在各種活動(dòng)中 知識的創(chuàng )造 交流 再創(chuàng )造不斷積累的螺旋式上升的歷史。另一方面,計算機與信息技術(shù)的發(fā)展,加速了這種過(guò)程,據德國世界報的資料分析,如果說(shuō)19世紀時(shí)科學(xué)定律(包括新的化學(xué)分子式,新的物理關(guān)系和新的醫學(xué)認識)的認識數量一百年增長(cháng)一倍,到本世紀60年代中期以后,每五年就增加一倍。這其中知識起著(zhù)關(guān)鍵的作用。當數據量極度增長(cháng)時(shí),如果沒(méi)有有效的方法,由計算機及信息技術(shù)來(lái)提取有用信息和知識,也感到像大海撈針一樣束手無(wú)策。據估計,一個(gè)大型企業(yè)數據庫中數據,只有百分之七得到很好應用.這樣,相對于“數據過(guò)! 和“信息爆炸”,人們又感到“信息貧乏”(Information poor)"數據關(guān)在牢籠中”(data in jail).
二 從數據到知識
早在八十年代,人們從“物競天擇 適者生存”的大原則下,認識到“誰(shuí)最先從外部世界獲得有用信息并加以利用誰(shuí)就是優(yōu)勝者”,F時(shí)當市場(chǎng)經(jīng)濟面向全球性劇烈競爭的環(huán)境下,一家廠(chǎng)商的優(yōu)勢不在于像產(chǎn)品 服務(wù) 地區等方面因素,而在于創(chuàng )新。用知識來(lái)作為創(chuàng )新的原動(dòng)力,就能使公司長(cháng)期持續保持競爭優(yōu)勢。因此要能及時(shí)迅速從日積月累的龐大的數據庫及網(wǎng)絡(luò )上獲取有關(guān)經(jīng)營(yíng)決策有關(guān)知識,這是應付客戶(hù)需求易變性及市場(chǎng)快速變化引起競爭激烈局面的唯一武器。
針對上述情況,如何對數據與信息快速有效地進(jìn)行分析加工提煉以獲取所需知識并發(fā)揮其作用,向計算機和信息技術(shù)領(lǐng)域提出了新的挑戰。其實(shí)計算機和信息技術(shù)發(fā)展的過(guò)程,也是數據和信息加工手段不斷更新和改善的過(guò)程。早年受技術(shù)條件限制,一般用人工方法進(jìn)行統計分析,和用批處理程序進(jìn)行匯總和提出報告.在當時(shí)市場(chǎng)情況下,月度和季度報告已能滿(mǎn)足決策所需信息要求。隨著(zhù)數據量的增長(cháng),多渠道數據源帶來(lái)各種數據格式的不相容性,為了便于獲得決策所需信息,就有必要將整個(gè)機構內的數據以統一形式集成存儲在一起,這就是所謂數據倉庫(data Warehousing).它不同于只適用于日常工作的數據庫.它是為了便于分析針對一定主
題(Subject-oriented)的集成化的 時(shí)變的(time-Variant即提供存貯5-10或更老的數據,這些數據不再更新,供比較以求出趨向及預測用)非破壞性(即只容易輸入和訪(fǎng)問(wèn)不容許更新和改變)的數據集中場(chǎng)所。數據倉庫的出現,為更深入對數據進(jìn)行分析提供了條件,針對市場(chǎng)變化的加速人們提出了能實(shí)時(shí)分析和報表的在線(xiàn)分析手段OLAP(On Line Analytical Processing),它是一種友好而靈活的工具,它能允許用戶(hù)以交互方式瀏覽數據倉庫對其中數據進(jìn)行多維分析,能及時(shí)地從變化和不太完整的數據中提出與企業(yè)經(jīng)營(yíng)動(dòng)作有關(guān)的信息。例如能對數據中的異常和變化行為進(jìn)行了解,OLAP是數據分析手段的一大進(jìn)步,以往的分析工具所得到的報告結果能回答“什么”(What),而OLAP的分析結果能回答“為什么”(Why)。但上述分析手段是建立在用戶(hù)對深藏在數據中的某種知識有預感和假設的前提下。而由于數據倉庫(通常數據貯藏量以TB計)及聯(lián)網(wǎng)界面上的數據來(lái)源于多種信息源,因此其中埋藏著(zhù)豐富的不為用戶(hù)所知的有用信息和知識,而要使企業(yè)能及時(shí)迅速準確地作出經(jīng)營(yíng)動(dòng)作的決策,以適應變化迅速的市場(chǎng)環(huán)境,就需要有一種基于計算機與信息技術(shù)的智能化自動(dòng)工具,來(lái)發(fā)掘埋藏在數據中的各類(lèi)知識。這種手段不應再基于用戶(hù)假設,而應能自身生成多種多種假設,再用數據倉庫或聯(lián)網(wǎng)的數據進(jìn)行檢驗和驗證,然后返回對用戶(hù) 最有用的結果。同時(shí)這種工具還應能適應現實(shí)世界中數據的多種特性(即量大 含噪聲 不完整 動(dòng)態(tài) 稀疏性 異質(zhì) 非線(xiàn)性等)。要達到上述要求,只借助于一般數學(xué)分析和算法是無(wú)能為力的。多年來(lái),數理統計技術(shù)以及人工智能和知識工程等領(lǐng)域的研究成果,諸如推理 歸納學(xué)習 機器學(xué)習 知識獲取 模糊理論 神經(jīng)元網(wǎng)絡(luò ) 進(jìn)化算法 模式識別 粗糙集理論等等分支給開(kāi)發(fā)上述工具提供了堅實(shí)而豐富的理論和技術(shù)基礎。九十年代中期以來(lái),許多軟件開(kāi)發(fā)商,基于上述技術(shù)和市場(chǎng)需求,開(kāi)發(fā)了名目繁多的數據發(fā)掘(DM--Data Mining)和知識發(fā)現(KDD--Discovery from Data)工具和軟件,DM和KDD形成了近年來(lái)軟件開(kāi)發(fā)市場(chǎng)的熱點(diǎn),并且已不斷出現成套軟件和系統,并開(kāi)始朝智能化整體解決方案發(fā)展,這是從數據到知識前進(jìn)過(guò)程中又一個(gè)里程碑。
從數據中獲取有用信息或知識,是一個(gè)完整的對數據進(jìn)行加工 處理的過(guò)程。如圖3所示,其中DM是關(guān)鍵的一步。挑選:按一定的標準從數據源中挑選或切取一組數據,形成目標數據。凈化和預處理:將不必要或影響分析進(jìn)程的部分數據刪去。轉換:將預處理后的數據進(jìn)行某些轉換使之成為可用和可導引的數據。數據發(fā)掘:這是關(guān)鍵的階段,從數據中抽取出信息的模式。所謂模式,可以作如下定義:給定一組事實(shí)(數據)F,一種語(yǔ)言L(fǎng),和某種可信度測量C,模式就是一種用L的描述方式S,它以可信度C對F的一個(gè)子集Fs各事實(shí)間的關(guān)系進(jìn)行描述,這種描述在某種意義上比枚舉Fs中所有事實(shí)上要簡(jiǎn)單得多。解釋賦義或可視化:將模式解釋為可以支持決策的知識,例如預測 分類(lèi) 匯總數據內容和解釋所觀(guān)察到的現象等。上述階段之間也許還需要某種迭代分析.(見(jiàn)圖3)從上述過(guò)程可以看出,從數據中獲取知識是涉及多個(gè)領(lǐng)域內技術(shù)融合的綜合應用(見(jiàn)圖4)
數據庫 模式識別
技術(shù)
機器學(xué) 可視化
習技術(shù) 技術(shù)
AI技術(shù) 統計學(xué)
圖4 DM(KDD)與相關(guān)技術(shù)
三 KDD(DM)的任務(wù) 技術(shù)和應用
利用DM(KDD)技術(shù)可以完成多項決策所需任務(wù),但大致可分為下述幾方面:預測:從事例中求得模式,構造模型以預測目標度量。分類(lèi):找出一函數能使每事例映射到某種離散類(lèi)別之一。查出關(guān)系:搜索到對某選定目標變量最有影響的其它獨立變量。顯式模型:找出描述不同變量間依賴(lài)關(guān)系的顯式公式。聚類(lèi):認定出描述數據的類(lèi)別的有限分組。偏離檢測:從數據已有或期望值中找出某些關(guān)鍵測度顯著(zhù)的變化。
由于上述任務(wù)的不同,就需要采用不同的技術(shù)方法和手段,因而在市面也出現種類(lèi)繁多的商品工具和軟件。大致可以歸納為下列主要類(lèi)型:
傳統主觀(guān)導向系統:這是針對專(zhuān)業(yè)領(lǐng)域應用的系統。如基于技術(shù)分析方法對金融市場(chǎng)進(jìn)行分析。采用的方法從簡(jiǎn)單的走向分析直到基于高深數學(xué)基礎的分形理論和譜分析。這種技術(shù)需要有經(jīng)驗模型為前提.屬于這類(lèi)商品有美國的Metastak,SuperCharts,Candlestick Forecaster 和Wall Street Money等
傳統統計分析:這類(lèi)技術(shù)包括相關(guān)分析 回歸分析及因子分析等。一般先由用戶(hù)提供假設,再由系統利用數據進(jìn)行驗證。缺點(diǎn)是需經(jīng)培訓后才能使用,同時(shí)在數據探索過(guò)程中,用戶(hù)需要重復進(jìn)行一系列操作。屬于這類(lèi)商品有美國的SAS,SPSS和Stargraphis等。由于近年來(lái)更先進(jìn)的DM方法的出現和使用,這些廠(chǎng)商在原有系統中綜合一些DM部件,以獲得更完善的功能。
以上兩種技術(shù)主要基于傳統的數理統計等數學(xué)的基礎上,一般早已開(kāi)始用于數據分析方面。
神經(jīng)元網(wǎng)絡(luò )(NN)技術(shù):神經(jīng)元網(wǎng)絡(luò )技術(shù)是屬于軟計算(Soft Computing)領(lǐng)域內一種重要方法,它是多年來(lái)科研人員進(jìn)行人腦神經(jīng)學(xué)習機能模擬的成果,已成功地應用于各工業(yè)部門(mén)。在DM(KDD)的應用方面,當需要復雜或不精確數據中導出概念和確定走向比較困難時(shí),利用神經(jīng)網(wǎng)絡(luò )技術(shù)特別有效。經(jīng)過(guò)訓練后的NN可以想像具有某種專(zhuān)門(mén)知識的“專(zhuān)家”,因此可以像人一樣從經(jīng)驗中學(xué)習。NN有多種結構,但最常用的是多層BP(back propagation)模型。它已廣泛地應用于各種DM(KDD)工具和軟件中。有些是以NN為主導技術(shù),例如俄羅斯的PolyAnalyst,美國的BrainMaker,Neurosell和OWL等。NN技術(shù)也已廣泛地做為一種方法嵌入各種DM成套軟件中。其缺點(diǎn)是用它來(lái)分析復雜的系統諸如金融市場(chǎng),NN就需要復雜的結構為數眾多神經(jīng)元以及連接數,從而使現有的事例數(不同的紀錄數)無(wú)法滿(mǎn)足訓練的需要。另外由受訓后的NN所代表的預測模型的非透明性也是其缺點(diǎn),盡管如此,它還是廣泛而成功地為各種金融應用分析系統所采用。
決策樹(shù):在知識工程領(lǐng)域,決策樹(shù)是一種簡(jiǎn)單的知識表示方法,它將事例逐步分類(lèi)成代表不同的類(lèi)別。由于分類(lèi)規則是比較直觀(guān)的,因而比較易于理解,雖然在機器獲取領(lǐng)域內,多年來(lái)已研制出不少實(shí)施決策樹(shù)的有效算法(如ID3及其改進(jìn)算法等)。但這種方法限于分類(lèi)任務(wù)。在系統中采用這種方法的有美國的IDIS,法國的SIPINA。英國的Clementinc和澳大利亞的C5.0。
進(jìn)化式程序設計(Evolutionary programming):這種方法的獨特思路是:系統自動(dòng)生成有關(guān)目標變量對其他多種變量依賴(lài)關(guān)系的務(wù)種假設,并形成以?xún)炔烤幊陶Z(yǔ)言表示的程序。內部程序(假設)的產(chǎn)生過(guò)程是進(jìn)化式的,類(lèi)似于遺傳算法過(guò)程。當系統找到較好地描述依賴(lài)關(guān)系的一個(gè)假設時(shí),就對這程序進(jìn)行各種不同的微小修正,生成子程序組,再在其中選擇能更好地改進(jìn)預測精度的子程序,如此依次進(jìn)行,最后獲得達到所需精度的最好程序時(shí),由系統的專(zhuān)有模塊將所找到的依賴(lài)關(guān)系由內部語(yǔ)言形式轉換成易于為人們理解的顯式形式,如數學(xué)公式,預測表等。由于采用通用編程語(yǔ)言,這種主法在原則上能保證任何一種依賴(lài)關(guān)系和算法都能用這種語(yǔ)言來(lái)描述。這種方法也許是目前最年青的和最有前途的DN方法之一。這種是方法的商用產(chǎn)品還只見(jiàn)諸俄羅斯的Poly Analyst,據報導,它用于金融到醫療方面軍的各種應用于,能獲得者很好的'結果。
基于事例的推理方法(CBR棗Case based reasoning)這種方法的思路非常簡(jiǎn)單,當預測未來(lái)情況或進(jìn)行正確決策時(shí),系統尋找與現有情況相類(lèi)似的事例,并選擇最佳的相同的解決方案,這種方法能用于很多問(wèn)題求解,并獲得好的結果,其缺點(diǎn)是系統不能生成匯總過(guò)去經(jīng)驗的模塊或規則。采用這種方法的系統有美國的Pattern Recognition Workbench和法國的KATE tools.
遺傳算法(GA棗Genetic Algorithms):嚴格說(shuō)來(lái),DA不是GA應用的主要領(lǐng)域,它是解決各種組合或優(yōu)化問(wèn)題的強有力的手段,但它在現代標準儀器表中也用來(lái)完成DA任務(wù)。這種方法的不足之處是:這種問(wèn)題的生成方式使估計所得解答的統計意義的任何一種機會(huì )不再存在。另外一方面,只有專(zhuān)業(yè)人員才能提出染色體選擇的準則和有效地進(jìn)行問(wèn)題描述與生成。在系統中包含遺傳算法的有美國的GeneHunter.
非線(xiàn)性回歸方法:這種方法的基礎是,在預定的函數的基礎上,尋找目標度量對其它多種變量的依賴(lài)關(guān)系。這種方法在金融市場(chǎng)或醫療診斷的應用場(chǎng)合,比較好的提供可信賴(lài)的結果。在俄羅斯的Paly Analyst以及美國的Neuroshell系統中包括了這種技術(shù)。
上面所列DM技術(shù)不可能是詳盡的囊括,因為多年來(lái)數理統計分析以及AI與KE的研究提供了種類(lèi)繁多特點(diǎn)各異的手段,DM開(kāi)發(fā)人員完全可
以根據不同任務(wù)加以選擇使用,另外近年來(lái)在軟計算(Soft Comp-uting)和不確定信息處理(dealing with Uncertainty of information)方法的研究,促使DM(KDD)技術(shù)向更深層次發(fā)展。
另外需要說(shuō)明的,上面所說(shuō)的DM中的數據是指數據庫中表格形式中的記錄和條目,這種數據稱(chēng)作結構型數據(Structured data)。在一個(gè)企業(yè)中,還有一類(lèi)像文本和網(wǎng)頁(yè)形式的數據,稱(chēng)作非結構型數據(unstructured data)。它來(lái)自不同的信息源,如文本 圖像 影視和音響等,當然文本是最主要的一種非結構數據.對一個(gè)企事業(yè)單位來(lái)說(shuō),非結構型數據往往占數據總量的80%,而結構型數據只占20%。1995年分析家已預言,像文本這樣非結構型數據將是在線(xiàn)存貯方面占支配地位的數據形式。到1998年初,在Internet上的信息網(wǎng)頁(yè)數,已超過(guò)5億,到2000年,預計網(wǎng)頁(yè)數將達到15億。隨著(zhù)Internet的擴展和大量在線(xiàn)文本的出現,將標志這巨大的非結構型數據海洋中,蘊藏著(zhù)極其豐富的有用信息即知識。人們從書(shū)本中獲取知識方法是閱讀和理解。開(kāi)發(fā)一種工具能不需要閱讀而能協(xié)助用戶(hù)從非結構數據中抽取關(guān)鍵概念以及快速而有效地檢索到關(guān)心的信息,這將是一個(gè)非常引人入勝的研究領(lǐng)域。目前,基于圖書(shū) 索引 檢索以及超文本技術(shù)的各類(lèi)搜索引擎,能協(xié)助用戶(hù)尋找所需信息,但要深入發(fā)掘這類(lèi)數據中的有用用信息,尚需要更高層次的技術(shù)支持,人工智能領(lǐng)域有關(guān)知識表示及獲取的方法(如語(yǔ)義網(wǎng)絡(luò ) 概念映射等),和自然語(yǔ)言理解的研究成果,可望被采用。還可能要涉及到語(yǔ)言學(xué) 心理學(xué)等領(lǐng)域。最近已出現針對文本的DM工具的報導。如IBM公司的TexMiner,NetQuestion,WedCawler和megaputer公司的TextAnalyst等。
DM(KDD)工具和軟件已在各個(gè)部門(mén)得到很好的應用,并收到明顯的效益。在對客戶(hù)進(jìn)行分析方面:銀行信用卡和保險行業(yè),用DM將市場(chǎng)分成有意義的群組和部門(mén),從而協(xié)助市場(chǎng)經(jīng)理和業(yè)務(wù)執行人員更好地集中于有促進(jìn)作用的活動(dòng)和設計新的市場(chǎng)運動(dòng)。在客戶(hù)關(guān)系管理方面:DM能找出產(chǎn)
品使用模式或協(xié)助了解客戶(hù)行為,從而可以改進(jìn)通道管理(如銀行分支和ATM等)。又如正確時(shí)間銷(xiāo)
售(Right Time MarKeting)就是基于顧客生活周期模型來(lái)實(shí)施的。在零售業(yè)方面:DM用于顧客購貨籃的分析可以協(xié)助貨架布置,促銷(xiāo)活動(dòng)時(shí)間,促銷(xiāo)商品組合以及了解滯銷(xiāo)和暢銷(xiāo)商品狀況等商業(yè)活動(dòng)。通過(guò)對一種廠(chǎng)家商品在各連鎖店的市場(chǎng)共享分析,客戶(hù)統計以及歷史狀況的分析,可以確定銷(xiāo)售和廣告業(yè)務(wù)的有效性。在產(chǎn)品質(zhì)量保證方面:DM協(xié)助管理大數量變量之間的相互作用,DM能自動(dòng)發(fā)現出某些不正常的數據分布,暴露制造和裝配操作過(guò)程中變化情況和各種因素,從而協(xié)助質(zhì)量工程師很快地注意到問(wèn)題發(fā)生范圍和采取改正措施。在遠程通訊部門(mén):基于DM的分析協(xié)助組織策略變更以適應外部世界的變化,確定市場(chǎng)變化模式以指導銷(xiāo)售計劃.在網(wǎng)絡(luò )容量利用方面,DM能提供對客戶(hù)組類(lèi)服務(wù)使用的結構和模式的了解,從而指導容量計劃人員對網(wǎng)絡(luò )設施作出最佳投資決策。在各個(gè)企事業(yè)部門(mén),DM在假偽檢測 及險評估 失誤回避 資源分配 市場(chǎng)銷(xiāo)售預測廣告投資等很多方面,起著(zhù)很重要作用。例如在化學(xué)及制藥行業(yè),將DM用于巨量生物信息可以發(fā)現新的有用化學(xué)成分.在遙感領(lǐng)域針對每天從衛星上及其它方面來(lái)的巨額數據,對氣象預報,臭氧層監測等能起很大作用?傊,在國外,DM已廣泛應用于銀行金融,零售與批發(fā) 制造 保險 公共設施 政府 教育 遠程通訊 軟件開(kāi)發(fā) 運輸等各個(gè)企事業(yè)單位。據報導,DM的投資回報率有達400%甚至10倍的事例。
四 DM(KDD)產(chǎn)品狀況
九十年代開(kāi)始出現DM商用產(chǎn)品以來(lái),據不完全統計,到1998年底1999年初,已達50多個(gè)廠(chǎng)商從事DM的開(kāi)發(fā)工作,在美國DM產(chǎn)品市場(chǎng)在1994年約為5千萬(wàn)美元,1997年達到3億美元。預計2000年將達到8億美元。從產(chǎn)品的類(lèi)型來(lái)分有下列產(chǎn)品:提供廣泛的DM能力,典型產(chǎn)品有IBM的Intelligent Miner,SAS的Enterprise Miner.為某個(gè)部門(mén)旨在求解問(wèn)題,典型的有Unica公司的Response Modeler Segnentor,IBM公司的Busiess Application等。與提供服務(wù)一起,典型的有NeoVista,Hyperparallel,HNC Marksman.黑匣工具,典型的有GroupModell,ModelMax,NewralWare的Predict.解決客戶(hù)問(wèn)題有Marketier Paregram,Exchemge Application等。
據不完全統計,目前出現的DM工具和軟件,可以按采用技術(shù)分類(lèi)如下表:采用技術(shù)分 類(lèi)成 套聚 類(lèi)統計與回 歸連接與相 關(guān)序列模式可視化文筆與網(wǎng)絡(luò )DM報告與匯總偏差虛假檢測商品數73071157141132發(fā)表數4657217413。
DM商品軟件一般包含多種技術(shù)方法,以適應不同要求。經(jīng)常將成套工具按不同方式分成模塊,例如Spss的DM套件由下列按功能的模塊組成:基于規則的影響發(fā)現模塊。多維共性發(fā)現模塊。OLAP發(fā)現模塊。增量發(fā)現模塊。趨向發(fā)現模塊。比較發(fā)現模塊。預測發(fā)現模塊。而Neovista的DM套件卻按所采用的技術(shù)分組,基于GA的DecisionGA和基于規則相關(guān)的DecisionAR.
由于DM不能只看作一個(gè)獨立的操作,它是與前后操作聯(lián)系起來(lái),形成數據到知識的整體過(guò)程。有各種不同的組合方式,最自然的方式是將DM系統與數據倉庫和常規的SQL用戶(hù)界面和可視化工具聯(lián)系在一起。如圖5所示是NeoVista公司所提出的集成系統的示意簡(jiǎn)圖。它是將集成化知識發(fā)現環(huán)境和開(kāi)放式數據倉庫組成一個(gè)DM的集成環(huán)境。為了使DM所得到的結果更廣泛直接地為用戶(hù)所用,人們提出了模式庫(Patterm Base)模式倉庫(Patterm Warehouse)加上聯(lián)網(wǎng)模塊的方案,如圖6所示,這個(gè)稱(chēng)作DMsuite的結構直接工作在大型多表格的SQL數據庫基礎上,同時(shí)90%的DM工作在服務(wù)器上完成,這樣就使DM工作不受客戶(hù)機容量限制。
DM(KDD)的目的原本是為企事業(yè)單位提供決策的正確依據,從分析數據發(fā)現問(wèn)題作出決策采取行動(dòng)這一系列操作是一個(gè)單位的動(dòng)作行為,利用計算機及信息技術(shù)完成這整體行動(dòng),是發(fā)揮機構活力和贏(yíng)得競爭優(yōu)勢的唯一手段。所以前幾年一位分析學(xué)家將這種機構行為和手段稱(chēng)這為“事務(wù)智能”(BI棗Business Intelligent).他認為BI能極大地改進(jìn)決策的質(zhì)量和及時(shí)性,從而改進(jìn)機構的生產(chǎn)率或發(fā)揮競爭優(yōu)勢。所以近年來(lái),一些大公司將數據分析和DM(KDD)工具和有關(guān)技術(shù)組合起來(lái)形成所謂BIS(Business Intelligent Softwave)。其中SAS公司的作法是將數據源 ,數據預處理 ,數據存貯 ,數據分析與發(fā)掘 ,信息表示與應用等方面技術(shù)有機地綜合成一體,IBM公司更全面地考慮BI系統的結構和功能,與其它公司共同合作來(lái)開(kāi)發(fā)BI各類(lèi)軟件和工具。并從多方面來(lái)加以考慮:首先必須有一良好的數據庫和數據倉庫,并能使企業(yè)過(guò)渡到下一個(gè)世紀,所以提出了一個(gè)統一的數據庫系統DB2和一個(gè)可視化數據倉庫VDW(Visual Data Warehouse),可以將各種應用和各部門(mén)的信息融為一體,加上Visual Warehouse OLAP工具可以生成實(shí)時(shí)報告。在信息發(fā)現和數據發(fā)掘工具方面,提出能對結構型和非結構型數據進(jìn)行發(fā)掘的一整套智能工具(Intelligent Miner Family)。BI手段只有在好的數據基礎才能見(jiàn)效,因此提出數據重組工具。向用戶(hù)提供聯(lián)合統一觀(guān)點(diǎn)的企業(yè)數據是作出聰明決策的前提,提出能支持異形數據庫的DataJointer(數據接合)工具,具有簡(jiǎn)單而強有力的數據查詢(xún)和優(yōu)化的數據訪(fǎng)問(wèn)功能,并能對異形數據庫數據進(jìn)行復制,以便不斷更新數據倉庫內容。所有工具不僅易于使用外,并能與數據倉庫無(wú)縫地集成在一起。圖 8是IBM BI系統的結構圖。BI系統標志著(zhù)從數據到知識到?jīng)Q策的進(jìn)程中的更深入的一步,展示著(zhù)真正的實(shí)用的智能信息系統的雛形。有人將電子商務(wù)和BI看成90年代以來(lái)推動(dòng)企業(yè)創(chuàng )新的兩大重要技術(shù),二者的結合可以提供指數增長(cháng)的機遇。電子商務(wù)通過(guò)網(wǎng)絡(luò )加速核心事務(wù)處理過(guò)程,改善對客戶(hù)的服務(wù),減少周期時(shí)間,從而從有限的資源中獲得多的回報。而B(niǎo)I能利用豐富的數據資產(chǎn)做出最佳決策,以獲取競爭優(yōu)勢。有人將兩者的結合比做光速的飛行器加上精密的制導系統,能迅速而準確地命中目標
五 結束語(yǔ)
本文從一個(gè)方面討論從數據到知識的過(guò)程,以及計算機及信息技術(shù)在過(guò)程中的發(fā)展。新的世紀將是一個(gè)高度化信息化的時(shí)代,也就是知識時(shí)代,以知識為題的許多問(wèn)題,諸如知識經(jīng)濟 知識產(chǎn)業(yè) 知識工人 知識管理 知識工程 知識網(wǎng)絡(luò )等,將成為研究的對象。也勢必推動(dòng)以網(wǎng)絡(luò )為環(huán)境的計算機與信息技術(shù)向更高層次發(fā)展。
【數據信息與知識論文】相關(guān)文章:
大數據在知識管理中的應用論文06-22
大數據與信息管理論文04-06
淺談知識管理的信息服務(wù)論文05-29
電力營(yíng)銷(xiāo)數據信息化管理分析論文07-04
大數據信息化管理教學(xué)模式論文06-15
構建高校信息管理數據倉庫論文07-02
信息交流曝隱私幕后原是大數據論文04-29
《數據信息的加工》教案07-04