97骚碰,毛片大片免费看,亚洲第一天堂,99re思思,色好看在线视频播放,久久成人免费大片,国产又爽又色在线观看

基于知網(wǎng)義原信息量的詞語(yǔ)相似度的計算方法

時(shí)間：2021-08-21 14:01:10 詞語(yǔ) 我要投稿

基于知網(wǎng)義原信息量的詞語(yǔ)相似度的計算方法

　　基于知網(wǎng)義原信息量的詞語(yǔ)相似度的計算方法

　　摘要：國內利用知網(wǎng)計算中文詞語(yǔ)相似度通常采用基于義原距離的方法，這些方法依賴(lài)于公式設計和參數選取。根據信息論中計算兩個(gè)事物相似度的思想，利用知網(wǎng)的分類(lèi)體系來(lái)計算詞語(yǔ)所包含的義原信息量，將義原及其角色關(guān)系的信息量作為詞語(yǔ)相似度計算的基本單位，通過(guò)計算兩個(gè)詞語(yǔ)的共有義原及其角色關(guān)系的信息量和所有義原及其角色關(guān)系的信息量的比值來(lái)綜合計算詞語(yǔ)的相似度。實(shí)驗結果證明，該方法合理可行。

基于知網(wǎng)義原信息量的詞語(yǔ)相似度的計算方法

　　關(guān)鍵詞：義原信息量；角色關(guān)系；詞語(yǔ)相似度；信息處理

　　中圖分類(lèi)號：TP391

　　作者簡(jiǎn)介作者簡(jiǎn)介：李國佳（1986-），男，山西大同人，碩士，華北水利水電大學(xué)軟件學(xué)院助教，研究方向為自然語(yǔ)言處理；楊喜亮（1981-），男，河南鄭州人，碩士，華北水利水電大學(xué)現代教育技術(shù)中心助教，研究方向為智能信息處理。

　　0 引言

　　本文從整體性角度出發(fā)，給出一種基于義原信息量計算中文詞語(yǔ)相似度的方法�；谥W(wǎng)的分類(lèi)體系（Taxonomy），將義原及其角色關(guān)系整體作為詞語(yǔ)相似度計算的基本單位，保留了描述詞語(yǔ)概念的各個(gè)義原間的關(guān)系，并依據信息論中計算兩個(gè)事物相似度的思想[4]，用兩個(gè)詞語(yǔ)共有義原及其角色關(guān)系的信息量和所有義原及其角色關(guān)系的信息量來(lái)綜合計算詞語(yǔ)的相似度。

　　1 知網(wǎng)義原信息量

　　1.1 義原信息量

　　其中，P（A）表示義原A在某個(gè)語(yǔ)料庫樣本空間中出現的概率。計算語(yǔ)料庫樣本空間中某個(gè)義原出現的概率很困難。知網(wǎng)作為一個(gè)以各類(lèi)概念及關(guān)系為描述對象的知識系統，其分類(lèi)體系本身可以看作是各個(gè)義原出現的一個(gè)樣本空間，那么僅依賴(lài)知網(wǎng)分類(lèi)體系本身而不需其它語(yǔ)料庫，作為計算義原出現概率的樣本空間也是合理的。本文給出一種根據知網(wǎng)的分類(lèi)體系來(lái)計算義原信息量的方法。

　　由義原組成的知網(wǎng)分類(lèi)體系是一棵概念分類(lèi)樹(shù)，在每類(lèi)義原樹(shù)狀層次結構（以下簡(jiǎn)稱(chēng)為義原樹(shù)）中，根結點(diǎn)義原是分類(lèi)類(lèi)別，是最大的分類(lèi)，其它義原都是根結點(diǎn)義原的子孫�？梢哉J為，分支結點(diǎn)義原包含越多的子孫結點(diǎn)，其信息量越小。葉子結點(diǎn)是最小的分類(lèi)，所有葉子結點(diǎn)的信息量是相同的。

　　在知網(wǎng)的知識詞典中，每個(gè)詞語(yǔ)由DEF來(lái)描述其概念。將DEF分為兩部分：主類(lèi)義原和特性描述部分。

　　定義1：義原及其角色關(guān)系。

　　在詞語(yǔ)概念DEF的特性描述部分中，將義原及動(dòng)態(tài)角色與特征（Event Role and Features）[9]的層次結構的組合稱(chēng)為義原及其角色關(guān)系。

　　定義2：主類(lèi)義原。

　　在詞語(yǔ)概念DEF中，把描述詞語(yǔ)概念最左邊的第一個(gè)義原稱(chēng)為主類(lèi)義原，也稱(chēng)為第0層義原及其角色關(guān)系。

　　例如詞語(yǔ)“病菌”的一個(gè)概念：DEF={bacteria|微生物：domain={medical|醫}，modifier={able|能：scope={ResultIn|導致：result={disease|疾病}}}}。在“病菌”的`DEF中，將“bacteria|微生物”稱(chēng)為主類(lèi)義原，其它部分是特性描述部分。在特性描述部分中，將“domain={medical|醫}”、“modifier={able|能 }”稱(chēng)為DEF的第一層義原及其角色關(guān)系，其中包含兩個(gè)本層義原“medical|醫”和“medical|醫”；把“scope={ResultIn|導致}”稱(chēng)為第二層義原及其角色關(guān)系，包含一個(gè)本層義原“ResultIn|導致”，將“result={disease|疾病}”稱(chēng)為第三層的義原及其角色關(guān)系，包含一個(gè)本層義原“disease|疾病”，依次類(lèi)推。

　　其中，I（pj）表示r所包含的第j個(gè)義原pj的信息量。

　　例如在詞語(yǔ)“病菌”的DEF中，每層的義原及其角色關(guān)系中包含的本層義原信息量均為3.346，根據式（4）可得“病菌”的義原及其角色關(guān)系的總信息量為7.946。

　　1.3 共有義原及其角色關(guān)系的信息量

　　2 實(shí)驗結果及分析

　　綜合來(lái)看，本文方法的結果整體表現更加合理，能夠反映出詞語(yǔ)間語(yǔ)義的相似性和差異，與人的判斷結果比較一致，計算也簡(jiǎn)單。

　　3 結語(yǔ)

　　基于知網(wǎng)義原信息量計算中文詞語(yǔ)相似度的方法根據信息論中計算兩個(gè)事物相似度的思想，利用知網(wǎng)的分類(lèi)體系來(lái)計算義原信息量，并根據知網(wǎng)這一關(guān)系系統的特性，從保留義原間關(guān)系的角度出發(fā)，將義原及其角色關(guān)系作為計算概念相似度的基本單位，更能全面反映詞語(yǔ)語(yǔ)義的相似性和差異�；谥W(wǎng)通過(guò)義原及其角色關(guān)系的信息量來(lái)綜合計算詞語(yǔ)的相似度，計算量較少，計算結果合理可行。在詞語(yǔ)相似度計算基礎上，進(jìn)一步研究句子間相似度計算方法，則有待下一步研究。

　　參考文獻：

　　[2] 劉群，李素建.基于《知網(wǎng)》的詞匯語(yǔ)義相似度的計算[C]. 臺北：第三屆漢語(yǔ)詞匯語(yǔ)義學(xué)研討會(huì )，2002，7（2）：5976.

　　[3] 董振東，董強，郝長(cháng)伶.《知網(wǎng)》的理論發(fā)現[J].中文信息學(xué)報，2007，21（4）：39.

　　[6] 夏天.漢語(yǔ)詞語(yǔ)語(yǔ)義相似度計算研究[J].計算機工程，2007， 33（6）：191194.

　　[8] 王小林，王義.改進(jìn)的基于知網(wǎng)的詞語(yǔ)相似度算法[J].計算機應用，2011，31（11）：7590.

最新文章