SEO優(yōu)化實(shí)戰的經(jīng)驗總結范文
SEO優(yōu)化實(shí)戰的經(jīng)驗總結范文
最早的中文分詞辦法是由北京航天航空大學(xué)的梁南元教授提出的一種基于“”的分詞辦法。該方法是把整個(gè)句子讀一遍,然后把字典里有的詞都單獨標示出來(lái),當遇到復合詞的時(shí)候(例如北京大學(xué)),就找到最長(cháng)的詞匹配。遇到不認識的字符串就分割成單個(gè)文字。
例如:“著(zhù)名導演張藝謀說(shuō)國慶節晚上將安排十萬(wàn)人到天安門(mén)聯(lián)歡!
根據該辦法,可以切分為:
“著(zhù)名 | 導演 | 張藝謀 | 說(shuō) | 國慶節 | 晚上 | 將 | 安排 | 十萬(wàn)人 | 到 | 天安門(mén) | 聯(lián)歡”
這樣的分詞辦法雖然說(shuō)可以應付很多的句子,但是由于細分的太多,在真正搜索引擎使用的過(guò)程中,到底哪一個(gè)詞才是重點(diǎn)就無(wú)法表述,從而搜索引擎搜索出的結果也不能達到最大的相關(guān)度。
在80年代,哈爾濱工業(yè)大學(xué)計算機博士生導師王曉龍博士提出了“最少詞數”的分詞理論,即為,一句話(huà)應該是分詞最少的字符串,這樣會(huì )更多的讓搜索引擎更明白這句話(huà)到底是什么意思。但是它對于例如“二義性”的關(guān)鍵詞組,就不能說(shuō)最長(cháng)的分割就是最好的結果。
例如:“吉利大學(xué)城書(shū)店”
這個(gè)關(guān)鍵詞正確的分詞應該是“吉利 | 大學(xué)城 | 書(shū)店”而不是詞典中的“吉利大學(xué) | 城 | 書(shū)店 ”
目前,主流的分詞辦法有兩種,一種是基于統計模型的文字處理,另外一種是基于字符串匹配的逆向最大匹配法。
基于統計模型的文字處理
從形式上看,詞是穩定的字的組合,因此在上下文中,相鄰的字同時(shí)出現的次數越多,就越有可能構成一個(gè)詞。因此字與字相鄰共現的頻率或概率能夠較好的反映成詞的可信度?梢詫φZ(yǔ)料中相鄰共現的各個(gè)字的組合的頻度進(jìn)行統計,計算它們的互現信息。定義兩個(gè)字的互現信息,計算兩個(gè)漢字X、Y的相鄰共現概率;ガF信息體現了漢字之間結合關(guān)系的緊密程度。當緊密程度高于某一個(gè)閾值時(shí),便可認為此字組可能構成了一個(gè)詞。這種方法只需對語(yǔ)料中的字組頻度進(jìn)行統計,不需要切分詞典,因而又叫做無(wú)詞典分詞法或統計取詞方法。但這種方法也有一定的局限性,會(huì )經(jīng)常抽出一些共現頻度高、但并不是詞的常用字組,例如“這一”、“之一”、“有的”、“我的”、“許多的”等,并且對常用詞的識別精度差,時(shí)空開(kāi)銷(xiāo)大。實(shí)際應用的統計分詞系統都要使用一部基本的分詞詞典(常用詞詞典)進(jìn)行串匹配分詞,同時(shí)使用統計方法識別一些新的詞,即將串頻統計和串匹配結合起來(lái),既發(fā)揮匹配分詞切分速度快、效率高的特點(diǎn),又利用了無(wú)詞典分詞結合上下文識別生詞、自動(dòng)消除歧義的優(yōu)點(diǎn)。
基于字符串匹配的逆向最大匹配法
一般來(lái)說(shuō),在SEO中使用最多的分詞辦法就是基于字符串匹配的逆向最大匹配法。這種方法就是從句子的后面往前(從右向左)進(jìn)行分詞。
在搜索引擎運行的機制中,有很多種中文分詞的辦法,例如正向最大匹配分詞、逆向最大分析、基于統計的分詞等。但是在實(shí)際的搜索引擎運行過(guò)程中,分詞的辦法卻沒(méi)有這么簡(jiǎn)單了。因為搜索引擎不僅僅要去考慮到分詞結果的正確性,還需要考慮到對于分不出來(lái)的詞的處理。
首先我們來(lái)討論分詞結果的準確度,一般來(lái)說(shuō),搜索引擎是使用多種分詞的方式構成一個(gè)混合分詞方式來(lái)進(jìn)行分詞的,因為這樣可以讓詞匯最大化的、更準確的分開(kāi);旌戏衷~的原理是:先使用專(zhuān)業(yè)詞典進(jìn)行分詞,之后再使用普通詞庫進(jìn)行一次分詞。
那么對于分不出來(lái)的詞,搜索引擎又是如何操作的呢?
一般來(lái)說(shuō),搜索引擎遇到這樣的關(guān)鍵詞時(shí),會(huì )采取一元分詞+二元分詞+混合分詞+不分詞的方式來(lái)解決這樣的問(wèn)題。
例如:“草泥馬是一種食草動(dòng)物”
一元分詞結果:“草泥馬是一種食草動(dòng)物”或者“草泥馬是一種食草動(dòng)物”或者“草泥馬是一種食草動(dòng)物”
二元分詞結果:“草泥泥馬是一種食草動(dòng)物”。
第三種方式——干脆不分,以保持新詞的完整性。
在經(jīng)過(guò)了這一系列的分詞程序后,實(shí)際分詞的結果是:草泥泥馬草泥馬是一種食草食草動(dòng)物食草動(dòng)物。
【SEO優(yōu)化實(shí)戰的經(jīng)驗總結】相關(guān)文章:
學(xué)習經(jīng)驗總結05-29
關(guān)于家教經(jīng)驗總結03-20
小學(xué)音樂(lè )教學(xué)經(jīng)驗總結02-17
css的調試方法與經(jīng)驗總結03-20
老司機實(shí)用開(kāi)車(chē)的經(jīng)驗總結03-20
高一數學(xué)經(jīng)驗總結03-19
《優(yōu)化》優(yōu)秀教學(xué)設計(通用12篇)02-20