現代漢語(yǔ)語(yǔ)法
論文摘要:用計算機來(lái)處理漢語(yǔ)信息包括“字處理”、“詞處理”和“句處理”三個(gè)階段!熬涮幚怼笔菍(shí)現自然語(yǔ)言的處理與理解這一關(guān)鍵性的技術(shù)難關(guān)。其中遇到的問(wèn)題比較多:詞性的判斷;短語(yǔ)、句子的結構分析;歧義現象分析等等,最根本的方法是語(yǔ)言學(xué)家盡可能地把語(yǔ)言中的這些現象通過(guò)歸納、分析、總結出規律,再用形式化的方式描述出來(lái),以便利于計算機處理。 論文
關(guān)鍵詞:中文信息處理 現代漢語(yǔ)語(yǔ)法 句處理
用計算機來(lái)處理漢語(yǔ)信息,就是漢語(yǔ)信息處理,又稱(chēng)中文信息處理。中文信息處理包括“字處理”、“詞處理”和“句處理”!白痔幚怼、“詞處理”分別與漢字和詞匯有關(guān),在此主要談?wù)劇熬涮幚怼薄?/p>
句處理的主要內容是,怎樣使計算機理解自然語(yǔ)言(如現代漢語(yǔ))的句子的意思,又怎樣使計算機生成符合自然語(yǔ)言規則的句子!熬涮幚怼彼枰恼Z(yǔ)言知識,將是一種涉及到語(yǔ)音、語(yǔ)義、語(yǔ)法、語(yǔ)用等諸方面的綜合性知識。目前。大家都深感現有的關(guān)于漢語(yǔ)的知識遠遠不能滿(mǎn)足中文句處理的需要。單就句法方面的情況說(shuō)。在中文信息處理過(guò)程中將會(huì )不斷遇到我們想象不到的問(wèn)題,許多問(wèn)題在人看來(lái)還是比較容易解決的,但計算機就解決不了。也有一些問(wèn)題,本身在學(xué)術(shù)界就有不同的觀(guān)點(diǎn),那么,就給中文信息處理增加了更大的困難。
用計算機來(lái)處理中文信息,遇到了很多困難,從現代漢語(yǔ)語(yǔ)法的角度來(lái)看,主要有以下一些問(wèn)題:
一、詞性的判斷
由于漢語(yǔ)缺乏形態(tài)。漢語(yǔ)的詞性判斷主要是根據詞的語(yǔ)法功能,不同的詞,詞性意義可能不同,同一個(gè)詞出現在不同的地方,詞性意義也可能不同,漢語(yǔ)中,大多數詞有固定的詞性,但有些詞的用法比較特殊。例如:
1。他花了十塊錢(qián)買(mǎi)了一盆花。
2。你用那個(gè)鎖把門(mén)鎖上。
3。他比雷鋒還雷鋒。
這三個(gè)句子中分別有兩個(gè)“花”、“鎖”、“雷鋒”。但它們只是音同、形同,詞性和意義都不同。句子1中的第一個(gè)“花”是動(dòng)詞,“花費”的意思,第二個(gè)“花”是名詞,“植物”的意思。句子2中的第一個(gè)“鎖”是名詞,即“鎖子”的意思,第二個(gè)“鎖”是動(dòng)詞,是“鎖住”的意思。句子3中第一個(gè)“雷鋒”是名詞,表示人名,第二個(gè)“雷鋒”是形容詞,表示“雷鋒的精神、品質(zhì)等”。具有一定語(yǔ)言知識的人大體上都能分清它們的區別。從傳統語(yǔ)言教學(xué)的角度來(lái)講,句子1中的兩個(gè)“花”是詞形、讀音相同,但詞性和意思都不一樣,且兩個(gè)“花”的意思之間沒(méi)有聯(lián)系,所以屬于同音詞。句子2中的兩個(gè)“鎖”,也是詞形、讀音相同,詞性和意思都不一樣,但兩個(gè)“鎖”意思間有聯(lián)系,所以屬于兼類(lèi)詞。句子3中的兩個(gè)“雷鋒”詞形、讀音相同,詞性和意思都不一樣,意思也有聯(lián)系,但第二個(gè)“雷鋒”屬于詞類(lèi)活用。Ⅲ從教學(xué)的角度看,這種分類(lèi)比較細致,便于人們的理解和掌握,但是,從中文信息處理的角度來(lái)看,這種分法太細,不便于計算機掌握。
目前,在中文信息處理中,是這樣來(lái)定義兼類(lèi)詞的:亢世勇認為“兼類(lèi)詞有廣義兼類(lèi)詞和狹義兼類(lèi)詞。廣義兼類(lèi)詞就是中文信息處理中所說(shuō)的現代漢語(yǔ)的同形詞,對于計算機而言,只要詞形相同,不管讀音是否相同、意義是否相通,是同形異音詞、同形同音詞,還是一詞多義、一詞多種用法,都是相同的,都要從多個(gè)當中選一個(gè)。狹義的兼類(lèi)詞就是指一般的現代漢語(yǔ)著(zhù)作定義的,‘同形同音、意義上有一定的聯(lián)系,且具有兩類(lèi)或兩類(lèi)以上詞的語(yǔ)法功能的詞”’。陸儉明認為,兼類(lèi)詞是“指同字形、同音而意義不同或詞性不同的詞”。如果按這種定義理解,以上三個(gè)句子中的兩個(gè)“花”、“鎖”、“雷鋒”都可以稱(chēng)之為兼類(lèi)詞。因為,中文信息處理的目的是讓計算機能根據具體環(huán)境判斷出詞的詞性,從而準確理解其中的含義就可以了。盡管如此,但是,漢語(yǔ)詞類(lèi)是多功能的,一類(lèi)詞不需要發(fā)生詞形變化就可以充當不同的句子成分,不同類(lèi)的詞可以充當相同的句子成分,這樣就給兼類(lèi)詞區分帶來(lái)了更多的麻煩。因而,兼類(lèi)詞的選擇是計算機詞性自動(dòng)標注的一個(gè)“瓶頸”。盡管信息處理專(zhuān)家運用了規則排歧、統計概率排歧或者兩者結合起來(lái)等多種方法進(jìn)行排歧,但到目前為止,還沒(méi)有一種方法、一種系統能夠徹底解決這個(gè)問(wèn)題。
二、短語(yǔ)、句子的結構分析
由于漢語(yǔ)缺乏形態(tài)。所以。語(yǔ)序和虛詞成了漢語(yǔ)中表示語(yǔ)法的主要手段。有些短語(yǔ)、句子的結構不好理解,需要形式和意義結合起來(lái)分析。例如:
A組:a。陜西+甘肅+寧夏 (“陜西+甘肅+寧夏”三者為聯(lián)合關(guān)系)
b。中國+(北京+陜西)(“中國”與“北京陜西”是偏正關(guān)系!氨本迸c“陜西”是聯(lián)合關(guān)系)
C。中國(陜西(西安))(“中國”與“陜西西安”是偏正關(guān)系,“陜西”與“西安”也是偏正關(guān)系)這一組中的abe三個(gè)短語(yǔ)對人來(lái)說(shuō),都很容易分清楚,但計算機目前還很難區分,要讓計算機分辨清楚,就得把三個(gè)處所名詞組合在一起構成a類(lèi)、b類(lèi)、e類(lèi)不同關(guān)系的條件與規則研究清楚,并將這些條件與規則加以形式化輸入到計算機內。
B組:開(kāi)始討論(述賓關(guān)系)分析研究(聯(lián)合關(guān)系)研究結束(主謂關(guān)系)
取下來(lái)(述補關(guān)系) 看完再說(shuō)(連謂關(guān)系) 叫他回來(lái)(兼語(yǔ)關(guān)系)
生產(chǎn)管理(定中關(guān)系) 諷刺說(shuō)(狀中關(guān)系) 介紹寫(xiě)(不構成合法的句法關(guān)系)
這組是現代漢語(yǔ)里“動(dòng)詞性詞語(yǔ)+動(dòng)詞性詞語(yǔ)”構成的種種不同的結構關(guān)系,對人來(lái)說(shuō),通過(guò)講解大致可以分辨,可是讓計算機要分清楚,就非常難,因為我們至今還沒(méi)有總結出“動(dòng)詞性詞語(yǔ)+動(dòng)詞性詞語(yǔ)”構成各種不同句法關(guān)系的具體規則。換句話(huà)說(shuō),“動(dòng)詞性詞語(yǔ)+動(dòng)詞性詞語(yǔ)”在什么條件下一定構成合法的什么句法關(guān)系,能構成什么樣不同的句法關(guān)系,我們至今還說(shuō)不清楚。
C組:天氣好——好天氣(主謂——偏正)很好——好得很(偏正——述補)
來(lái)人了!藖(lái)了。(述賓——主謂)
一張票三元錢(qián)!X(qián)一張票。(主謂——主謂)這一組都是由于語(yǔ)序的不同而形成的結構和意義都不同的短語(yǔ)和句子。這些結構對人而言,稍加學(xué)習就可以理解,但這些給計算機理解意思增加了難度。需要人們把這些語(yǔ)序的變化形成的不同的結構概括出規律來(lái),再用形式化的方式描述出來(lái)。輸入到計算機里。
三、歧義現象
現代漢語(yǔ)短語(yǔ)結構的歧義是進(jìn)行漢語(yǔ)句法分析的一大障礙!熬涮幚怼币鉀Q的核心問(wèn)題是排歧問(wèn)題,計算機面對的歧義,不只是我們人所能感覺(jué)到的諸如下面這樣一些句子的歧義現象:
。1)他正在輸血。(他正給病人輸血。/他病了,正輸血。)
。2)看望的是病人。(你看望的那個(gè)人是病人。/看望你的那個(gè)人是病人。)
。3)我們急需進(jìn)口產(chǎn)品。(我們急需進(jìn)口的產(chǎn)品。/我們急需從國外進(jìn)口產(chǎn)品。)
某些在人看來(lái)不存在歧義的句子計算機會(huì )認為有歧義。例如:
。4)a他被警察叫去罰了一百塊錢(qián)。
b他被警察叫去寫(xiě)了一份檢查。例(4)a句和b句,在人的眼里結構是不一樣的。a句“被警察”這個(gè)介詞結構一直管到底。全句意思是“他被警察叫去,他被警察罰了一百塊錢(qián)”:而b句“被警察”這個(gè)介詞結構只 管到“叫去”,管不著(zhù)“寫(xiě)了一份檢查”?墒,計算機分辨不清楚。要讓計算機分辨清楚,我們就得將“PP+VPI+VP2”(PP代表介詞結構,VP1和VP2分別代表緊挨著(zhù)的不同的動(dòng)詞性詞語(yǔ))這種結構中的PP對后面動(dòng)詞性詞語(yǔ)管轄的范圍及其條件與規則進(jìn)行充分、準確的描寫(xiě),并加以形式化,“交給”計算機。而這一類(lèi)現象與規則我們過(guò)去根本就沒(méi)有考慮過(guò),更不用說(shuō)研究了。
其實(shí)以上所舉的例子都存在歧義問(wèn)題,因此,也可以這么說(shuō),“句處理”要解決的核心問(wèn)題是排歧問(wèn)題。
中文信息“句處理”的研究工作,上個(gè)世紀80年代就開(kāi)始了,最早進(jìn)行“句處理”研究工作就是基于規則展開(kāi)的,但上個(gè)世紀90年代初,基于規則的“句處理”研究工作遇到了重重困難與難關(guān),主要是語(yǔ)言學(xué)家所提供的語(yǔ)言規則遠遠不能滿(mǎn)足信息處理的需要。目前,為了解決好中文信息處理中的“句處理”難題,出現了一個(gè)競相研究、競相發(fā)展的局面。對于句處理,提出的各種策略和途徑,歸納起來(lái)。主要有基于規則和基于統計這兩種策略;谝巹t的研究者,一般求諸專(zhuān)家的理性知識,由人來(lái)對語(yǔ)言知識進(jìn)行抽象:基于統計者,一般求助于計算機對大規模語(yǔ)料庫真實(shí)文本的統計分析,由計算機來(lái)抽象出語(yǔ)言知識。各種策略和途徑,目前,我們還很難說(shuō)哪一種是唯一正確的。各種策略和途徑,表面看不同,其實(shí),最終都需要依賴(lài)可靠的漢語(yǔ)知識來(lái)驅動(dòng)計算機正確處理自然語(yǔ)言(漢語(yǔ))。因此,“無(wú)論是比較傳統的基于規則的處理策略,還是90年代以來(lái)方興未艾的基于統計的方法,在對語(yǔ)言知識的需求這一點(diǎn)上實(shí)際上都是共同的。所不同者,走規則路線(xiàn)的研究者一般求諸專(zhuān)家的理性知識,由人來(lái)對語(yǔ)言知識進(jìn)行抽象(比如以帶有合一條件的規則形式給出)。而走統計路線(xiàn)的研究者一般求助于計算機對大規模的語(yǔ)料庫的統計分析,由計算機來(lái)抽象出語(yǔ)言知識(比如以一定的數據結構記錄的統計結果等)。兩種路線(xiàn)孰優(yōu)孰劣,不能籠統判斷,只能跟具體的應用目標結合起來(lái),由實(shí)踐結果來(lái)評價(jià)!蹦壳,越來(lái)越多的學(xué)者提倡把兩種方法結合起來(lái)使用。因此,相信在不久的將來(lái),我們會(huì )攻克難關(guān),實(shí)現計算機對自然語(yǔ)言的處理與理解的目標,使中文信息處理技術(shù)處于世界領(lǐng)先地位。
參考文獻:
1。蘭賓漢、邢向東:現代漢語(yǔ)(下冊)[M]。北京:中華書(shū)局,20xx,48。
2?菏烙拢好嫦蛐畔⑻幚淼默F代漢語(yǔ)語(yǔ)法研究[M]。上海:上海辭書(shū)出版社,20xx,177。
3。陸儉明:現代漢語(yǔ)語(yǔ)法研究教程(第三版),[M]。北京:北京大學(xué)出版社。20xx年,51。
4。詹衛東:面向中文信息處理的現代漢語(yǔ)短語(yǔ)結構規則研究[M]。北京:清華大學(xué)出版社,20xx,2。
【現代漢語(yǔ)語(yǔ)法】相關(guān)文章:
名詞性從句語(yǔ)法總結歸納02-14