情感詞獲取與分類(lèi)評級論文
一、研究背景
近年來(lái)BBS的迅速發(fā)展,主觀(guān)性的言論越來(lái)越多。如何構建一個(gè)高效的系統對如此豐富的信息資源進(jìn)行分析和處理,成為一個(gè)重要的研究問(wèn)題。而對BBS信息資源的分析和處理,可以通過(guò)中心詞和情感詞兩個(gè)維度進(jìn)行處理。對于中心詞的歸類(lèi)已經(jīng)有了相對較為完整的分析體系,產(chǎn)生了很多有監督的學(xué)習方法以及文本特征表示方法和特征選擇機制。而情感詞的分類(lèi)和評級以主觀(guān)詞為主,因此針對中心詞的選擇機制及方法在情感詞上不能完全加以應用。本文主要以中山大學(xué)BBS的帖子為研究?jì)热,選擇合適的情感詞分類(lèi)方法,對情感詞進(jìn)行細分及評級,從而得出一個(gè)滿(mǎn)足中大BBS輿情分析系統的情感詞分類(lèi)體系。
二、國內外研究現狀分析
目前,基于語(yǔ)義的文本傾向性研究方法主要有兩種:
一種是通過(guò)現有詞典構建情感傾向詞典。如,Hiroya利用待測詞與褒義詞、貶義詞的語(yǔ)義距離計算待測詞匯的語(yǔ)義傾向性;Ku等利用WORDNET中的其他與詞匯相關(guān)的信息來(lái)判斷詞匯的語(yǔ)義傾向性;徐琳宏等采用HOWNET作為基準詞,并在實(shí)驗中加入否定詞和副詞的處理,計算待測詞與關(guān)聯(lián)度確定語(yǔ)義傾向,從語(yǔ)義理解方面對電影評論進(jìn)行了傾向性識別研究。
另一種是建立一個(gè)語(yǔ)義模式庫,采用語(yǔ)義分析技術(shù)用于文本傾向性判斷。例如,復旦大學(xué)的朱嫣嵐等年提出的基于HOWNET的.詞匯語(yǔ)義傾向計算方法,利用詞語(yǔ)間的相似度來(lái)計算詞的褒貶程度。路彬等設計了一種基于語(yǔ)義分析的信息過(guò)濾模型,該模型針對不良信息的特點(diǎn),以自然語(yǔ)句為處理單元,采用主題詞和語(yǔ)義分析的兩級過(guò)濾工作模式。
但情感詞的分類(lèi)和評級以主觀(guān)詞為主,因此針對中心詞的選擇機制及方法在情感詞上不能完全加以應用。
三、研究目標
通過(guò)對帖子出現的情感的類(lèi)型與強度進(jìn)行標引,將情感詞進(jìn)行分類(lèi),把情感詞的強度按正面到負面分成等級進(jìn)行標引。其中的軟件處理流程類(lèi)似于中心詞的標引。當新詞(解析字典沒(méi)有的詞)發(fā)現以后,通過(guò)語(yǔ)義相近度計算軟件,比較與字典中詞匯的相近程度,通過(guò)人工干預(半自動(dòng)或全自動(dòng))進(jìn)行中心詞與情感詞的添加。
最后通過(guò)對帖子數據的分析和調查,對情感詞的分類(lèi)和標引,開(kāi)發(fā)一個(gè)可以實(shí)現將中大bbs的帖子進(jìn)行實(shí)時(shí)抓取和自動(dòng)分類(lèi)的系統。
四、研究?jì)热?/strong>
帖子的分類(lèi)標引以及中心詞的主題分類(lèi)標引這兩個(gè)方面在去年師兄師姐的努力下已經(jīng)完成了44067個(gè)帖子的抓取和分類(lèi),因此今年我們主要針對帖子情感詞分類(lèi)以及評級這一塊開(kāi)始入手。
情感心理學(xué)認為,情感的基本類(lèi)型可以分為以下四種:即快樂(lè ),憤怒,恐懼和悲傷。
為進(jìn)一步解決這個(gè)問(wèn)題,我們通過(guò)對人類(lèi)情感有關(guān)資料的查找發(fā)現:人的感情復雜多樣,由于不同事情引起的同一類(lèi)情感也有許多不同,即使是同一個(gè)人對同一件事情在同一個(gè)環(huán)境下也可能會(huì )有不同的情感,而不同的視野角度對情感詞的分類(lèi)也有所不同。因此通過(guò)對BBS中隨機抽取的詞語(yǔ),我們除去可以分類(lèi)的,根據無(wú)法準確分類(lèi)的進(jìn)行歸納,我們利用知網(wǎng)發(fā)布的wordsimilarity進(jìn)行義項查找,發(fā)現一項出現頻率較高的情感類(lèi)型:憐憫。
古人云:人有七情六欲,對于心理學(xué)來(lái)說(shuō),七情分別是:喜怒哀樂(lè )驚恐憐。喜怒哀樂(lè )驚恐都可以在基本類(lèi)型中找到位置,而憐似乎放在哪一個(gè)類(lèi)型里面都不完全恰當。
綜上,我們把憐憫列為單獨的一項。情感大類(lèi)分為:快樂(lè ),憤怒,恐懼,悲哀和憐憫五種。
快樂(lè )是指一個(gè)人期望和追求的目的達到后產(chǎn)生的情緒體驗。由于需要得到滿(mǎn)足,愿望得以實(shí)現,心理的急迫感和緊張感解除,快樂(lè )隨之而生:
樂(lè ):指歡樂(lè ),身心愉悅,充滿(mǎn)幸福的一種情感;
喜:包括喜愛(ài)、喜悅、喜好、喜歡、高興、快樂(lè )等情感。
憤怒是指需求受到抑制或阻礙,愿望無(wú)法實(shí)現時(shí)產(chǎn)生的情緒體驗。憤怒時(shí)緊張感增加,有時(shí)不能自我控制,甚至出現攻擊行為:
怒:包括憤怒、惱怒、發(fā)怒、怨恨、憤恨等情感。
恐懼是當危險狀況出現時(shí),人們企圖擺脫和逃避,而又無(wú)力應付時(shí)產(chǎn)生的情緒體驗:
驚:指驚咤、驚愕、驚慌、驚悸、驚奇、驚嘆、驚喜、驚訝等情感;
恐:指恐慌、恐懼、害怕、擔心、擔憂(yōu)、畏懼等情感。
悲哀是指心愛(ài)的事物失去時(shí),或者夢(mèng)想破滅時(shí)產(chǎn)生的情緒體驗:
哀:包括悲傷、悲痛、悲哀、憐憫、哀憐、哀愁、哀憫、哀怨、哀思等情感。
憐憫是指對肉體或精神上遭受痛苦的人或者對不幸的人表示同情的情緒體驗:
憐:包括憐憫、哀憐、同情等情感。
為了使分類(lèi)體系可以更加規范準確的劃分情感詞,我們利用知網(wǎng)發(fā)布的wordsimilarity對以上五類(lèi)情感詞進(jìn)行義原判斷,得到以下結果:
為了方便分類(lèi),我們再把情感詞義原兩兩之間進(jìn)行距離計算,得到以下結果:
對此,我們可以發(fā)現害怕,生氣,悲哀三個(gè)負面情感詞兩兩之間的距離和相似度是一樣的;而喜悅,憐憫分別與三個(gè)負面義原之間的距離和相似度是一樣的;憐憫與喜悅之間的距離和相似度與憐憫與其他三個(gè)負面義原之間的距離和相似度是一樣的。
因此,我們先著(zhù)手研究負面情感詞三個(gè)義原之間的關(guān)系,我們先依據義原距離構建一個(gè)等邊三角形,三角形的三個(gè)頂點(diǎn)分別為三個(gè)義原,如圖:害怕→生氣→悲哀→生氣→害怕
為了進(jìn)一步確認分類(lèi)體系,我們在上一屆同事的工作基礎上,通過(guò)對他們抓取到部分中大BBS帖子(共5578個(gè))人工篩選的情感詞進(jìn)行驗證,共342個(gè)。由4個(gè)成員獨立進(jìn)行情感詞的類(lèi)型分類(lèi),從中取得分類(lèi)一致的結果,對于有歧義的情感詞,我們對其進(jìn)行再次分類(lèi),刪除無(wú)法得出一致結果的詞語(yǔ)。以同樣的步驟對正面情感詞進(jìn)行操作。
這樣,結合HOWNET發(fā)布的,一共得到各類(lèi)情感詞978個(gè),分類(lèi)如下表。
即在此基礎上,建立情感詞分類(lèi)體系如下:
五、結語(yǔ)
本分類(lèi)體系是根據已有研究成果和從中大BBS帖子中已抽取出并去重后的情感詞詞表的基礎上確立的分類(lèi)體系,通過(guò)人工分類(lèi)和修正,將情感詞進(jìn)行有效分類(lèi),這個(gè)分類(lèi)比簡(jiǎn)單分正面情感詞和負面情感詞更適用于中大BBS的輿情分析系統.對于類(lèi)別“其他”中的詞匯,應在后續情感詞分類(lèi)中會(huì )根據情感詞的情況對各子類(lèi)進(jìn)行必要的添加、去除或修正。
【情感詞獲取與分類(lèi)評級論文】相關(guān)文章:
對信用評級的思考監管論文06-13
環(huán)境評級水利水電論文05-29
關(guān)于對大機械行業(yè)的評級和研判的論文04-05
情感角度詩(shī)歌的分類(lèi)04-12
從失誤中獲取機遇議論文07-01
教師評級述職報告11-04
教師評級述職報告10-29
教師評級述職報告11-15