97骚碰,毛片大片免费看,亚洲第一天堂,99re思思,色好看在线视频播放,久久成人免费大片,国产又爽又色在线观看

信息檢索技術(shù)論文

時(shí)間:2021-04-11 19:06:54 論文 我要投稿

信息檢索技術(shù)論文

  近年來(lái),計算機技術(shù)、語(yǔ)言學(xué)以及人工智能技術(shù)的發(fā)展促進(jìn)了整個(gè)信息檢索技術(shù)領(lǐng)域的發(fā)展。今天小編要給大家介紹的便是信息檢索技術(shù)論文,歡迎閱讀!

信息檢索技術(shù)論文

  信息檢索技術(shù)論文

  [摘要]通過(guò)對近年來(lái)計算機科學(xué)、人工智能、專(zhuān)利文獻加工等領(lǐng)域的發(fā)展進(jìn)行總結,從多語(yǔ)言混合檢索、分類(lèi)檢索、語(yǔ)義檢索、圖像檢索以及輔助技術(shù)五個(gè)方面介紹專(zhuān)利文獻計算機檢索技術(shù)的最新發(fā)展。機器翻譯技術(shù)和多邊共同分類(lèi)體系的完善有助于提高計算機檢索效率、消除語(yǔ)言障礙,而語(yǔ)義檢索、圖像檢索和文獻自動(dòng)處理技術(shù)的發(fā)展有望使面向不同層次用戶(hù)的計算機智能化檢索系統得以實(shí)現。

  [關(guān)鍵詞]專(zhuān)利文獻 計算機檢索 語(yǔ)義檢索 圖像檢索

  1、前言

  近年來(lái),計算機技術(shù)、語(yǔ)言學(xué)以及人工智能技術(shù)的發(fā)展促進(jìn)了整個(gè)信息檢索技術(shù)領(lǐng)域的發(fā)展,專(zhuān)利文獻的計算機檢索技術(shù)正成為情報檢索領(lǐng)域研究的熱點(diǎn)。下文擬從多語(yǔ)言混合檢索、分類(lèi)檢索、語(yǔ)義檢索、圖像檢索以及輔助技術(shù)五個(gè)方面介紹專(zhuān)利文獻計算機檢索技術(shù)的最新發(fā)展。

  2、多語(yǔ)言混合檢索

  專(zhuān)利文獻是由各國、各地區專(zhuān)利局或世界知識產(chǎn)權局出版的官方文獻,因此一般以各局官方語(yǔ)言出版。雖然大部分專(zhuān)利文獻是英語(yǔ)文獻,但是仍然存在大量日文、中文、德文、法文及其他語(yǔ)種的文獻。出版語(yǔ)言的多樣性給專(zhuān)利文獻的檢索和利用帶來(lái)了極大的障礙,要實(shí)現多語(yǔ)言混合檢索,機器翻譯是必不可少的技術(shù)。目前一些專(zhuān)利局在其上推出了機器翻譯系統,例如我國國家知識產(chǎn)權局提供有漢英機器翻譯,日本特許廳提供有日英機器翻譯,韓國知識產(chǎn)權局提供有韓英機器翻譯等,上述網(wǎng)絡(luò )機器翻譯系統對其他國家的用戶(hù)閱讀方便和使用本國專(zhuān)利文獻起到了幫助作用。

  隨著(zhù)計算機技術(shù)的發(fā)展,機器翻譯的技術(shù)也迅速發(fā)展,從傳統的基于規則的機器翻譯擴展到了基于實(shí)例或模版的機器翻譯、統計機器翻譯等。尤其是近年來(lái)語(yǔ)言學(xué)和人工智能技術(shù)的發(fā)展,以語(yǔ)義描述或以知識描述為特征的智能機器翻譯系統正逐步成為研究的熱點(diǎn)。專(zhuān)利文獻作為一種特殊的科技文獻,由于其具有特定的句法和語(yǔ)言結構,同時(shí)例如權利要求書(shū)等具有法律公示性文件的作用,這對翻譯的準確性提出了更高的要求,已有研究者通過(guò)在機器翻譯系統內集成多個(gè)翻譯引擎、對不同特點(diǎn)的內容使用不同引擎翻譯的方式來(lái)提高翻譯質(zhì)量。

  已有的機器翻譯系統基本局限于單篇文獻的機器翻譯,無(wú)法實(shí)現真正的多語(yǔ)言混合檢索。多語(yǔ)言混合檢索系統不僅可以允許混合語(yǔ)言的檢索式,而且同一個(gè)檢索式還可以對不同語(yǔ)言的專(zhuān)利文獻進(jìn)行檢索,其實(shí)現方式主要有如下三種:翻譯檢索式、翻譯文獻或者兩者相結合的'混合式。翻譯檢索式的工作量小,比較適合于因特網(wǎng)檢索,但由于檢索式通常缺乏語(yǔ)境,翻譯難度較大;翻譯文獻的方式雖然有利于提高翻譯質(zhì)量,進(jìn)而有利于文獻檢索,但存在的主要問(wèn)題是翻譯量太大、翻譯時(shí)間長(cháng)。

  3、分類(lèi)檢索

  分類(lèi)號一直是專(zhuān)利文獻檢索的重要手段。目前除了基本涵蓋各國專(zhuān)利文獻的國際專(zhuān)利分類(lèi)(IPC)之外,美國專(zhuān)利商標局、日本特許廳和歐洲專(zhuān)利局各自都有自己的分類(lèi)體系,分別是UC、FI/FT和ECLA。IPC雖然通用,但存在分類(lèi)標準不統一、分類(lèi)條目不夠完備、文獻分類(lèi)更新不及時(shí)等缺陷,導致使用IPC檢索的效果欠佳。UC和FI/FT分別只能檢索美國和日本的專(zhuān)利文獻,ECLA雖然能夠檢索到多國的文獻,但仍然不能有效地檢索日本、韓國、中國等國的專(zhuān)利文獻。

  為改善這種局面,美國、日本和歐洲自2000年即開(kāi)始了“三邊分類(lèi)和諧計劃”,該計劃旨在推進(jìn)ECLA、UC和FI三個(gè)分類(lèi)體系的融合以增強分類(lèi)號檢索的功能,同時(shí)對現有IPC分類(lèi)體系提出改進(jìn)建議。依據2009年召開(kāi)的第27次三邊會(huì )議,韓國知識產(chǎn)權局已經(jīng)加入上述計劃,而中國國家知識產(chǎn)權局也以觀(guān)察國的身份參與這項工作。此外,近年來(lái)美國專(zhuān)利商標局、日本特許廳、歐洲專(zhuān)利局、韓國知識產(chǎn)權局和中國國家知識產(chǎn)權局五局積極開(kāi)展合作,其中一個(gè)重要的合作項目是“共同的分類(lèi)”。該項目的實(shí)施將有利于提高分類(lèi)的一致性,擴展或細化部分技術(shù)領(lǐng)域的分類(lèi),進(jìn)而提高檢索的效率和質(zhì)量。

  不管是美日歐三方開(kāi)展的“三邊分類(lèi)和諧計劃”,還是五局共同開(kāi)展的“共同的分類(lèi)”項目,都必將推進(jìn)專(zhuān)利文獻分類(lèi)體系的進(jìn)一步發(fā)展,實(shí)現真正意義上的“基于檢索的分類(lèi)”,進(jìn)一步增強分類(lèi)號在專(zhuān)利文獻計算機檢索中的作用。

  4、語(yǔ)義檢索

  當前專(zhuān)利文獻檢索的主要手段為關(guān)鍵詞和分類(lèi)號檢索,而由于一詞多義、一義多詞,專(zhuān)利文獻撰寫(xiě)、加工和翻譯質(zhì)量不一以及關(guān)鍵詞的機械匹配等問(wèn)題,本質(zhì)上決定了其查全率和查準率受限制。隨著(zhù)計算技術(shù)、人工智能、自然語(yǔ)言處理等技術(shù)的發(fā)展,搜索引擎的智能化有望從根本上提高現有檢索系統的檢索質(zhì)量。

  搜索引擎的智能化具體表現為語(yǔ)義檢索,也稱(chēng)為知識檢索或概念檢索。語(yǔ)義檢索是對檢索條件、信息組織及檢索結果顯示賦予一定語(yǔ)義成分的一種新的檢索方式。語(yǔ)義檢索的本質(zhì)在于以語(yǔ)義為對象進(jìn)行搜索,而不是對字符串進(jìn)行簡(jiǎn)單的機械匹配,因此可避免關(guān)鍵詞匹配檢索中由于詞和義不對應所導致的問(wèn)題。

  語(yǔ)義檢索過(guò)程一般包括對被檢索的文檔以及輸入的檢索式進(jìn)行語(yǔ)義分析和匹配處理。這種語(yǔ)義分析處理依賴(lài)于詞匯的語(yǔ)義描述技術(shù)以及分別用于詞義鑒別和詞匯過(guò)濾的語(yǔ)義識別技術(shù)和詞匯鏈算法?梢酝ㄟ^(guò)諸如WordNet等語(yǔ)義詞典對詞匯實(shí)現較完備的語(yǔ)義描述,保證人和機器對詞匯的理解一致。

  最新發(fā)展的潛在語(yǔ)義索引通過(guò)將文獻搜索過(guò)程中的向量空間模型和奇異值分解相結合,可以揭示文檔中的詞間關(guān)系,因而適于構建專(zhuān)利文獻搜索引擎”…。利用語(yǔ)義進(jìn)行檢索還可以將專(zhuān)利文獻中的非技術(shù)性信息考慮在內,例如將特定的技術(shù)概念和申請人、發(fā)明人等信息進(jìn)行語(yǔ)義聯(lián)系。此外,語(yǔ)義檢索還可以從用戶(hù)角度出發(fā),考慮用戶(hù)的檢索需求,從而為諸如查新、侵權等不同目的的檢索提供相應的結果。

  近年來(lái)國內一些開(kāi)發(fā)商也紛紛提供具有語(yǔ)義檢索功能的專(zhuān)利文獻檢索系統,例如東方靈盾開(kāi)發(fā)的專(zhuān)利檢索系統和Patenticst網(wǎng)站。Patentics網(wǎng)站除了可以實(shí)現傳統的關(guān)鍵詞檢索功能,還支持語(yǔ)義檢索,僅通過(guò)輸入檢索所針對的專(zhuān)利文獻號,即可自動(dòng)對其進(jìn)行語(yǔ)義分析、文獻檢索,并對結果進(jìn)行相關(guān)度排序。當前專(zhuān)利文獻檢索領(lǐng)域還未廣泛應用語(yǔ)義檢索,但隨著(zhù)研究的深入,相信未來(lái)的搜索引擎不僅能利用語(yǔ)義技術(shù)提高檢索的效率,還有望能對檢索結果進(jìn)行分析、評價(jià),甚至自動(dòng)生成檢索報告。

  5、圖像檢索

  根據對圖像檢索所使用方法的特征可以分為基于文本的圖像檢索法(TBIR)和基于內容的圖像檢索法(cBIR)。專(zhuān)利文獻一般都帶有大量的附圖,包括機械結構或化學(xué)結構式附圖、電路圖、方框圖、流程圖或曲線(xiàn)圖等。與傳統的關(guān)鍵詞檢索和分類(lèi)號檢索相比,CBIR更加直觀(guān)、快速,而且可以克服因文字表述差異而導致的漏檢,因此它正在成為專(zhuān)利文獻檢索領(lǐng)域的研究熱點(diǎn)。專(zhuān)利文獻的附圖都是黑白二元圖像(本文

  所稱(chēng)專(zhuān)利是指發(fā)明和實(shí)用新型專(zhuān)利,不包括外觀(guān)設計專(zhuān)利),不存在顏色和紋理等特征,因此專(zhuān)利文獻的圖像檢索主要是基于形狀和區域的圖像特征。

  雖然目前還沒(méi)有成熟的專(zhuān)利文獻圖像檢索系統,但一些研究機構已經(jīng)開(kāi)發(fā)出若干可專(zhuān)門(mén)用于專(zhuān)利文獻的圖像檢索原型系統,例如IIT Kanpur的PATseek、Informatics and Telematics Institute的PatMediat以及LTUtechnologies公司的ImageSeeker等。PATseek專(zhuān)門(mén)針對美國專(zhuān)利文獻進(jìn)行圖像檢索,而PatMedia網(wǎng)站上的試驗系統僅針對歐洲專(zhuān)利局的專(zhuān)利文獻,這兩個(gè)圖像檢索系統都可實(shí)現直接輸入待檢索的圖像,系統自動(dòng)進(jìn)行相似度匹配,直接提供專(zhuān)利附圖,同時(shí)還可以進(jìn)行基于文本的圖像檢索。

  典型的專(zhuān)利圖像檢索系統包括專(zhuān)利文獻處理部分和圖像檢索部分,如圖1所示:

  文獻處理部分又進(jìn)一步包括文獻預處理和視覺(jué)、文本元數據提取和索引兩部分。前者是找出文獻中的圖形和對應的文字描述;后者則是進(jìn)一步進(jìn)行圖像特征分析和文本分析,分別提取基本的圖像特征以及能夠表示圖形含義的高層語(yǔ)義特征的關(guān)鍵詞,由此分別形成索引后的圖形特征矢量庫、圖像庫、文本描述關(guān)鍵詞庫和知識庫。在圖像檢索部分,基于上述提取的元數據,進(jìn)行圖像相似度匹配,同時(shí)還可以基于文本進(jìn)行圖像檢索。與一般領(lǐng)域的圖形檢索相比,由于專(zhuān)利文獻中每幅圖形一般都對應有文字描述,即使不再進(jìn)行人工標注或自動(dòng)標注,都能提取到較好的高層語(yǔ)義特征,這對提高專(zhuān)利文獻圖形檢索的準確性非常有幫助。

  目前,專(zhuān)利文獻圖像檢索系統僅處于試驗階段,只能對數量非常少的特定專(zhuān)利文獻進(jìn)行檢索,且檢索結果相關(guān)度還不是很高,但由于圖像檢索具有其他任何檢索方式都不具備的優(yōu)點(diǎn),相信隨著(zhù)人們對專(zhuān)利文獻圖像檢索技術(shù)的進(jìn)一步研究以及語(yǔ)義檢索技術(shù)的進(jìn)一步發(fā)展,實(shí)現高精度的圖像檢索必將成為現實(shí)。

  6、輔助技術(shù)

  高質(zhì)量的專(zhuān)利文獻是提高檢索質(zhì)量的基礎。專(zhuān)利文獻分類(lèi)、標引和摘要改寫(xiě)是專(zhuān)利文獻加工的主要內容。傳統的專(zhuān)利文獻加工方法主要依賴(lài)于人工,其成本高且速度受限制,質(zhì)量不統一。隨著(zhù)人工智能和計算機技術(shù)的發(fā)展,開(kāi)始出現對專(zhuān)利文獻進(jìn)行自動(dòng)分類(lèi)、自動(dòng)標引、自動(dòng)摘要和自動(dòng)聚類(lèi)。

  專(zhuān)利文獻自動(dòng)分類(lèi)已經(jīng)在歐洲、美國、日本得到了廣泛的研究和嘗試。例如歐洲專(zhuān)利局已經(jīng)利用自然語(yǔ)言處理的相關(guān)技術(shù)實(shí)現了專(zhuān)利文獻的自動(dòng)初分類(lèi);對日本專(zhuān)利文獻自動(dòng)分類(lèi)研究表明,對于使用K臨近算法進(jìn)行自動(dòng)分類(lèi)的情況下,先將專(zhuān)利文獻按部分結構化為語(yǔ)義單元可以提高74%的效率。

  PATExpert代表了目前較先進(jìn)的專(zhuān)利文獻自動(dòng)處理技術(shù)的發(fā)展,通過(guò)基于語(yǔ)義網(wǎng)的語(yǔ)義處理技術(shù)實(shí)現了面向內容的專(zhuān)利文獻自動(dòng)處理,其中的一個(gè)主要技術(shù)是利用一定的語(yǔ)義表示結構實(shí)現專(zhuān)利文獻知識層面的表達。該系統可以執行的處理任務(wù)包括:專(zhuān)利文獻內容和元數據的自動(dòng)抽取;全文、圖像、相關(guān)性搜索引擎;專(zhuān)利文獻的自動(dòng)分類(lèi)和聚類(lèi);面向多語(yǔ)言的輔助理解工具;專(zhuān)利價(jià)值自動(dòng)評估等。

  國內有一些研究機構開(kāi)展了大量的基于IPC體系的專(zhuān)利文獻自動(dòng)分類(lèi)的研究,這些研究大部分集中在統計分類(lèi)技術(shù)。近年來(lái)隨著(zhù)人工智能技術(shù)的興起,基于人工智能或語(yǔ)義的專(zhuān)利文獻自動(dòng)分類(lèi)發(fā)展迅速,例如上文提到的Patentics試驗系統也開(kāi)始嘗試對專(zhuān)利文獻進(jìn)行自動(dòng)分類(lèi)。

  中文專(zhuān)利文獻的自動(dòng)處理仍處于研究階段,雖然國外專(zhuān)利文獻自動(dòng)處理已經(jīng)積累了許多寶貴經(jīng)驗,但由于中文表述的特殊性,許多技術(shù)還待消化和開(kāi)發(fā),例如漢語(yǔ)詞匯之間的分詞技術(shù)是制約自動(dòng)標引質(zhì)量的一個(gè)障礙。隨著(zhù)信息處理自動(dòng)化相關(guān)技術(shù)的發(fā)展,專(zhuān)利文獻的自動(dòng)分類(lèi)、自動(dòng)標引、自動(dòng)聚類(lèi)和自動(dòng)摘要正在逐步由半自動(dòng)走向全自動(dòng)化,這給搜索引擎的發(fā)展帶來(lái)了極大的便利。同時(shí),利用語(yǔ)義技術(shù)實(shí)現基于內容的自動(dòng)處理將是未來(lái)的發(fā)展主流,也是提高專(zhuān)利文獻自動(dòng)處理質(zhì)量的主要手段。

  7、結語(yǔ)

  專(zhuān)利文獻計算機檢索是一個(gè)涉及了多學(xué)科的研究領(lǐng)域,其中以語(yǔ)義檢索為核心的技術(shù)推動(dòng)了搜索引擎、機器翻譯、圖像檢索等相關(guān)技術(shù)的發(fā)展,而由于專(zhuān)利文獻的特殊性,分類(lèi)體系和文獻自動(dòng)處理技術(shù)也在其中占據了重要地位。隨著(zhù)研究的進(jìn)一步深入,現存的語(yǔ)言障礙和檢索效率低下等缺陷在不久的將來(lái)必將逐漸被克服,不同層次的用戶(hù)有望借助于智能化的自動(dòng)檢索系統便利地實(shí)現專(zhuān)業(yè)化檢索。

【信息檢索技術(shù)論文】相關(guān)文章:

學(xué)生學(xué)習信息技術(shù)論文04-04

學(xué)生信息素養培養下信息技術(shù)論文04-04

畢業(yè)論文范文:信息技術(shù)08-12

信息、信息技術(shù)說(shuō)課稿11-02

信息技術(shù)在語(yǔ)文教學(xué)中的應用感想(教學(xué)論文)12-06

教師信息技術(shù)研修計劃04-19

信息技術(shù)教研述職報告01-22

信息技術(shù)教學(xué)個(gè)人計劃04-15

初中信息技術(shù)說(shuō)課稿11-10

信息技術(shù)自薦信04-18