97骚碰,毛片大片免费看,亚洲第一天堂,99re思思,色好看在线视频播放,久久成人免费大片,国产又爽又色在线观看

語(yǔ)音識別調查報告

時(shí)間:2020-10-25 18:50:49 調查報告 我要投稿

語(yǔ)音識別調查報告范文

  讓計算機能聽(tīng)懂人的語(yǔ)言,是自計算機誕生以來(lái)人類(lèi)便夢(mèng)寐以求的,Intel創(chuàng )辦人Gordon Moore曾說(shuō),語(yǔ)音技術(shù)是影響未來(lái)科技發(fā)展最關(guān)鍵的技術(shù);IBM總裁Lou Gerstner指出,有朝一日,將有數十億的人運用自然語(yǔ)言在Intern et上瀏覽、查詢(xún)【’]。隨著(zhù)移動(dòng)電話(huà)、掌上電腦、PDA等移動(dòng)設備以及移動(dòng)計算環(huán)境中各類(lèi)智能設備的廣泛應用,使用語(yǔ)音作為用戶(hù)操作界面的要求越來(lái)越迫切,移動(dòng)設備體積小,計算能力和存儲空間有限,其使用場(chǎng)合又往往處于復雜、多變的噪聲環(huán)境中,使得基于這類(lèi)設備的語(yǔ)音識別實(shí)用技術(shù)面臨許多挑戰。如今語(yǔ)音識別的應用領(lǐng)域不斷拓展,在軍事、工業(yè)、家電、消費電子、交通等各方面都得到了廣泛的應用。常見(jiàn)的應用有: (1>語(yǔ)音控制語(yǔ)音識別技術(shù)可實(shí)現這樣的功能,利用聲音來(lái)控制一臺機器設備的運行。例如現在的智能家電,就可以通過(guò)語(yǔ)音控制其開(kāi)關(guān)和其他功能的實(shí)現。語(yǔ)音控制一方面可以提高工作效率,另一方面也可以在人們手腳被占用的時(shí)候實(shí)現控制,解放人們的雙手。

語(yǔ)音識別調查報告范文

  (2)語(yǔ)音輸入利用語(yǔ)音識別技術(shù),將人們的聲音信號直接轉換成相應的文字輸入計算機系統,不僅可以代替鍵盤(pán)使文字的輸入工作更加省力和高效,同時(shí)也為那些不熟悉鍵盤(pán)輸入法的人們提供了一種新的文字輸入途徑。

  (3)身份識別和指紋類(lèi)似,人們的聲紋也具有較強的排他性,因此可以利用語(yǔ)音識別來(lái)進(jìn)行身份的識別和確認工作。

  語(yǔ)音識別一般有廣義和狹義之分。廣義的語(yǔ)音識別指的是從語(yǔ)音信號中提取出任何人們感興趣內容的技術(shù),而我們通常所說(shuō)的語(yǔ)音識別指的是狹義的語(yǔ)音識別,即從語(yǔ)音信號中提取出文本內容的技術(shù)。也就是通過(guò)算法,將語(yǔ)音轉換成文本的過(guò)程[}2}根據識別的對象不同,語(yǔ)音識別大致分為3類(lèi):孤立詞識別,連續語(yǔ)音識別,關(guān)鍵詞識別。

  其中孤立詞識別是識別事先己知的孤立詞,如“開(kāi)始”、“結束”等;連續語(yǔ)音識別的任務(wù)則是識別任意的連續語(yǔ)音,如一個(gè)句子或者一段話(huà);連續語(yǔ)音流中的關(guān)鍵詞檢測針對的也是連續語(yǔ)音,但它并不要求識別全部文字,而只是檢測己知關(guān)鍵詞在何處出現,如在一段話(huà)中檢測“西安”、“中國”這兩個(gè)詞。根據語(yǔ)音識別系統所針對的發(fā)音人,可以將語(yǔ)音識別分為2類(lèi):特定人語(yǔ)音識別和非特定人語(yǔ)音識別。 其中前者只能識別特定的一個(gè)人或幾個(gè)人的語(yǔ)音,而后者則可以被任何人使用。顯然,非特定人語(yǔ)音識別系統更符合實(shí)際需要,但它要比特定人的識別困難得多。另外,根據語(yǔ)音設備和通道,可以分為桌面CPC)語(yǔ)音識別、電話(huà)語(yǔ)音識別和嵌入式設備(手機、PDA等)語(yǔ)音識別。不同的采集通道會(huì )使發(fā)音的聲學(xué)特性產(chǎn)生變形,因此需要構造各自的識別系統。

  雖然當前語(yǔ)音識別技術(shù)在實(shí)際應用中取得了較好效果,但我們也應清醒的認識到其中存在的問(wèn)題并對其進(jìn)行深入的分析。目前國內外對語(yǔ)音識別技術(shù)研究存在的主要問(wèn)題有:

  (1>標準輸入的問(wèn)題缺乏標準輸入是目前語(yǔ)音識別面臨的主要難

  題之一。因為語(yǔ)言、方言之間的差異,

  所以很難確定一個(gè)標準的輸入,導致實(shí)際使用時(shí)誤識率過(guò)高,較難達到人們預期的'效果。即使語(yǔ)言相同,我們每個(gè)人的發(fā)音習慣也不盡相同,這就導致了根據某些人的語(yǔ)音數據

  設計出來(lái)的語(yǔ)音識別系統很難適應所有的使用者。因此目前絕大多數的語(yǔ)音識別系統在使用前,都需要使用者對其進(jìn)行適應性訓練,使其習慣自己的發(fā)音,以提高識別的正確率。另外,對語(yǔ)音識別的輸入設備缺乏統一標準也是導致語(yǔ)音輸入不標準的重要方面。

  因為當前的錄音設備都是以人能聽(tīng)清,聽(tīng)懂為標準進(jìn)行設計的,至于如何調整輸入設備的各項參數,使其適應計算機識別的特點(diǎn),讓識別系統能夠更好的分辨,對此我們還需要做大量的數據收集,分析和研究工作。

  (2)環(huán)境噪聲的問(wèn)題環(huán)境噪聲的干擾也是語(yǔ)音識別研究中一個(gè)不可回避的問(wèn)題。在實(shí)際應用時(shí),我們并不能保證識別系統始終處于一個(gè)安靜的環(huán)境中工作。大多數的應用場(chǎng)景總是存在著(zhù)環(huán)境噪聲,且不同場(chǎng)景的噪聲也各不相同。我們在語(yǔ)音識別系統開(kāi)發(fā)時(shí)很難做到訓練環(huán)境和真實(shí)環(huán)境的匹配,導致很多識別系統在實(shí)驗室環(huán)境下識別效果很好,但是到了實(shí)際應用的場(chǎng)景,一旦遇到較強的環(huán)境噪聲,識別的效果就大打折扣了。所以說(shuō),噪聲環(huán)境中語(yǔ)音識別要比安靜環(huán)境下困難很多。目前解決環(huán)境噪聲干擾問(wèn)題的途徑主要有三個(gè):一是在語(yǔ)音識別的前端,即語(yǔ)音輸入環(huán)節,開(kāi)發(fā)抗噪性能更好的語(yǔ)音輸入設備,從源頭上降低語(yǔ)音信號中的噪聲分量;二是在對己經(jīng)混入了噪聲的語(yǔ)

  音信號進(jìn)行特征提取時(shí),選取抗噪性高的特征參數;三是在對語(yǔ)音識別系統進(jìn)行訓練時(shí),充分考慮到噪聲的干擾問(wèn)題,進(jìn)行針對性的訓練以提高系統識別的魯棒性。

  (3)協(xié)同發(fā)音現象:人們在交流時(shí)很少一個(gè)字一個(gè)字的孤立發(fā)音,多數情況下都是按照自己的習慣連續發(fā)音,這時(shí)原本孤立的聲學(xué)單元就會(huì )受到上下文的影響而發(fā)生模糊、變異。因此無(wú)論在語(yǔ)音識別系統中選取何種建模單元(詞、音節、聲韻母、音素),都需要對這些單元之間的相互影響做細化處理,這樣就會(huì )帶來(lái)模型數目的劇增和訓練數據的相對醫乏。

  語(yǔ)音信號處理是以語(yǔ)音學(xué)和數字信號處理為基礎,涉及語(yǔ)言學(xué)、模式識別、機器學(xué)習、人工智能、信息論等領(lǐng)域的一門(mén)綜合性學(xué)科,它主要包括四個(gè)部分:語(yǔ)音識別(Speech Recognition)、語(yǔ)音合成(Speech Synthesis)、語(yǔ)音編碼(SpeechCoding)和語(yǔ)音分類(lèi)(Speech Classification)}4]。語(yǔ)音識別是指機器從語(yǔ)音信號中提取語(yǔ)言信息,從而使機器能夠有效地理解和執行發(fā)聲者的各種意圖,其目的是要讓機器聽(tīng)懂人類(lèi)口述的語(yǔ)言,“聽(tīng)懂’,有兩層含義,其一是指將語(yǔ)音轉換為文本,其二是指理解語(yǔ)音包含的意義。通常所說(shuō)的語(yǔ)音識別是指第一層含義,而第二層含義則屬于語(yǔ)言理(LanguageUnderstanding)的范疇,讓機器聽(tīng)懂我們的話(huà)語(yǔ),是自動(dòng)語(yǔ)音識別(Automatic Speech Recognition, ASR要研究的課題。ASR的最終目標是要將連續的語(yǔ)音自動(dòng)地變換成文本字符,實(shí)現所謂的音字轉換。在日常生活中,人們用數以萬(wàn)計的詞語(yǔ),組成連續的語(yǔ)句來(lái)進(jìn)行交談,在這種自然發(fā)音的

  語(yǔ)句中,由于協(xié)同發(fā)音以及語(yǔ)調、重音和抑揚頓挫等節律的影響,很多音素的聲學(xué)特性跟單字念讀時(shí)差別很大,這給ASR帶來(lái)了許多挑戰。

  在語(yǔ)音識別方法中,目前占主導地位的是基于統計的模式識別方法〔川。一段語(yǔ)音波形通過(guò)前端信號處理后可以得到一組特征序列。在給定觀(guān)測序列Y的情況下識別系統采用最大后驗概率準則決定輸出詞序列(2-1)其中,P(幼與詞序列W無(wú)關(guān),因此在式(2-1)中分母可以忽略,即 2-2式中,P(W)為語(yǔ)一言模型,表示特定詞序列出現的先驗概率,與觀(guān)測語(yǔ)音信號無(wú)關(guān);P(Y}W)為聲學(xué)模型,表示給定詞序列W情況下輸出Y的概率,也就是給定聲學(xué)模型輸出Y的概率。如圖所示,大詞匯量連續語(yǔ)音識別系統是一般由語(yǔ)音信號處理、聲學(xué)特征提取、聲學(xué)模型、語(yǔ)言模型、解碼器以及錯誤處理模塊組成。從語(yǔ)音數據提取聲學(xué)特征并輸入到解碼器,利用聲學(xué)模型和語(yǔ)言模型,基于最大后驗概率準則解碼,并對解碼輸出進(jìn)行錯誤處理,得到最終的識別結果

【語(yǔ)音識別調查報告范文】相關(guān)文章:

節水調查報告范文01-17

交通調查報告范文12-31

錯別字現象調查報告范文-調查報告01-14

數據語(yǔ)音項目可行性研究報告10-31

市場(chǎng)調查報告范文4篇-調查報告01-14

調查報告書(shū)寫(xiě)要求及范文-調查報告01-14

光盤(pán)行動(dòng)調查報告范文01-17

【精選】學(xué)生調查報告范文01-17

環(huán)境調查報告模板范文01-14

小區環(huán)境調查報告范文01-14

留坝县| 延川县| 武安市| 香格里拉县| 登封市| 乐业县| 合水县| 隆子县| 天门市| 涿州市| 垦利县| 武胜县| 双柏县| 临安市| 隆昌县| 鞍山市| 高尔夫| 勃利县| 靖江市| 清苑县| 金塔县| 海宁市| 德江县| 黄浦区| 抚州市| 临沂市| 榆树市| 新余市| 夹江县| 若尔盖县| 海盐县| 志丹县| 英山县| 阿拉善右旗| 苏尼特右旗| 青冈县| 句容市| 疏勒县| 汤原县| 香格里拉县| 开平市|