語音識別技術(shù)
隨著數(shù)據(jù)處理技術(shù)的進步以及移動互聯(lián)網(wǎng)的快速普及,計算機技術(shù)被廣泛地運用到了社會的各個領(lǐng)域,隨之而來的則是海量數(shù)據(jù)的產(chǎn)生。其中,語音數(shù)據(jù)受到了人們越來越多的重視。語音識別是一門交叉學科。近二十年來。語音識別技術(shù)取得顯著進步,開始從實驗室走向市場。人們預(yù)計,未來10年內(nèi),語音識別技術(shù)將進入工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務(wù)、消費電子產(chǎn)品等各個領(lǐng)域。語音識別聽寫機在一些領(lǐng)域的應(yīng)用被美國新聞界評為1997年計算機發(fā)展十件大事之一。很多專家都認為語音識別技術(shù)是2000年至2010年間信息技術(shù)領(lǐng)域十大重要的科拄發(fā)展技術(shù)之一。語音識別技術(shù)所涉及的領(lǐng)域包括:信號處理、模式識別、概率論和信息論、發(fā)聲機理和聽覺機理、人工智能等等。 [2]
語音識別技術(shù)屬于人工智能方向的一個重要分支,涉及許多學科,如信號處理、計算機科學、語言學、聲學、生理學、心理學等,是人機自然交互技術(shù)中的關(guān)鍵環(huán)節(jié)。 [5]語音識別較語音合成而言,技術(shù)上要復(fù)雜,但應(yīng)用卻更加廣泛。語音識別ASR的最大優(yōu)勢在于使得人機用戶界面更加自然和容易使用。 [2]
國外研究
從開始研究語音識別技術(shù)至今,語音識別技術(shù)的發(fā)展已經(jīng)有半個多世紀的歷史。語音識別技術(shù)研究的開端,是Davis等人研究的Audry系統(tǒng),它是當時第一個可以獲取幾個英文字母的系統(tǒng)。到了20世紀60年代,伴隨計算機技術(shù)的發(fā)展,語音識別技術(shù)也得以進步,動態(tài)規(guī)劃和線性預(yù)測分析技術(shù)解決了語音識別中最為重要的問題——語音信號產(chǎn)生的模型問題;70年代,語音識別技術(shù)有了重大突破,動態(tài)時間規(guī)整技術(shù)(DTW)基本成熟,使語音變得可以等長,另外,矢量量化(VQ)和隱馬爾科夫模型理論(HMM)也不斷完善,為之后語音識別的發(fā)展做了鋪墊;80年代對語音識別的研究更為徹底,各種語音識別算法被提出,其中的突出成就包括HMM模型人工神經(jīng)網(wǎng)絡(luò)(ANN);進入90年代后,語音識別技術(shù)開始應(yīng)用于全球市場,許多著名科技互聯(lián)網(wǎng)公司, 如IBM,Apple等,都為語音識別技術(shù)的開發(fā)和研究投入巨資;到了 21 世紀,語音識別技術(shù)研究重點轉(zhuǎn)變?yōu)榧磁d口語和自然對話以及多種語種的同聲翻譯。 [3]
國內(nèi)研究
國內(nèi)關(guān)于語音識別技術(shù)的研究與探索從20 世紀80 年代開始,取得了許多成果并且發(fā)展飛速。例如:清華大學研發(fā)的語音識別技術(shù)以1183 個單音節(jié)作為識別基元,并對其音節(jié)進行分解,最后進行識別,使三字詞和四字詞的準確率高達98%;中科院采用連續(xù)密度的HMM,整個系統(tǒng)的識別率達到89.5%,聲調(diào)和詞語的識別率分別是 99.5%和95%。目 前,我國的語音識別技術(shù)已經(jīng)和國際上的超級大國實力相當, 其綜合錯誤率可控制在10%以內(nèi)。 [3]
清華大學電子工程系語音技術(shù)與專用芯片設(shè)計課題組,研發(fā)的非特定人漢語數(shù)碼串連續(xù)語音識別系統(tǒng)的識別精度,達到94.8%(不定長數(shù)字串)和96.8%(定長數(shù)字串)。在有5%的拒識率情況下,系統(tǒng)識別率可以達到96.9%(不定長數(shù)字串)和98.7%(定長數(shù)字串),這是目前國際最好的識別結(jié)果之一,其性能已經(jīng)接近實用水平。研發(fā)的5000詞郵包校核非特定人連續(xù)語音識別系統(tǒng)的識別率達到98.73%,前三選識別率達99.96%;并且可以識別普通話與四川話兩種語言,達到實用要求。
中科院自動化所及其所屬模式科技(Pattek)公司2002年發(fā)布了他們共同推出的面向不同計算平臺和應(yīng)用的“天語”中文語音系列產(chǎn)品——PattekASR,結(jié)束了中文語音識別產(chǎn)品自1998年以來一直由國外公司壟斷的歷史。
2018年,科大訊飛提出深度全序列卷積神經(jīng)網(wǎng)絡(luò)(DFCNN),使用大量的卷積直接對整句語音信號進行建模。同年,阿里提出LFR-DFSMN模型,將低幀率算法和DFSMN算法進行融合,語音識別錯誤率相比上一代技術(shù)降低20%,解碼速度提升3倍。2019年,百度提出了流式多級的截斷注意力模型SMLTA,該模型在LSTM和CTC的基礎(chǔ)上引入了注意力機制來獲取更大范圍和更有層次的上下文信息。在線語音識別率上,該模型比百度上一代DeepPeak2模型提升相對15%的性能。 [5]2021年,科大訊飛提出“語音識別方法及系統(tǒng)”專利,通過“靜態(tài)+動態(tài)”網(wǎng)絡(luò)空間實時融合路徑解碼尋優(yōu)算法解決了面向多領(lǐng)域、多用戶、多場景下識別效果差、反應(yīng)速度慢、系統(tǒng)構(gòu)建時間長等技術(shù)問題,顯著地提升了語音識別效果。 [6]
語音識別是涉及心理學、生理學、聲學、語言學、信息理論、信號處理、計算機科學、模式識別等多個學科的交叉學科,具有廣闊的應(yīng)用前景,如語音檢索、命令控制、自動客戶服務(wù)、機器自動翻譯等。當今信息社會的高速發(fā)展迫切需要性能優(yōu)越的,能滿足各種不同需求的自動語音識別技術(shù)。但是,這樣的目標面臨著諸多困難,如:①語音信號會受 到上下文的影響而發(fā)生變化;②發(fā)音人以及口音的不同會導致語音特征在參數(shù)空間分布的不同;③同一發(fā)音人心理和生理變化帶來的語音變化;④不同的發(fā)音方式和習慣引起的省略、連讀等多變的語音現(xiàn)象;⑤環(huán)境和信道等因素造成的語音信號失真問題。 [2]
對于自動語音識別的探索,實際是早于計算機的出現(xiàn)的,早期的聲碼器可以看作是語音合成和識別技術(shù)的雛形,20世紀20年代出現(xiàn)的“Radio Rex”玩具狗也許是人類歷史上最早的語音識別機。現(xiàn)代自動語音識別技術(shù)可以追溯到上世紀50年代貝爾實驗室的 研究員使用模擬元器件,提取分析元音的共振峰信息,實現(xiàn)了十個英文孤立數(shù)字的識別功能。到了50年代末,統(tǒng)計語法的概念被倫敦大學學院的研究者首次加入到語音識別中(Fry,1959),具有識別輔音和元音音素功能的識別器問世。在同一時期,用于特定環(huán)境中面向非特定人10個元音的音紊識別器也在麻省理工大學的林肯實驗室被研制出來。概率在不確定性數(shù)據(jù)管理中扮演重要角色,但多重概率的出現(xiàn)也極大的加大了數(shù)據(jù)處理的繁雜度。 [2]
聲學特征提取
模擬的語音信號進行采樣得到波形數(shù)據(jù)之后,首先要輸入到特征提取模塊,提取出合適的聲學特征參數(shù)供后續(xù)聲學模型訓練使用。好的聲學特征應(yīng)當考慮以下三個方面 的因素。第一,應(yīng)當具有比較優(yōu)秀的區(qū)分特性.以使聲學模型不同的建模單元可以方便準確的建模。其次,特征提取也可以認為是語音信息的壓縮編碼過程,既需要將信道、說話人的因素消除保留與內(nèi)容相關(guān)的信息,又需要在不損失過多有用信息的情況下使用盡量低的參數(shù)維度,便于高效準確的進行模型的訓練。最后,需要考慮魯棒性,即對環(huán)境噪聲的抗干擾能力。 [2]
聲學模型
如今主流語音識別系統(tǒng)都采用隱馬爾科夫模型(HMM)作為聲學模型,這是因為HMM具有很多優(yōu)良特性。HMM模型的狀態(tài)跳轉(zhuǎn)模型很適合人類語音的短時平穩(wěn)特性,可以對不斷產(chǎn)生的觀測值(語音信號)進行方便的統(tǒng)計建模;與HNN相伴生的動態(tài)規(guī)劃算法可以有效地實現(xiàn)對可變長度的時間序列進行分段和分類的功能;HMM的應(yīng)用范圍廣泛。只要選擇不同的生成概率密度,離散分布或者連續(xù)分布,都可以使用HNM進行建模。HMM以及與之相關(guān)的技術(shù)在語音識別系統(tǒng)中處于最核心的地位。自從HMM的理論被提出以來(Baum and Easo,1967),它在語音信號處理及相關(guān)領(lǐng)域的應(yīng)用范圍變得越來越廣泛,在語音識別領(lǐng)域起到核心角色的作用,它還廣泛活躍精音的參數(shù)合成、語言理解、 機器翻譯等其他領(lǐng)域。 [2]
以漢語為例:
漢語按音素的發(fā)音特征分類分為輔音、單元音、復(fù)元音、復(fù)鼻尾音四種,按音節(jié)結(jié)構(gòu)分類為聲母和韻母。并且由音素構(gòu)成聲母或韻母。有時,將含有聲調(diào)的韻母稱為調(diào)母。由單個調(diào)母或由聲母與調(diào)母拼音成為音節(jié)。漢語的一個音節(jié)就是漢語一個字的音,即音節(jié)字。由音節(jié)字構(gòu)成詞,最后再由詞構(gòu)成句子。
漢語聲母共有22個,其中包括零聲母,韻母共有38個。按音素分類,漢語輔音共有22個,單元音13個,復(fù)元音13個,復(fù)鼻尾音16個。
目前常用的聲學模型基元為聲韻母、音節(jié)或詞,根據(jù)實現(xiàn)目的不同來選取不同的基元。漢語加上語氣詞共有412個音節(jié),包括輕音字,共有1282個有調(diào)音節(jié)字,所以當在小詞匯表孤立詞語音識別時常選用詞作為基元,在大詞匯表語音識別時常采用音節(jié)或聲韻母建模,而在連續(xù)語音識別時,由于協(xié)同發(fā)音的影響,常采用聲韻母建模。
基于統(tǒng)計的語音識別模型常用的就是HMM模型λ(N,M,π,A,B),涉及到HMM模型的相關(guān)理論包括模型的結(jié)構(gòu)選取、模型的初始化、模型參數(shù)的重估以及相應(yīng)的識別算法等。
語言模型與語言處理
語言模型包括由識別語音命令構(gòu)成的語法網(wǎng)絡(luò)或由統(tǒng)計方法構(gòu)成的語言模型,語言處理可以進行語法、語義分析。
語言模型對中、大詞匯量的語音識別系統(tǒng)特別重要。當分類發(fā)生錯誤時可以根據(jù)語言學模型、語法結(jié)構(gòu)、語義學進行判斷糾正,特別是一些同音字則必須通過上下文結(jié)構(gòu)才能確定詞義。語言學理論包括語義結(jié)構(gòu)、語法規(guī)則、語言的數(shù)學描述模型等有關(guān)方面。目前比較成功的語言模型通常是采用統(tǒng)計語法的語言模型與基于規(guī)則語法結(jié)構(gòu)命令語言模型。語法結(jié)構(gòu)可以限定不同詞之間的相互連接關(guān)系,減少了識別系統(tǒng)的搜索空間,這有利于提高系統(tǒng)的識別。
語音識別技術(shù)常用的方法有如下四種:1. 基于語言學和 聲學的方法,2. 隨機模型法,3. 利用人工神經(jīng)網(wǎng)絡(luò)的方法,4. 概率語法分析。其中最主流的方法是隨機模型法。 [3]
基于語言學和聲學的方法
基于語言學和聲學的方法是最早應(yīng)用于語音識別的方法,但是這種方法涉及的知識太過于困難,導致現(xiàn)在并沒有得到大規(guī)模普及。 [3]
隨機模型法
隨機模型法目前應(yīng)用較為成熟,該方法主要采用提取特征、訓練模板、對模板進行分類及對模板進行判斷的步驟來對語音進行識別。該方法涉及到的技術(shù)一般有3種:動態(tài)時間規(guī)整(DTW),隱馬爾科夫模型(HMM)理論和矢量量化(VQ )技術(shù)。其中,HMM 算法相較于其他兩者的優(yōu)點是簡便優(yōu)質(zhì), 在語音識別性能方面更為優(yōu)異。也正因為如此,如今大部分語音識別系統(tǒng)都在使用HMM算法。 [3]
神經(jīng)網(wǎng)絡(luò)的方法
(ANN)神經(jīng)網(wǎng)絡(luò)方法是在語音識別發(fā)展的后期才有的一種新的識別方法。它其實是一種模擬人類神經(jīng)活動的方法,同時具有人的一些特性,如自動適應(yīng)和自主學習。其較強的歸類能力和映射能力在語音識別技術(shù)中具有很高的利用價值。業(yè)界將 ANN 與傳統(tǒng)的方法進行結(jié)合,各取所長,使得語音識別的效率得到了顯著的提升。 [3]
概率語法分析法
概率語法分析法是一種能夠識別大長度語段的技術(shù),主要是為了完成“區(qū)別語言的特征”,對于不同層次的知識利用相應(yīng)層次的知識來解決。這種方法最大的不足就是,建立一個有效、適宜的適用知識系統(tǒng)存在著一定的困難。 [3]
語音識別的工作模式
語音識別一般來說具有兩種工作模式:識別模式和命令模式。語音識別程序的實現(xiàn)也會根據(jù)兩種模式的不同而采用不同類型的程序。識別模式的工作原理是:引擎系統(tǒng)在后臺直接給出一個詞庫和識別模板庫,任何系統(tǒng)都不需要再進一 步對識別語法進行改動,只需要根據(jù)識別引擎提供的主程序源代碼進行改寫就可以了。命令模式相對來說實現(xiàn)起來比較困難,詞典必須要由程序員自己編寫,然后再進行編程,最后還要根據(jù)語音詞典進行處理和更正。識別模式與命令模式最大的不同就是,程序員要根據(jù)詞典內(nèi)容進行代碼的核對與修改。 [3]
語音識別環(huán)境設(shè)置
一般語音識別程序的環(huán)境設(shè)置步驟包括CTI服務(wù)器硬件默認參數(shù)采集與設(shè)定,識別硬件采集卡初始化,引擎端口設(shè)置等幾個部分。 [3]
應(yīng)用程序的所有工作都是根據(jù)CTI技術(shù)(Computer Telephone Integration)來工作的, 語音硬件平臺默認設(shè)定 CTI 服務(wù)器。
語音識別的平臺會通過判斷是否已經(jīng)輸入語音來進行工作,那么獲得語音就需要語音采集系統(tǒng)了。為了采集和輸出,我們一般采用語音卡作為工具。工作時,打開語音卡內(nèi)自帶的板卡,然后在程序中加入?yún)?shù)就可以運行了。 [3]
3、引擎端口設(shè)置。語音開發(fā)平臺已對硬件API接口函數(shù)進行提供, 因此只需對函數(shù)進行調(diào)用和賦值即可。 4.
語音字典的編譯
語音字典的設(shè)置包括語法、識別語音的規(guī)則、語音模板制作等內(nèi)容,根據(jù)語音平臺的規(guī)則來進行。在語音字典設(shè)置時,首先要設(shè)置語音識別核心包,再根據(jù)自己編譯的語音的規(guī)則來完成字典的全部設(shè)置。 [3]
編制識別主程序
在編譯語音識別程序的最后階段,程序員需要為主程序編寫GUI(Graphical User Interface)界面,以便于用戶與計算機進行交互操作。 [3]
語音識別系統(tǒng)可以根據(jù)對輸入語音的限制加以分類。
從說話者與識別系統(tǒng)的相關(guān)性考慮
可以將識別系統(tǒng)分為3類:(1)特定人語音識別系統(tǒng):僅考慮對于專人的話音進行識別;(2)非特定人語音系統(tǒng):識別的語音與人無關(guān),通常要用大量不同人的語音數(shù)據(jù)庫對識別系統(tǒng)進行學習;(3)多人的識別系統(tǒng):通常能識別一組人的語音,或者成為特定組語音識別系統(tǒng),該系統(tǒng)僅要求對要識別的那組人的語音進行訓練。
從說話的方式考慮
也可以將識別系統(tǒng)分為3類:(1)孤立詞語音識別系統(tǒng):孤立詞識別系統(tǒng)要求輸入每個詞后要停頓;(2)連接詞語音識別系統(tǒng):連接詞輸入系統(tǒng)要求對每個詞都清楚發(fā)音,一些連音現(xiàn)象開始出現(xiàn);(3)連續(xù)語音識別系統(tǒng):連續(xù)語音輸入是自然流利的連續(xù)語音輸入,大量連音和變音會出現(xiàn)。
從識別系統(tǒng)的詞匯量大小考慮
也可以將識別系統(tǒng)分為3類:(1)小詞匯量語音識別系統(tǒng)。通常包括幾十個詞的語音識別系統(tǒng)。(2)中等詞匯量的語音識別系統(tǒng)。通常包括幾百個詞到上千個詞的識別系統(tǒng)。(3)大詞匯量語音識別系統(tǒng)。通常包括幾千到幾萬個詞的語音識別系統(tǒng)。隨著計算機與數(shù)字信號處理器運算能力以及識別系統(tǒng)精度的提高,識別系統(tǒng)根據(jù)詞匯量大小進行分類也不斷進行變化。目前是中等詞匯量的識別系統(tǒng)到將來可能就是小詞匯量的語音識別系統(tǒng)。這些不同的限制也確定了語音識別系統(tǒng)的困難度。
就算法模型方面而言
需要有進一步的突破。目前能看出它的一些明顯不足,尤其在中文語音識別方面,語言模型還有待完善,因為語言模型和聲學模型正是聽寫識別的基礎(chǔ),這方面沒有突破,語音識別的進展就只能是一句空話。目前使用的語言模型只是一種概率模型,還沒有用到以語言學為基礎(chǔ)的文法模型,而要使計算機確實理解人類的語言,就必須在這一點上取得進展,這是一個相當艱苦的工作。此外,隨著硬件資源的不斷發(fā)展,一些核心算法如特征提取、搜索算法或者自適應(yīng)算法將有可能進一步改進。可以相信,半導體和軟件技術(shù)的共同進步將為語音識別技術(shù)的基礎(chǔ)性工作帶來福音。
就自適應(yīng)方面而言
語音識別技術(shù)也有待進一步改進。目前,像IBM的ViaVoice和Asiaworks的SPK都需要用戶在使用前進行幾百句話的訓練,以讓計算機適應(yīng)你的聲音特征。這必然限制了語音識別技術(shù)的進一步應(yīng)用,大量的訓練不僅讓用戶感到厭煩,而且加大了系統(tǒng)的負擔。并且,不能指望將來的消費電子應(yīng)用產(chǎn)品也針對單個消費者進行訓練。因此,必須在自適應(yīng)方面有進一步的提高,做到不受特定人、口音或者方言的影響,這實際上也意味著對語言模型的進一步改進?,F(xiàn)實世界的用戶類型是多種多樣的,就聲音特征來講有男音、女音和童音的區(qū)別,此外,許多人的發(fā)音離標準發(fā)音差距甚遠,這就涉及到對口音或方言的處理。如果語音識別能做到自動適應(yīng)大多數(shù)人的聲線特征,那可能比提高一二個百分點識別率更重要。事實上,ViaVoice的應(yīng)用前景也因為這一點打了折扣,只有普通話說得很好的用戶才可以在其中文版連續(xù)語音識別方面取得相對滿意的成績。
就強健性方面而言
語音識別技術(shù)需要能排除各種環(huán)境因素的影響。目前,對語音識別效果影響最大的就是環(huán)境雜音或嗓音,在公共場合,你幾乎不可能指望計算機能聽懂你的話,來自四面八方的聲音讓它茫然而不知所措。很顯然這極大地限制了語音技術(shù)的應(yīng)用范圍,目前,要在嘈雜環(huán)境中使用語音識別技術(shù)必須有特殊的抗嗓(NoiseCancellation)麥克風才能進行,這對多數(shù)用戶來說是不現(xiàn)實的。在公共場合中,個人能有意識地摒棄環(huán)境嗓音并從中獲取自己所需要的特定聲音,如何讓語音識別技術(shù)也能達成這一點呢?這的確是一個艱巨的任務(wù)。
此外,帶寬問題也可能影響語音的有效傳送,在速率低于1000比特/秒的極低比特率下,語音編碼的研究將大大有別于正常情況,比如要在某些帶寬特別窄的信道上傳輸語音,以及水聲通信、地下通信、戰(zhàn)略及保密話音通信等,要在這些情況下實現(xiàn)有效的語音識別,就必須處理聲音信號的特殊特征,如因為帶寬而延遲或減損等。語音識別技術(shù)要進一步應(yīng)用,就必須在強健性方面有大的突破。 [4]
多語言混合識別以及無限詞匯識別方面
簡單地說,目前使用的聲學模型和語音模型太過于局限,以至用戶只能使用特定語音進行特定詞匯的識別。如果突然從中文轉(zhuǎn)為英文,或者法文、俄文,計算機就會不知如何反應(yīng),而給出一堆不知所云的句子;或者用戶偶爾使用了某個專門領(lǐng)域的專業(yè)術(shù)語,如“信噪比”等,可能也會得到奇怪的反應(yīng)。這一方面是由于模型的局限,另一方面也受限于硬件資源。隨著兩方面的技術(shù)的進步,將來的語音和聲學模型可能會做到將多種語言混合納入,用戶因此就可以不必在語種之間來回切換。此外,對于聲學模型的進一步改進,以及以語義學為基礎(chǔ)的語言模型的改進,也能幫助用戶盡可能少或不受詞匯的影響,從而可實行無限詞匯識別。 [4]
多語種交流系統(tǒng)的應(yīng)用
最終,語音識別是要進一步拓展我們的交流空間,讓我們能更加自由地面對這個世界??梢韵胍?,如果語音識別技術(shù)在上述幾個方面確實取得了突破性進展,那么多語種交流系統(tǒng)的出現(xiàn)就是順理成章的事情,這將是語音識技術(shù)、機器翻譯技術(shù)以及語音合成技術(shù)的完美結(jié)合,而如果硬件技術(shù)的發(fā)展能將這些算法進而固化到更為細小的芯片,比如手持移動設(shè)備上,那么個人就可以帶著這種設(shè)備周游世界而無需擔心任何交流的困難,你說出你想表達的意思,手持設(shè)備同時識別并將它翻譯成對方的語言,然后合成并發(fā)送出去;同時接聽對方的語言,識別并翻譯成已方的語言,合成后朗讀給你聽,所有這一切幾乎都是同時進行的,只是機器充當著主角。
任何技術(shù)的進步都是為了更進一步拓展我們?nèi)祟惖纳婧徒涣骺臻g,以使我們獲得更大的自由,就服務(wù)于人類而言,這一點顯然也是語音識別技術(shù)的發(fā)展方向,而為了達成這一點,它還需要在上述幾個方面取得突破性進展,最終,多語種自由交流系統(tǒng)將帶給我們?nèi)碌纳羁臻g。 [4]
比爾蓋茨曾說過:“語音技術(shù)將使計算機丟下鼠標鍵盤”。 隨著計算機的小型化,鍵盤鼠標已經(jīng)成為了計算機發(fā)展的一大阻礙。人類的計算機從超大體積發(fā)展到現(xiàn)在占地不到1平方米的微型計算機,想必未來的計算機可能會有意想不到的小,那么鍵盤鼠標對其來說就是障礙了,這時候就需要語音識別來完成命令。一些科學家也說過:“計算機的下一代革命就是從圖形界面到語音用戶接口”。這表明了語音識別技術(shù)的發(fā)展無疑改變了人們的生活。在某些領(lǐng)域,電話正在逐漸地演變成一個服務(wù)者而非簡單的對話工具,通過電話,人們也可以使用語音來獲取自己想獲得的信息,其工作效率也自然而然提高了一個檔次。 [3]
語音識別技術(shù)漸漸地變成了人機接口的關(guān)鍵一步,這樣一個極具競爭性的新興產(chǎn)業(yè),其市場的發(fā)展更是十分迅速, 發(fā)展趨勢也在逐步上升。從1999到2005年間,語音識別技術(shù)市場正在以每年31%的趨勢增長,如今在 iPhone等智能 手機中,語音助手已經(jīng)成為了標配功能,為用戶帶來了許多的便利,人們也可以通過電話和網(wǎng)絡(luò)來訂購機票火車票,甚至是旅游服務(wù)。因此,語音識別技術(shù)在我們實際生活中也有著越來越廣闊的發(fā)展前景和應(yīng)用領(lǐng)域。 [3]
在電話與通信系統(tǒng)中,智能語音接口正在把電話機從一個單純的服務(wù)工具變成為一個服務(wù)的“提供者”和生活“伙伴”;使用電話與通信網(wǎng)絡(luò),人們可以通過語音命令方便地從遠端的數(shù)據(jù)庫系統(tǒng)中查詢與提取有關(guān)的信息;隨著計算機的小型化,鍵盤已經(jīng)成為移動平臺的一個很大障礙,想象一下如果手機僅僅只有一個手表那么大,再用鍵盤進行撥號操作已經(jīng)是不可能的。語音識別正逐步成為信息技術(shù)中人機接口的關(guān)鍵技術(shù),語音識別技術(shù)與語音合成技術(shù)結(jié)合使人們能夠甩掉鍵盤,通過語音命令進行操作。語音技術(shù)的應(yīng)用已經(jīng)成為一個具有競爭性的新興高技術(shù)產(chǎn)業(yè)。 [4]
語音識別技術(shù)發(fā)展到今天,特別是中小詞匯量非特定人語音識別系統(tǒng)識別精度已經(jīng)大于98%,對特定人語音識別系統(tǒng)的識別精度就更高。這些技術(shù)已經(jīng)能夠滿足通常應(yīng)用的要求。由于大規(guī)模集成電路技術(shù)的發(fā)展,這些復(fù)雜的語音識別系統(tǒng)也已經(jīng)完全可以制成專用芯片,大量生產(chǎn)。在西方經(jīng)濟發(fā)達國家,大量的語音識別產(chǎn)品已經(jīng)進入市場和服務(wù)領(lǐng)域。一些用戶交機、電話機、手機已經(jīng)包含了語音識別撥號功能,還有語音記事本、語音智能玩具等產(chǎn)品也包括語音識別與語音合成功能。人們可以通過電話網(wǎng)絡(luò)用語音識別口語對話系統(tǒng)查詢有關(guān)的機票、旅游、銀行信息,并且取得很好的結(jié)果。調(diào)查統(tǒng)計表明多達85%以上的人對語音識別的信息查詢服務(wù)系統(tǒng)的性能表示滿意。 [4]
谷歌推出語音識別技術(shù)
可以預(yù)測在近五到十年內(nèi),語音識別系統(tǒng)的應(yīng)用將更加廣泛。各種各樣的語音識別系統(tǒng)產(chǎn)品將出現(xiàn)在市場上。人們也將調(diào)整自己的說話方式以適應(yīng)各種各樣的識別系統(tǒng)。在短期內(nèi)還不可能造出具有和人相比擬的語音識別系統(tǒng),要建成這樣一個系統(tǒng)仍然是人類面臨的一個大的挑戰(zhàn),我們只能一步步朝著改進語音識別系統(tǒng)的方向一步步地前進。至于什么時候可以建立一個像人一樣完善的語音識別系統(tǒng)則是很難預(yù)測的。就像在60年代,誰又能預(yù)測今天超大規(guī)模集成電路技術(shù)會對我們的社會產(chǎn)生這么大的影響。 [4]
相關(guān)知識
語音識別
語音識別抑郁癥的關(guān)鍵技術(shù)研究
語音識別:如何識別鼾聲
智能語音識別技術(shù):賦能人工智能應(yīng)用新篇章
電銷機器人=AI人工智能+語音識別技術(shù)+語音知識庫+話術(shù)邏輯+智能學習
ai語音識別聲音防沉迷
語音識別技術(shù)在手機心理健康軟件中的應(yīng)用
R56 語音識別系統(tǒng).pdf
電話語音識別/114查號
語音識別的基本原理是什么
網(wǎng)址: 語音識別技術(shù) http://www.u1s5d6.cn/newsview681638.html
推薦資訊
- 1發(fā)朋友圈對老公徹底失望的心情 12775
- 2BMI體重指數(shù)計算公式是什么 11235
- 3補腎吃什么 補腎最佳食物推薦 11199
- 4性生活姿勢有哪些 盤點夫妻性 10428
- 5BMI正常值范圍一般是多少? 10137
- 6在線基礎(chǔ)代謝率(BMR)計算 9652
- 7一邊做飯一邊躁狂怎么辦 9138
- 8從出汗看健康 出汗透露你的健 9063
- 9早上怎么喝水最健康? 8613
- 10五大原因危害女性健康 如何保 7828