語音識別是一門交叉學科像得,也被稱為自動語音識別肪尾。其目標是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機可讀的輸入,例如按鍵轨醒、二進制編碼或者字符序列催蓄。與說話人識別及說話人確認不同,后者嘗試識別或確認發(fā)出語音的說話人而非其中所包含的詞匯內(nèi)容佃逆。
語音識別技術在國際的發(fā)展
早在三四十年前乱来,美國的一些大學和實驗室就開始了語音識別技術的研究,50年代的AT&T Bell實驗室研發(fā)的Audry系統(tǒng)第一個實現(xiàn)了可識別十個英文數(shù)字雷昵。60和70年代荡担,提出了線性預測分析技術(LP)等相關理論并深入研究,創(chuàng)造出可以實現(xiàn)特定人孤立語音識別系統(tǒng)榴弧;
80年代和90年代是語音識別技術應用研究方向的高潮准瘪,HMM模型和人工神經(jīng)元網(wǎng)絡(ANN)的成功應用,使得語音識別系統(tǒng)的性能比以往更優(yōu)異桅狠;伴隨著多媒體時代的來臨佛吓,微軟,Apple等著名公司都研發(fā)出相當成功的商業(yè)應用語音識別系統(tǒng)垂攘,比如维雇,Apple的Siri系統(tǒng),微軟的Phone Query(電話語音識別)引擎等。
語音識別技術在國內(nèi)的發(fā)展
我國的語音識別研究工作雖然起步較晚吱型,但由于國家的重視逸贾,研究工作進展順利,相關研究緊跟國際水平津滞。由于中國有不可忽視的龐大市場铝侵,國外對中國的語音識別技術也非常重視,漢語語音語義的特殊性也使得中文語音識別技術的研究更具有挑戰(zhàn)触徐。但是咪鲜,國內(nèi)研究機構(gòu)在進行理論研究的同時,應注重語音識別系統(tǒng)在商業(yè)中的應用撞鹉,加快從實驗室演示系統(tǒng)到商品的轉(zhuǎn)化疟丙。
二十世紀末,語音識別系統(tǒng)已經(jīng)在電腦游戲和玩具藻礁,不同樂器的控制聋遮,數(shù)據(jù)采集和聽寫等方面發(fā)現(xiàn)了廣泛的應用。而在近二十年庆率,由于人工智能和機器學習迅猛發(fā)展仪丛,語音識別技術取得顯著進步,語音控制也變得更為實用软殿,開始從實驗室走向市場卒粮。
《互聯(lián)網(wǎng)趨勢》報告中曾談及語音將是人機交互的新范式,語音技術將解放人類雙手和眼睛骨惫,用戶以較低的成本實現(xiàn)隨時訪問钱挺。人們預計,未來10年內(nèi)唯碗,語音識別技術將進入工業(yè)鸟氨、家電冤牢、通信铐向、汽車電子、醫(yī)療丙者、家庭服務复斥、消費電子產(chǎn)品等各個領域。未來與智能家居械媒、可穿戴設備目锭、機器人等交互模式,語音將是最佳人機交互模式纷捞。
近二十年痢虹,語音識別技術取得顯著進步,但識別的準確性問題一直阻礙著智能語音的進一步發(fā)展。目前在實際應用中奖唯,我們看見語音識別多是在智能家居領域惨缆,比如智能家電或智能音箱。此時丰捷,我們就需要考慮一個問題了坯墨,當多個家庭成員同時講話時,智能家電或智能音箱該執(zhí)行誰的命令呢?它們又如何能在眾多聲音中找出自己主人的命令?這些都是當前語音識別所需要解決的問題病往,畢竟我們通常所說的語音識別不僅僅只是單純的對語音內(nèi)容進行識別捣染。
隨著準確性的提升,語音識別應用范圍將不斷拓寬饭糊,語音交互也逐漸成為可能豌泊。不過在語音識別更新迭代的過程中,新舊共存現(xiàn)象必可避免伦捐,在初期混亂的市場藍海中野言,只有看清發(fā)展大勢,方能真正抓住機遇孟庵,迎來新發(fā)展近窟。