通過利用深度學(xué)習(xí)技術(shù)進(jìn)行自然語言的深度理解,一直是人們關(guān)注的焦點(diǎn)息队。聽音樂不需要自己查找屉胳,開燈不需要?jiǎng)邮郑照{(diào)能聽懂你的心聲……這些場景在很多影視作品中有所表現(xiàn)稍圾,也代表了很多人腦海中“智慧生活”的概念履剔。基于此钠彬,在人工智能發(fā)展的熱潮中轨来,自然語言處理成為了各大企業(yè)和科研機(jī)構(gòu)角逐的戰(zhàn)場。
目前汹改,語音交互賽道已匯集了互聯(lián)網(wǎng)巨頭基霞、知名硬件企業(yè)、電商平臺僵禁、傳統(tǒng)家電廠商以及各類人工智能初創(chuàng)公司阎瘩,特別是近幾年以智能音箱為代表的語音交互產(chǎn)品在國內(nèi)外的火爆,極大地激發(fā)了語音交互技術(shù)的應(yīng)用和發(fā)展碰缔。
多個(gè)領(lǐng)域均有應(yīng)用落地
近段時(shí)間账劲,智能家居硬件中風(fēng)頭最盛的無疑是小米AI音箱。此品一經(jīng)推出金抡,便在市場上引起了極大反響瀑焦,被眾多媒體稱為“交互體驗(yàn)最好的音箱”、“智能音箱界的擔(dān)當(dāng)”梗肝、“目前‘最熱門’的智能硬件”……而在小編看來榛瓮,小米AI音箱優(yōu)秀,沒錯(cuò)巫击,但也沒到他們夸的這種程度禀晓。以小編周圍人的具體使用體驗(yàn)來看,其語音識別能力并沒有特別突出坝锰,與目前市場上主流同類產(chǎn)品區(qū)別不大粹懒。它最大的優(yōu)勢是在生態(tài)鏈方面,通過小米AI音箱什黑,可以控制小米臺燈崎淳、小米掃地機(jī)器人境猜、小米落地扇等配套家具設(shè)備伺罗。毫無疑問,這將使得人們距離智能生活更進(jìn)一步胸叠。
在汽車及智能移動設(shè)備領(lǐng)域奇巍,語音交互功能已經(jīng)很普及遇托。在開車的時(shí)候,人們往往騰不出手含罪,也不應(yīng)該騰出手去操作手機(jī)笔广,這時(shí)候,車載語音就成了必需品惠服,也成了車聯(lián)網(wǎng)標(biāo)配灿西。在當(dāng)下這個(gè)智能互聯(lián)、無人駕駛被炒得火熱的時(shí)代断猩,新車不帶點(diǎn)語音識別的黑科技善婉,似乎都不好意思拿出手。福特的SYNC系統(tǒng)專為手機(jī)和數(shù)字媒體播放器配備的福特車載多媒體通信娛樂系統(tǒng)肪瘤,是目前車載系統(tǒng)中采用語音交互技術(shù)的成功的案例抄瓦,已經(jīng)廣泛應(yīng)用在福特多個(gè)系列汽車中√绽洌互聯(lián)網(wǎng)巨頭蘋果在其iPhone4S中推出智能語音助理應(yīng)用Siri后钙姊,Google公司也在其安卓智能手機(jī)操作系統(tǒng)中推出了GoogleNow智能語音搜索及問答服務(wù),微軟公司也將語音技術(shù)應(yīng)用于WindowsPhone埂伦,三星也適時(shí)推出了Bixby煞额。
在金融領(lǐng)域。語音識別技術(shù)也有了用武之地沾谜。近日立镶,中國建設(shè)銀行在上海黃浦區(qū)開設(shè)了一家自動化服務(wù)支行,由機(jī)器人為顧客服務(wù)类早。機(jī)器人裝配面部掃描識別軟件媚媒,可以解答顧客的大部分問題,解決普通高街銀行絕大部分的業(yè)務(wù)需求涩僻,同時(shí)還配備人工輔助服務(wù)以及其他專業(yè)服務(wù)缭召,以滿足個(gè)性化需求。顧客由機(jī)器人接待逆日,這些機(jī)器人通過語音識別功能嵌巷,與人交流,解答顧客的問題芭贬。人工服務(wù)能做到的事恋都,它們也能完成絕大部分,包括開戶坚呜、轉(zhuǎn)賬以及投資程伞。
此外,在新零售領(lǐng)域闸虹,智能語音技術(shù)的應(yīng)用也在不斷擴(kuò)展暴既。比如2017年12月18日辽察,科大訊飛和紅星美凱龍發(fā)布戰(zhàn)略合作計(jì)劃,未來由科大訊飛研發(fā)的智能導(dǎo)購機(jī)器人“美美”將在全國紅星美凱龍門店上市磁饮。
除了語音交互之外腰步,語音轉(zhuǎn)文字也是當(dāng)前語音識別技術(shù)中的一大熱點(diǎn)。早先减少,這個(gè)功能是新聞工作者的最愛堆鸦,用此功能整理采訪稿件、演講稿件能極大的提高工作效率填抬,如今哥纫,這個(gè)功能正在被普通人接受,老人痴奏、懶癌發(fā)作的年輕人都可以使用此功能來替代打字蛀骇。
時(shí)至今日,資本的涌入读拆、政策的扶持擅憔、市場的一再擴(kuò)容,使得語音技術(shù)日益成熟檐晕,全球語音市場也迎來了一個(gè)應(yīng)用落地的黃金發(fā)展期暑诸。根據(jù)相關(guān)統(tǒng)計(jì)數(shù)據(jù)顯示,2016年智能語音產(chǎn)業(yè)規(guī)模直逼60億元大關(guān)辟灰,2017年將破百億个榕,同比增長69%左右。
技術(shù)現(xiàn)狀并不能讓人滿意
與語音識別在多個(gè)領(lǐng)域開枝散葉形成對比的是芥喇,語音識別技術(shù)的發(fā)展頗為緩慢西采,在這種形勢下,語音識別技術(shù)在實(shí)際應(yīng)用中碰到了許多問題继控。
現(xiàn)在有很多企業(yè)說自己的語音識別率已經(jīng)達(dá)到了97%甚至是98%眠便,但在實(shí)際應(yīng)用中,效果并不能讓人滿意况饥。舉一個(gè)比較有信服力的例子其便,IBMT.JWatson研究院開發(fā)的中文語音識別系統(tǒng)連續(xù)三年在美國DARPA主辦的競賽中名列第一,該系統(tǒng)在識別央視《新聞聯(lián)播》節(jié)目時(shí)荸冒,其錯(cuò)誤率小于5%蘑杭,但在識別其它內(nèi)容時(shí),差距非常大扬饰。在實(shí)際應(yīng)用中宛办,識別率主要受到以下幾個(gè)因素的影響:
對于漢語語音識別,方言或口音會降低識別率。
公共場所的強(qiáng)噪聲對識別效果影響甚大菱计,即使是在實(shí)驗(yàn)室環(huán)境下醋躏,敲擊鍵盤虹婿、移動麥克風(fēng)都會成為背景噪聲壤生。
打斷問題,如果人在說話時(shí)有停頓朝刊,機(jī)器就不能很好的聯(lián)系上下文使語意通順耀里。
此處,還有“口語”問題拾氓。它既涉及到自然語言理解冯挎,又與聲學(xué)有關(guān)。語音識別技術(shù)的最終目的是要讓用戶在“人機(jī)對話”時(shí)咙鞍,能夠像進(jìn)行“人與人對話”一樣自然房官,而一旦用戶以跟人交談的方式進(jìn)行語音輸入時(shí),口語的語法不規(guī)范和語序不正常的特點(diǎn)會給語義的分析和理解帶來困難续滋。
語音識別的技術(shù)迭代
此前翰守,就有人指出口音、新詞匯等問題可以通過語音識別技術(shù)在實(shí)際應(yīng)用中的數(shù)據(jù)采集來實(shí)現(xiàn)疲酌。隨著數(shù)據(jù)量的增加蜡峰,這種問題都能得到解決。
而另外諸如“打斷”等問題朗恳,便需要各種深度學(xué)習(xí)模型湿颅,如DNN、CNN渠余、BLSTM(雙向長短時(shí)記憶神經(jīng)網(wǎng)絡(luò))等斟策,以及新的算法,來逐步解決采散。
技術(shù)使用起來往往需要一個(gè)迭代的過程的庸磅,需要先上線,然后在場景里收集數(shù)據(jù)去評估蚌斑,優(yōu)化模型奋完,改善用戶體驗(yàn)。經(jīng)過幾輪迭代慰适,才可以發(fā)揮最佳效果淫兑。其他AI技術(shù)也是相似的。今天很多AI技術(shù)的用戶很容易把技術(shù)的能力理想化饺斧,感覺一引入二谤,就應(yīng)該立竿見影的看到效果《炼冢看到實(shí)際效果不盡人意時(shí)继射,就會感覺有很大的落差佣盒,失望和放棄。誠然顽聂,智能語音技術(shù)已經(jīng)達(dá)到廣發(fā)應(yīng)用的水平肥惭,但在真正落地的時(shí)候,要充分認(rèn)識到可能遇到的困難紊搪,有持久戰(zhàn)的思想準(zhǔn)備蜜葱。
總結(jié)
可以預(yù)測在近五到十年內(nèi),語音識別系統(tǒng)的應(yīng)用將更加廣泛耀石。各種各樣的語音識別系統(tǒng)產(chǎn)品將出現(xiàn)在市場上牵囤。人們也將調(diào)整自己的說話方式以適應(yīng)各種各樣的識別系統(tǒng)。在短期內(nèi)還不可能造出具有和人相比擬的語音識別系統(tǒng)滞伟,要建成這樣一個(gè)系統(tǒng)仍然是人類面臨的一個(gè)大的挑戰(zhàn)揭鳞,我們只能一步步朝著改進(jìn)語音識別系統(tǒng)的方向一步步地前進(jìn)。至于什么時(shí)候可以建立一個(gè)像人一樣完善的語音識別系統(tǒng)則是很難預(yù)測的梆奈。就像在60年代野崇,誰又能預(yù)測今天超大規(guī)模集成電路技術(shù)會對我們的社會產(chǎn)生這么大的影響。