2017年是AI彩電產(chǎn)品的元年——所謂AI彩電就是一種新的羹唠、能聽懂大家的語言奕枢,執(zhí)行語言命令,甚至可以和大家自由對話的電視機產(chǎn)品佩微。統(tǒng)計數(shù)據(jù)表明缝彬,2017年新上市彩電機型中萌焰,近四分之一配備了語音智能功能。
2018年初谷浅,語音智能AI電視進一步升級篱瀑。業(yè)內(nèi)預(yù)計,2018年新發(fā)布的彩電產(chǎn)品配備AI語音技術(shù)的比例椅砸,將迅速上升到8成以上送县,即除了少數(shù)主打低價格的產(chǎn)品外,大部分新品都將成為智能電視熔淘。智能語音正在進入一個快速發(fā)展的“新階段”榨未。
消費電子產(chǎn)品悄慨,語音技術(shù)成為標(biāo)配
1月29日饼痘,作為小米電視2018年推出的第二款新品——小米盒子4正式發(fā)布,其最大特點是直接預(yù)置人工智能語音系統(tǒng)车管。智能盒子產(chǎn)品是“存量老電視體驗升級”的關(guān)鍵工具全僧。
國內(nèi)彩電用戶大概有半數(shù)采用智能盒子、OTT盒子还桶、IPTV盒子等產(chǎn)品接入電視網(wǎng)絡(luò)公杰。小米盒子4標(biāo)志著,這一“存量”市場苛瞬,進入關(guān)鍵的“智能語音化”發(fā)展新階段许起。
智能語音技術(shù)的另一個新消費類產(chǎn)品是“智能音箱”。2018年CES展會菩鲜,百度系展示了3款智能音箱產(chǎn)品园细。該產(chǎn)品還是三星、蘋果接校、谷歌等國際巨頭的必爭之地猛频。國內(nèi)市場,天貓系也在2017年中推出了智能音箱產(chǎn)品蛛勉。
目前鹿寻,智能音箱產(chǎn)業(yè)開拓最好的是美國市場:在美國,2017年有近六分之一的人(超過5000萬)擁有智能音箱诽凌,這個數(shù)字比16年翻了一倍還多毡熏。
從國內(nèi)市場看,智能語音盒子侣诵、智能語音音箱和智能語音電視已經(jīng)構(gòu)成家庭和個人消費“智能語音”應(yīng)用的三大平臺痢法。且每一個品類的潛在市場規(guī)模都是“千萬臺”的。但是窝趣,這三個品類與智能語音應(yīng)用的王者:智能手機比較疯暑,銷量真的有點“小”牧稳。手機產(chǎn)品應(yīng)用語音輸入、語音操作等技術(shù)已經(jīng)很久了盅格。
其中闰袒,更有6成以上的用戶,經(jīng)常使用語音輸入鞭碳。不過作為掌上設(shè)備悴觅,語音操作在手機上的應(yīng)用卻不明顯。
除了以上消費電子設(shè)備外山滔,家電行業(yè)還看好“空調(diào)”的語音智能化轰蜗、抽油煙機的聲音感知與油煙感知的自動運行等“家電嵌入智能”技術(shù)的發(fā)展。有空調(diào)屆人士表示莉紊,語音控制的空調(diào)產(chǎn)品和環(huán)境自動感知技術(shù)結(jié)合自葡,能帶來更好的操作體驗、更好地?zé)o操作自動環(huán)境控制體驗和避免空轉(zhuǎn)的節(jié)能效果幼潮。
作為人類最重要的溝通方式恤仁,語音技術(shù)的發(fā)展顯然已經(jīng)成為消費電子產(chǎn)業(yè)重要的創(chuàng)新環(huán)。彩電產(chǎn)品語音化更是成為重要行業(yè)趨勢坯苹,并快速邁向普及隆檀。
語音智能很神奇,如何做到真好用
很多人覺得粹湃,智能電視語音技術(shù)就是“多安裝一個軟件”恐仑。但是,真實的產(chǎn)品研發(fā)为鳄,卻要比“一個軟件”復(fù)雜的多裳仆。
實現(xiàn)語音交互,首先需要為設(shè)備配備“麥克風(fēng)”济赎,也就是“拾音”產(chǎn)品鉴逞。與我們一般的會議講話、KTV娛樂的麥克風(fēng)不同司训,智能語音電視機的麥克風(fēng)必須具有三個技術(shù)特征构捡。第一是,遠場效果好壳猜。即至少在5米遠勾徽,能夠準(zhǔn)確識別日常對話,甚至識別壓低聲音但清晰的對話忿震。這與手機斗黍、KTV、直播肚浴、會議室麥克風(fēng)“對著嘴”的應(yīng)用截然不同掷佑。
第二苇恤,智能語音技術(shù)麥克風(fēng)必須是“全向拾音”。由于語音交流不是“嘴對著麥克風(fēng)吹”霹壁,也就導(dǎo)致交流人員與麥克風(fēng)等設(shè)備的“角度關(guān)系”千差萬別供窝。比如一個智能音箱,擺放在茶幾上剿稼,那么他就需要對360度方位內(nèi)的聲音都能很好識別百涕。因此,智能語音產(chǎn)品通常采用一個“多麥耦合”陣列茂禁,實現(xiàn)全方向全域拾音斩角。
第三,智能語音技術(shù)的麥克風(fēng)必須有很高的“信噪比”瞻窗。即要能夠?qū)苟喾N噪聲的干擾伶丐。遠場和全向拾音,進一步增加了對麥克風(fēng)信噪比的考驗焙贷。
但是撵割,對于智能語音設(shè)備而言,其最大的技術(shù)要求顯然不在“苛刻的拾音技術(shù)上”辙芍,而在于“語音到語意”的理解上。智能語音設(shè)備的目的是理解對方的具體意思羹与。這與傳統(tǒng)的會議故硅、KTV、電話等場景纵搁,麥克風(fēng)和語音系統(tǒng)只負責(zé)“原樣搬運聲音”的工作完全不同吃衅。
識別語音的含義,有哪些難關(guān)呢腾誉?比如徘层,要從多人語音,尤其是居家環(huán)境下的多人對話利职、對正在播放的視聽內(nèi)容的聲音中有效區(qū)分“和誰對話趣效、誰在對話”。這就涉及一種稱為聲紋的身份識別和認(rèn)證技術(shù)(類似于指紋識別撼盈、人臉識別等的功用)绊叙。
再比如,不是每個人都是“新聞聯(lián)播”式的標(biāo)準(zhǔn)普通話應(yīng)用者:口音节讹、方言夸营、口頭禪,這些的處理具有很大的“個人性”漾肩、“差異性”贫介。這需要智能語音系統(tǒng)能夠?qū)W習(xí)和升級自己区酷,適應(yīng)“主人”的語言特征。后者涉及到機器學(xué)習(xí)等高級智能技術(shù)翠蓄。
當(dāng)然绎瓣,智能語音技術(shù)的電視機,不是“一個人在戰(zhàn)斗”授灵,這種電視機首先是一種“網(wǎng)絡(luò)電視機”堵忌。即,語音技術(shù)可以從網(wǎng)絡(luò)上得到更強大的“支持”藏亲。包括杯道,智慧程序和算法的升級、個人語言特征和習(xí)慣的遠程訪問和使用责蝠、遠程云計算提供更為強大的算法和理解計算力支撐党巾,支持更多的“潛在應(yīng)用”開發(fā)等等。
綜上所述霜医,AI語音電視的升級齿拂,不是簡單增加一個軟件而已。而且隨著語音和人工智能技術(shù)的進一步發(fā)展肴敛,引入專門的智能協(xié)處理器署海、神經(jīng)元處理器、改變傳統(tǒng)產(chǎn)品的底層架構(gòu)是大勢所趨医男。語音技術(shù)和彩電產(chǎn)品的整合砸狞,將是一個系統(tǒng)性的產(chǎn)品技術(shù)體系革新。
有了AI語音镀梭,彩電能做什么
彩電和其它消費電子刀森、家電企業(yè)在AI語音技術(shù)上的熱情,足以說明這一技術(shù)進步的“戰(zhàn)略性”和“重要意義”报账。
就目前而言研底,彩電AI語音功能更多的是扮演了“遙控器”的替代者的角色。很多時候找遙控器迄帘、遙控器摔壞修扁、遙控器沒電是“很惱人”的事情。彩電行業(yè)一直在嘗試尋找“遙控器替代者”换蛔。早期诱价,曾經(jīng)發(fā)展過肢體語言和隔空觸控的技術(shù)。但是孽强,這種技術(shù)體驗精度涧俐、交互廣泛性并不友好,沒有成為主流氮妆。
而采用語音技術(shù)的產(chǎn)品偶村,不僅可以直接呼喚彩電菜單柄午、電視臺和電視網(wǎng)絡(luò)中節(jié)目菜單的內(nèi)容,也可以實現(xiàn)文字輸入娶架、直接查詢網(wǎng)絡(luò)上的以文字信息為索引的“非標(biāo)準(zhǔn)菜單”內(nèi)容爽咒。或者說窿侈,語音技術(shù)不僅“替代了遙控器的所有功能”炼幔,而且還“創(chuàng)造出遙控器不擅長的(例如文字輸入)和不存在的(語音對話)等功能”。
從未來發(fā)展看史简,語音智能技術(shù)會為彩電產(chǎn)品打開一些嶄新的應(yīng)用場景乃秀。傳統(tǒng)彩電的作用主要是視頻娛樂——即內(nèi)容始終是單向傳輸?shù)摹5窃脖Z音技術(shù)可以讓彩電成為一個“關(guān)鍵節(jié)點”跺讯。作為一個語音交互和信息處理器,彩電可以成為其他智能家居產(chǎn)品的“中控大腦”殉农。
作為一個連接云系統(tǒng)的輸入終端刀脏,彩電可以依賴背后更強大的計算與知識能量,與“觀眾對話超凳、拉家常”愈污,甚至實現(xiàn)更多的主動行為功能、大量互聯(lián)網(wǎng)應(yīng)用的入口與界面……
某種意義上聪建,智能語音技術(shù)的彩電只是彩電真正進入“人機智能”時代的一個窗口钙畔。以此為線索,涉及的是整個家居槽悼、生活、家庭和個人“智能應(yīng)用”的體系網(wǎng)絡(luò)毛围;以及這個網(wǎng)絡(luò)背后所依賴的云存儲页梁、計算和知識體系。彩電企業(yè)高度看中AI電視的發(fā)展沸恤,恰是因為語音電視背后巨大的“潛在可能”队淳。
甚至,語音語意技術(shù)的創(chuàng)新已經(jīng)成為一項重要的國家戰(zhàn)略真稚。
2017年12月千雏,工業(yè)和信息化部印發(fā)了《促進新一代人工智能產(chǎn)業(yè)發(fā)展三年行動計劃(2018-2020年)》的通知。其中就提到农帝,“支持新一代語音識別框架误目、口語化語音識別、個性化語音識別舆飒、智能對話轴私、音視頻融合白找、語音合成等技術(shù)的創(chuàng)新應(yīng)用”。“2020年赁严,實現(xiàn)多場景下中文語音識別平均準(zhǔn)確率達到96%扰柠,5米遠場識別率超過92%,用戶對話意圖識別準(zhǔn)確率超過90%”疼约;“多語種智能互譯取得明顯突破卤档,中譯英、英譯中場景下產(chǎn)品的翻譯準(zhǔn)確率超過85%”程剥;“智能電視市場滲透率達到90%以上等重要目標(biāo)和要求”劝枣。
2010年開始的智能電視革命,讓電視上網(wǎng)成為一種流行和主要體驗方式倡缠;現(xiàn)在智能革命進入第二階段“人機智能”正在以語音交互為最初的鑰匙哨免,打開彩電業(yè)的未來之門。