一枫浙、 AIoT 領(lǐng)域中人機交互的市場機會
自2017年開始,“AIoT”一詞便開始頻頻刷屏三钦,成為物聯(lián)網(wǎng)的行業(yè)熱詞尼缨。“AIoT”即“AI+IoT”,指的是人工智能技術(shù)與物聯(lián)網(wǎng)在實際應(yīng)用中的落地融合做堂。當(dāng)前综货,已經(jīng)有越來越多的人將AI與IoT結(jié)合到一起來看,AIoT作為各大傳統(tǒng)行業(yè)智能化升級的最佳通道虽趋,已經(jīng)成為物聯(lián)網(wǎng)發(fā)展的必然趨勢螃势。
在基于IoT技術(shù)的市場里,與人發(fā)生聯(lián)系的場景(如智能家居俱猪、自動駕駛距档、智慧醫(yī)療、智慧辦公)正在變得越來越多跟媚。而只要是與人發(fā)生聯(lián)系的地方囱悴,勢必都會涉及人機交互的需求。人機交互是指人與計算機之間使用某種對話語言箍秧,以一定的交互方式甫题,為完成確定任務(wù)的人與計算換機之間的信息交互過程。人機交互的范圍很廣,小到電燈開關(guān)幔睬,大到飛機上的儀表板或是發(fā)電廠的控制室等等眯漩。而隨著智能終端設(shè)備的爆發(fā),用戶對于人與機器間的交互方式也提出了全新要求麻顶,使得AIoT人機交互市場被逐漸激發(fā)起來赦抖。
圖:AIoT發(fā)展路徑
以智能家居市場為例,數(shù)據(jù)顯示辅肾,2018年中國智能家居規(guī)模將達到1800億元队萤,到2020年智能家居市場規(guī)模將達到3576億元。分析師預(yù)測矫钓,2021年全球智能家居市場規(guī)模將達5000多億元要尔。飛速爆發(fā)中的AIoT市場,所蘊藏的人機交互需求及前景無疑是令人期待的新娜。
人類生活的數(shù)字化進程已持續(xù)約三十年赵辕,這些年我們經(jīng)歷了從模擬時代到PC互聯(lián)時代再移動互聯(lián)時代的演進,而目前我們正處在向物聯(lián)網(wǎng)時代的演進過程中娶停。從交互方式上來講膘掀,我們可以看到機器是越來越“遷就”人的:從PC時代的鍵盤和鼠標(biāo)到移動時代的觸屏、NFC以及各種MEMS傳感器肄慨,再到物聯(lián)網(wǎng)時代正在蓬勃發(fā)展的語音/圖像等交互方式既倾,使用門檻正在變得越來越低,這導(dǎo)致了越來越多的用戶的卷入寨铸。同時我們需要注意到另一個深刻的變化队屋,即由于交互方式的演進(至少是重要原因之一),大量的新維度的數(shù)據(jù)也在不斷地被創(chuàng)造出來和數(shù)字化妖啸,比如PC時代的工作資料和娛樂節(jié)目卵手,智能手機時代的用戶使用習(xí)慣、位置叙棚、信用和貨幣亥护,再到物聯(lián)網(wǎng)時代的各種可能的新數(shù)據(jù)。
在物聯(lián)網(wǎng)時代粗排,交互方式正在往本體交互的方向發(fā)展绎彪。所謂“本體交互”,指的是從人的本體出發(fā)的兽赁,人與人之間交互的基本方式状答,如語音、視覺刀崖、動作惊科、觸覺拍摇,甚至味覺等。例如馆截,通過聲音控制家電充活,或者空調(diào)通過紅外來決定是否應(yīng)該降溫,通過語音和紅外結(jié)合來進行溫度的控制(偵測到房間里沒人的時候蜡娶,即便電視節(jié)目里提到了“降溫”混卵,空調(diào)也不做反應(yīng))。
新的數(shù)據(jù)是AI的新的養(yǎng)料窖张,而大量的新維度的數(shù)據(jù)正在為AIoT創(chuàng)造出無限可能幕随。
從AIoT發(fā)展路徑來看,當(dāng)前行業(yè)人士普遍認為宿接,其將經(jīng)歷單機智能赘淮、互聯(lián)智能到主動智能的三大階段。
單機智能指的是智能設(shè)備等待用戶發(fā)起交互需求醇盏,而這個過程中設(shè)備與設(shè)備之間是不發(fā)生相互聯(lián)系的腔族。這種情境下,單機系統(tǒng)需要精確感知点溶、識別婚拭、理解用戶的各類指令淫雾,如語音比端、手勢等,并正確決策簇像、執(zhí)行和反饋侵念。AIoT行業(yè)正處于這一階段。以家電行業(yè)為例芋总,過去的家電就是一個功能機時代捎虚,就像以前的手機按鍵式的,幫你把溫度降下來套尤,幫你實現(xiàn)食物的冷藏泳柴;現(xiàn)在的家電實現(xiàn)了單機智能,就是語音或手機A P P的遙控去實現(xiàn)調(diào)溫度笋妥、打開風(fēng)扇等懊昨。
無法互聯(lián)互通的智能單品,只是一個個數(shù)據(jù)和服務(wù)的孤島春宣,遠遠滿足不了人們使用需求酵颁。要取得智能化場景體驗的不斷升級、優(yōu)化月帝,首先需要打破的是單品智能的孤島效應(yīng)躏惋。而互聯(lián)智能場景幽污,本質(zhì)上指的是一個相互互聯(lián)互通的產(chǎn)品矩陣,因而簿姨,“一個大腦(云或者中控)距误,多個終端(感知器)”的模式成為必然。例如扁位,當(dāng)用戶在臥室里對空調(diào)說關(guān)閉客廳的窗簾深寥,而空調(diào)和客廳的智能音箱中控是連接的,他們之間可以互相商量和決策贤牛,進而做出由音箱關(guān)閉客廳窗簾的動作怀程;又或者當(dāng)用戶晚上在臥室對著空調(diào)說出“睡眠模式”時,不僅僅空調(diào)自動調(diào)節(jié)到適宜睡眠的溫度钝菲,同時遣备,客廳的電視、音箱术偿,以及窗簾休贴、燈設(shè)備都自動進入關(guān)閉狀態(tài)。這就是一個典型的通過云端大腦弓慨,配合多個感知器的互聯(lián)智能的場景落地钥陪。
主動智能指的是智能系統(tǒng)根據(jù)用戶行為偏好、用戶畫像淤写、環(huán)境等各類信息螟扮,隨時待命,具有自學(xué)習(xí)示宫、自適應(yīng)骏挎、自提高能力,可主動提供適用于用戶的服務(wù)卸酿,而無需等待用戶提出需求兜叨,正如一個私人秘書。試想這樣的場景衩侥,清晨伴隨著光線的變化国旷,窗簾自動緩緩開啟,音箱傳來舒緩的起床音樂茫死,新風(fēng)系統(tǒng)和空調(diào)開始工作跪但。你開始洗漱,洗涑臺前的私人助手自動為你播報今日天氣璧榄、穿衣建議等特漩。洗漱完畢,早餐和咖啡已經(jīng)做好骨杂。當(dāng)你走出家門涂身,家里的電器自動斷電雄卷,等待你回家時再度開啟。
二蛤售、 AIoT 的人機交互對 AI 芯片需求
邊緣計算指在靠近物或數(shù)據(jù)源頭的網(wǎng)絡(luò)邊緣側(cè)丁鹉,融合網(wǎng)絡(luò)、計算拥宜、存儲榆博、應(yīng)用核心能力的開放平臺,就近提供邊緣智能服務(wù)挺赞,滿足行業(yè)數(shù)字化在敏捷連接侧焚、實時業(yè)務(wù)、數(shù)據(jù)優(yōu)化津阻、應(yīng)用智能摆地、安全與隱私保護等方面的關(guān)鍵需求。在行業(yè)內(nèi)有個十分形象的比方宵渡,邊緣計算猶如人類身體的神經(jīng)末梢增量,可以對簡單的刺激進行自行處理,并將特征信息反饋給云端大腦狰碟。伴隨AIoT的落地實現(xiàn)童唧,在萬物智聯(lián)的場景中,設(shè)備與設(shè)備間將互聯(lián)互通钉呐,形成數(shù)據(jù)交互镐胃、共享的嶄新生態(tài)。在這個過程中献烦,終端不僅需要有更加高效的算力滓窍,在大多數(shù)場景中,還必須具有本地自主決斷及響應(yīng)能力巩那。拿智能音箱舉例,其不僅需要支持本地喚醒的能力此蜈,還應(yīng)該具備遠講降噪的能力即横,而由于實時性以及數(shù)據(jù)有效性的考慮,這方面的計算必須發(fā)生在設(shè)備端而不是云端裆赵。
智能家居行業(yè)作為AIoT人機交互最重要的落地場景东囚,正吸引越來越多企業(yè)進入。在這其中战授,既有如Apple页藻、Google、Amazon等這樣的科技巨頭植兰,也有像海爾份帐、三星這類的傳統(tǒng)家電廠商璃吧,當(dāng)然也不乏小米、京東這樣的互聯(lián)網(wǎng)新貴捎霍〖傻撸基于互聯(lián)智能的構(gòu)想共缕,未來的AIoT時代味混,每個設(shè)備都需要具備一定的感知(如預(yù)處理)、推斷以及決策功能景捅。因此源照,每個設(shè)備端都需要具備一定不依賴于云端的獨立計算能力笋窍,即上面提到的邊緣計算。
在智能家居的場景下锁销,通過自然語音的方式與終端設(shè)備進行交互凰茫,在當(dāng)前已成為行業(yè)主流。由于家庭場景的特殊性们袜,家用終端設(shè)備需精準區(qū)分必工、提取正確的用戶命令(而不是家人在談話時無意說到的無效關(guān)鍵詞),以及聲源堰怜、聲紋等信息球垂,因此,智能家居領(lǐng)域的語音交互對于邊緣計算也提出了更高要求钻蔑,具體表現(xiàn)在以下幾方面:
1) 遠講降噪啥刻、喚醒
家居環(huán)境下聲場復(fù)雜,比如電視聲音咪笑、多人對話可帽、小孩嬉鬧、空間混響(廚房做飯窗怒、洗衣機等設(shè)備工作噪音)映跟,這些容易干擾用戶與設(shè)備間正常交互的聲音,很大概率會在同一時間存在扬虚,這就需要對各種干擾進行處理努隙、抑制,使得來自真正用戶的聲音更加突出辜昵。在這個處理的過程中荸镊,設(shè)備需要更多的信息量來進行輔助判斷。家居場景語音交互的一個必備功能是使用麥克風(fēng)陣列進行多通道的同步聲音錄入堪置,通過對聲學(xué)空間場景進行分析躬存,使得聲音的空間定位更加準確,大幅提升語音質(zhì)量攒陋。另一個重要功能是通過聲紋信息輔助區(qū)分真正用戶灶花,使他的聲音從多人的竄擾中更加清晰地區(qū)分出來值膝。這些都需要在設(shè)備端實現(xiàn),且需要較大的算力支持凳慈。
2) 本地識別
家居領(lǐng)域人機交互的本地識別離不開邊緣計算咆比,具體體現(xiàn)兩個方面:
高頻詞。 從實際統(tǒng)計來看氨缅,用戶在特定場景下的常用關(guān)鍵詞指令數(shù)量有限扩芋。例如車機產(chǎn)品,用戶最常使用的可能是“上一首/下一首”妖局,空調(diào)產(chǎn)品有可能最常用的命令是“開啟/關(guān)閉”等聪痢,這些用戶經(jīng)常用到的詞就叫做高頻詞。對于高頻詞的處理细企,完全可以放在本地處理而不依賴于云端的延時翼袒,從而帶給用戶最佳的體驗。
聯(lián)網(wǎng)率屯掖。 在智能家居產(chǎn)品尤其是家電產(chǎn)品落地的過程中玄柏,聯(lián)網(wǎng)率是一個問題。如何在不聯(lián)網(wǎng)的情況下讓用戶感知到語音AI的強大贴铜,進行用戶培養(yǎng)粪摘,也是邊緣計算在當(dāng)前的一個重要作用。
3) 本地/ 云端效率的平衡
家居領(lǐng)域的自然語言交互過程中绍坝,當(dāng)所有的計算被放到云端時徘意,聲學(xué)計算的部分將對云端計算造成較大壓力,一方面造成云平臺成本的大幅增加轩褐;另一方面帶來計算延遲椎咧,損害用戶體驗。自然語音交互分成聲學(xué)和自然語言理解(NLP)兩個部分把介,從另一個維度上來講勤讽,可看成是“業(yè)務(wù)無關(guān)”(語音轉(zhuǎn)文字/聲學(xué)計算)和“業(yè)務(wù)有關(guān)”(NLP)的部分。業(yè)務(wù)有關(guān)的部分毫無疑問需要在云端解決劳澄,例如用戶問天氣地技、聽音樂等需求,那么設(shè)備對用戶語句的理解秒拔,以及天氣信息的獲取必須通過聯(lián)網(wǎng)來完成。但是薛津,對于用戶語音到文字的轉(zhuǎn)換恐呢,例如下達指令“打開空調(diào)、增加溫度等”症妻,其中的部分甚至大部分計算是有可能在本地完成的节婶。這種情況下擎丘,從本地上傳到云端的數(shù)據(jù)將不再是壓縮后的語音本身,而是更為精簡的中間結(jié)果甚至是文本本身享积,數(shù)據(jù)更為精簡边久,云端計算更為簡單,則響應(yīng)也更為迅速履岂。
4) 多模態(tài)的需求
所謂多模態(tài)交互即多種本體交互手段結(jié)合后的交互遏治,例如將多種感官融合,比如文字函强、語音鸵安、視覺、動作反璃、環(huán)境等昵慌。人是一個典型的多模態(tài)交互的例子,在人與人交流的過程中淮蜈,表情斋攀、手勢、擁抱梧田、觸摸淳蔼,甚至是氣味,無不在信息交換的過程中起著不可替代的作用柿扣。顯然肖方,智能家居的人機交互勢必不止語音一個模態(tài),而是需要多模態(tài)交互并行未状。舉個例子俯画,智能音箱如果看到人不在家,那就完全不需要對電視里誤放出的喚醒詞進行響應(yīng)司草,甚至可以把自己調(diào)到睡眠狀態(tài)艰垂;一個機器人如果感覺到主人在注視他,那么可能會主動向主人打招呼并詢問是否需要提供幫助埋虹。多模態(tài)處理無疑需要引入對多類傳感器數(shù)據(jù)的共同分析和計算吭辛,這些數(shù)據(jù)既包括一維的語音數(shù)據(jù),也會包括攝像頭圖像以及熱感應(yīng)圖像等二維數(shù)據(jù)驳辖。這些數(shù)據(jù)的處理無不需要本地AI的能力嘴净,也就對邊緣計算提出了強力的需求。
三体咽、 邊緣計算帶來的 AI 芯片需求
AI算法對設(shè)備端芯片的并行計算能力和存儲器帶寬提出了更高的要求护狠,盡管基于GPU的傳統(tǒng)芯片能夠在終端實現(xiàn)推理算法,但其功耗大、性價比低的弊端卻不容忽視同蚂。在AIoT的大背景下懊玖,IoT設(shè)備被賦予了AI能力,一方面在保證低功耗扔相、低成本的同時完成AI運算(邊緣運算)力鹰;另一方面,IoT設(shè)備與手機不同厚遗,形態(tài)千變?nèi)f化腺首,需求碎片化嚴重,對AI算力的需求也不盡相同区匣,因此很難給出跨設(shè)備形態(tài)的通用芯片架構(gòu)偷拔。因此,只有從IoT的場景出發(fā)亏钩,設(shè)計定制化的芯片架構(gòu)莲绰,才能在大幅提升性能的同時,降低功耗和成本姑丑,同時滿足AI算力以及跨設(shè)備形態(tài)的需求蛤签。相比于傳統(tǒng)芯片,定制化的AI芯片在運算效率及存儲器帶寬上有絕對優(yōu)勢栅哀,其優(yōu)勢主要體現(xiàn)在以下幾點:
首先震肮,采用并行運算架構(gòu)及專用矩陣加速器等技術(shù),例如Systolic Array架構(gòu)或更復(fù)雜的并行運算架構(gòu)實現(xiàn)運算單元的利用率留拾,甚至采用Winograd等特定的矩陣加速器戳晌,降低矩陣運算的運算量,從而提高運算效率痴柔。
其次沦偎,從降低外部存儲器帶寬的角度出發(fā),通過數(shù)據(jù)壓縮或相關(guān)功能模塊之間的pipeline技術(shù)溅蓖,降低內(nèi)存帶寬鹤仲。以NVIDIA公司開源AI引擎NVDLA為例,在convolutions剥讼、activations壕赘、pooling等模塊之間設(shè)計了專用的數(shù)據(jù)通路,模塊之間的數(shù)據(jù)交互不在經(jīng)過系統(tǒng)內(nèi)存乞芳,而是由專用的數(shù)據(jù)通道完成铐儡。
圖:NVDLA核心架構(gòu)
隨著芯片運算效率的提升及外部存儲器數(shù)據(jù)帶寬的降低,芯片運算所需的時鐘周期和內(nèi)存訪問次數(shù)將會大幅減少细抠。因此菠珍,相較通用芯片而言樱搪,AI芯片可以在更低的主頻亭弥、更小的芯片面積阴香,完成機器學(xué)習(xí)中同等任務(wù)量的計算。采用更低的主頻粮剃,不單降低了芯片的動態(tài)功耗恳蹲,還可以降低芯片工作電壓,從而進一步降低芯片動態(tài)功耗俩滥。另外嘉蕾,低主頻使得在芯片加工工藝的選上有更多的選擇,進一步影響芯片的靜態(tài)功耗霜旧。
由于芯片面積错忱、功耗直接影響芯片封裝的選擇,因此AI芯片在芯片封裝上也要比傳統(tǒng)芯片更有優(yōu)勢挂据。由此來看以清,AI芯片的性價比將遠遠大于傳統(tǒng)芯片。
四崎逃、 AI 芯片落地面臨的挑戰(zhàn)
AI芯片在保證高性能掷倔、高能效比的同時,兼顧靈活性和通用性个绍。AI算法有應(yīng)用領(lǐng)域廣勒葱、算法種類多樣化以及算法演進較快的特點,因此對AI芯片架構(gòu)設(shè)計提出較高的要求巴柿。只有性能與通用性兼顧的AI芯片才會有廣闊的市場和較長的生命周期凛虽。只有在芯片架構(gòu)與軟件算法之間形成較高的耦合度時,芯片的性價比才能夠達到較高的值栓属,因此離開對算法的深刻理解是很難設(shè)計出高效的AI芯片的礁懂。而直接對AI算法的硬件化將極大地降低芯片靈活性,因此AI芯片的硬件加速往往體現(xiàn)在比算法更底層的數(shù)學(xué)運算上翎郭。由于AI算法是建立在一系列的數(shù)學(xué)運算之上的撮译,因此設(shè)計一款高性價比和高靈活性的芯片需要從數(shù)學(xué)運算及運算之間的數(shù)據(jù)依賴著手。在大量數(shù)據(jù)統(tǒng)計的基礎(chǔ)上蔽掀,根據(jù)數(shù)據(jù)運算的復(fù)雜度龄羽、出現(xiàn)的頻度、數(shù)據(jù)依賴關(guān)系等信息循抱,提煉基礎(chǔ)數(shù)學(xué)運算指令及數(shù)據(jù)搬運指令砂姥,并根據(jù)這些指令完成芯片架構(gòu)的定義和實現(xiàn)。因此蟀符,AI芯片架構(gòu)設(shè)計及實現(xiàn)是AI芯片設(shè)計的中間一個小的環(huán)節(jié)掠记,而AI指令集設(shè)計才是AI芯片成功的更為關(guān)鍵的因素。
做AI芯片不是搞軍備競賽,任何產(chǎn)品在推向市場的過程中都有其產(chǎn)品定位傍菇,AI芯片也不例外猾瘸。特定的AI芯片是面向特定場景的,而場景則由芯片所面向的產(chǎn)品丢习、市場所共同影響決定牵触,不同場景對于AI芯片在價格、功耗咐低,以及所支持的功能方面有著截然不同的需求揽思。比如,大型服務(wù)機器人和智能開關(guān)见擦,對于AI芯片的價格要求可能會有比較大的反差钉汗,畢竟二者的售價相差懸殊,對于同一售價的AI芯片鲤屡,出于產(chǎn)品成本的考慮损痰,所表現(xiàn)出來的接受度可能截然相反。因此AI芯片不僅要做得來执俩,還得賣得出徐钠。
在AI軟件生態(tài)方面,AI開發(fā)框架(framework)相對碎片化蚤就,比如TensorFlow(Google)寥伍,CNTK(Microsoft)及Torch7(Facebook)等,整個行業(yè)尚未形成統(tǒng)一的標(biāo)準闰厨。在標(biāo)準化方面的探索主要包括Microsoft和Facebook聯(lián)合推出的ONNX撼腹,Khronos組織推出的NNEF等神經(jīng)網(wǎng)絡(luò)交換層標(biāo)準。不可否認害寸,神經(jīng)網(wǎng)絡(luò)交換層標(biāo)準是解決當(dāng)前碎片化AI框架的捷徑瓦腋,但該標(biāo)準處于起步階段,標(biāo)準的成熟還需要較長的路要走寝谚。因此AI芯片廠商解決各種框架之間的兼容性問題妙旅,對AI芯片的通用性帶來極大的挑戰(zhàn)。在AI產(chǎn)品生態(tài)方面蹋烂,AI芯片的規(guī)模性的落地領(lǐng)域尚在探索之中战覆。同時在落地過程中,AI芯片不是孤立的苹动,還需要軟件應(yīng)用柬乓、解決方案以及服務(wù)商的支持。AI芯片歸根結(jié)底是一個產(chǎn)品蠢涝,既然是產(chǎn)品玄呛,其落地時的交付物可能是芯片本身阅懦,但更可能是芯片+應(yīng)用+服務(wù)。如果只有芯片徘铝,但是沒有基于芯片的算法和應(yīng)用耳胎,那么無法稱之為一個完整的產(chǎn)品。舉例來說庭砍,對于智能音箱而言场晶,作為一個解決方案的提供商,AI芯片只是其產(chǎn)品中的一小部分怠缸,而其他部分例如基于AI芯片的應(yīng)用、云端的智能語音交互服務(wù)钳宪、內(nèi)容服務(wù)以及服務(wù)支持等揭北,這才是落地中更為重要的一環(huán)。在AI芯片落地的過程中吏颖,客戶需要的一般是一個完整的方案搔体,如果僅僅提供AI芯片的話,勢必需要在應(yīng)用综俄、云服務(wù)等各方面尋找相應(yīng)的合作伙伴竿赂,才有可能對客戶提供一個完整的解決方案。
總之制沦,AIoT的人機交互是一個巨大的市場宅谁,并由此帶來了對AI芯片的巨大需求。但在AI芯片的落地過程中榛青,面臨著研發(fā)记浸、產(chǎn)品定位以及商業(yè)化路徑等多方面的挑戰(zhàn)。在研發(fā)方面曙惋,需要針對實際采用的AI算法進行深度迭代優(yōu)化裸悟,以滿足產(chǎn)品需求并保持架構(gòu)的靈活性;在產(chǎn)品定位方面妙声,鑒于IoT設(shè)備碎片化的現(xiàn)實绕时,必須先考慮應(yīng)用場景和適用范圍,由此再倒推AI芯片的功能和性能要求年铝;在商業(yè)化路徑方面株捌,最終客戶需要的往往是整體解決方案而非芯片本身,因此如何構(gòu)建一個完整的AI解決方案胎许,是每個AI芯片玩家必須考慮的事情峻呛。