AR/VR常作為孿生兄弟被相提并論,被普遍認為為應用層新技術或者說是“智能可穿戴設備”域曼,相比人工智能相對的“算法”標簽浪顽,顯得不夠有深度有內涵高大上,那AR和人工智能之間到底是什么關系?AR屬不屬于當下我們認知中的人工智能?
2018年3月俱篡,上海市經濟和信息化委員會公示了2018年第一批本市人工智能創(chuàng)新發(fā)展專項擬支持項目东悔。“一共有19家創(chuàng)新企業(yè)入圍,亮風臺作為AR公司也入圍此次支持項目”亮風臺工作人員告訴青亭網颤枪,這不是AR企業(yè)第一次被劃歸到人工智能汗捡,但這種歸類方式也并不常見。據了解此專項由經信委與市財政局聯(lián)合開展畏纲,擬支持金額超過1億扇住。
簡單梳理下AR的核心技術
AR(AugmentedReality),是在現實世界中疊加虛擬信息盗胀,也即給現實做“增強”艘蹋,這種增強可以是來自視覺锄贼、聽覺乃至觸覺,主要的目的均是在感官上讓現實的世界和虛擬的世界融合在一起女阀。
其中咱娶,對現實世界的認知主要體現在視覺上,這需要通過攝像機來幫助獲取信息强品,以圖像和視頻的形式反饋膘侮。通過視頻分析,實現對三維世界環(huán)境的感知理解的榛,比如場景的3D結構琼了,里面有什么物體,在空間中的什么地方仔同。而3D交互理解的目的是告知系統(tǒng)要“增強”的內容键切。
這其中有幾個關鍵點:
首先是3D環(huán)境理解。要理解看到的東西圃靖,主要依靠物體/場景的識別和定位技術龙喂。識別主要是用來觸發(fā)AR響應,而定位則是知道在什么地方疊加AR內容榛蜻。定位根據精度的不同也可以分為粗定位和細定位秧梨,粗定位就是給出一個大致的方位,比如區(qū)域和趨勢盅力。而細定位可能需要精確到點妻行,比如3D坐標系下的XYZ坐標、物體的角度按任。根據應用環(huán)境的不同汉疮,兩種維度的定位在AR中都有應用需求。在AR領域杠滓,常見的檢測和識別任務有人臉檢測丛剿、行人檢測、車輛檢測臊岸、手勢識別橙数、生物識別、情感識別扇单、自然場景識別等商模。
在感知現實3D世界并和虛擬內容融合后,需要以一定方式將這種虛實融合信息呈現出來蜘澜,這里面需要的就是AR中的第二個關鍵技術:顯示技術施流,目前大多數的AR系統(tǒng)采用透視式頭盔顯示器,這其中又分為視頻透視和光學透視,其他的代表有光場技術(主要因MagicLeap而顯名)瞪醋、全息投影(在科幻影視劇作品中常出現)等忿晕。
AR中的第三個關鍵技術在于人機交互,用以讓人和疊加后的虛擬信息互動银受,AR追求在觸摸按鍵之外自然的人機交互方式践盼,比如語音、手勢宾巍、姿態(tài)因摸、人臉等,用的比較多的語音跟手勢叭蜂。
人工智能和AR的技術關聯(lián)
在人工智能領域有幾個概念常被提及侦滩,如深度學習(DL)、機器學習(ML)唬研,在學術領域包括人工智能(AI)在內幾大領域均有自己的研究界限假祝,而在普遍意義上,我們常說的是泛意的人工智能尼削,涵括所有“讓機器像人一樣”的技術的應用方向虎内。
從這張圖也可以簡單一窺三者的關系,深度學習是實現機器學習的一種技術方式静瞄,而機器學習是為了讓機器變得智能诅挖,去達到人工智能∫胰颍可以說人工智能是最終目標懒潘,而機器學習是為了實現這個目標延伸出的一個技術方向。在這其中互墓,還有另一個重要概念為計算機視覺(CV),主要來研究如何讓機器像人去“看”蒋搜,是目前人工智能概念中的一個重要分支篡撵,這也是因為人類獲取信息最主要的方式之一就是視覺,目前計算機視覺已經在商業(yè)市場發(fā)揮價值豆挽,比如人臉識別;自動駕駛中讀取交通信號和注意行人以導航;工業(yè)機器人用來檢測問題控制過程;三維環(huán)境的重建圖像的處理等等育谬。這些概念既有區(qū)分也有一定范圍的重疊。
其中帮哈,2006年開始膛檀,Hinton引發(fā)的深度學習熱潮開始蔓延,在一定程度上帶動了AI的又一次崛起娘侍,十年中咖刃,在包括語音識別、計算機視覺憾筏、自然語言處理在內的多個領域取得重大突破嚎杨,并向應用領域延伸花鹅,正發(fā)展的如火如荼。
在AR的核心技術中枫浙,3D環(huán)境理解呐缸、3D交互理解和計算機視覺、深度學習都有著緊密的聯(lián)系尼缨。3D環(huán)境理解在學術界里主要對應的是計算機視覺領域疫谱,而近年來深度學習在計算機視覺中得到廣泛應用。交互方面综货,更趨自然的交互方式如手勢和語音在硬件終端的使用嚣惭,得益于近幾年深度學習在相關領域的突破。也可以說葛暇,深度學習在AR中應用主要在視覺關鍵技術皂汞。
目前,AR最常見的形式是2D圖片掃描識別尼软,如騰訊QQ-AR火炬活動熄晕、支付寶五福等多數AR營銷中所見,用手機掃描識別圖出現疊加的內容便透,但主要的研發(fā)方向還在3D物體識別和3D場景建模尔网。
現實的物體是以3D形態(tài)存在的,有不同的角度和空間方位航厚。所以一個自然的擴展就是從2D圖片識別到3D物體識別顷歌,識別物體的類別和姿態(tài),深度學習可以用在這里幔睬。以水果識別為例眯漩,識別不同類別的水果,并且給出定位區(qū)域麻顶,即集成了物體識別與檢測的功能赦抖。
3D場景建模,從識別3D物體擴大到更大更復雜的3D區(qū)域辅肾。比如識別場景里面有哪些東西队萤、它們的空間位置和相互關系等等,這就是3D場景建模矫钓,是AR比較核心的技術要尔。這其中涉及目前熱門的SLAM(實時定位與地圖構建)。通過掃描某個場景新娜,然后在上面疊加虛擬戰(zhàn)場等三維虛擬內容赵辕。如果只是基于普通2D圖像識別就需要有特定的圖片,而在圖片不可見時會識別失敗。而在SLAM技術里面探快,即使特定平面不存在鹤曼,但是空間定位依然非常精確,就是因為有周圍3D環(huán)境的幫助榨狐。
這里想探討下深度學習和SLAM技術的融合暇创,計算機視覺大體上可以分兩個流派,一種基于學習的思路咱漱,例如特征提取-特征分析-分類屈腻,目前深度學習技術在這一路線上取得了主導性的地位。另外一種路線是基于幾何的視覺温履,從線條姑王、邊緣、3D形狀推出物體的空間結構信息亥护,代表性的技術就是SFM/SLAM盆战。基于學習的方向上深度學習基本上一統(tǒng)天下绎彪,但是在基于幾何視覺的領域诈火,目前相關的進展還很少。從學術界而言状答,深度學習技術的研究進展可以說日新月異冷守,而SLAM技術最新十年的進展相對較少。在國際視覺頂級會議ICCV2015年度組織的SLAM技術專題討論會上惊科,基于近年深度學習在視覺其它領域的快速發(fā)展拍摇,有與會專家曾提出SLAM中采用深度學習的可能性,但是目前還沒有成熟的思路馆截〕浠睿總體而言,短期內將深度學習和SLAM融合是一個值得研究的方向蜡娶,長遠來看聯(lián)合語義和幾何信息是一個非常有價值的趨勢堪唐。因此,SLAM+DL值得期待翎蹈。
在交互方式方面,主要的包括語音識別和手勢識別男公,語音識別在目前已經取得了較大進展荤堪,國內如百度、科大訊飛码完、云知聲等都是其中的佼佼者办适,AR公司更想突破的是手勢識別的成熟商業(yè)化。
“亮風臺展示過的一款基于深度學習的手勢識別系統(tǒng),主要定義了上下左右点溶、順時針婚拭、逆時針六種手勢”亮風臺工作人員告訴青亭網,先實現人手的檢測和定位比端,然后通過識別相應的手勢軌跡來實現對人手勢的識別墅波。雖然人臉識別等其他人工智能熱門領域在AR中也有使用,但不是AR公司重要的研發(fā)方向侵念。
以上不難看出帚棚,AR的底層技術或者說基礎部分是計算機視覺以及關聯(lián)領域的融合,而當下熱門的深度學習和AR的結合捎虚,也是算法工程師們的努力方向兆性。這也是AR為計算機視覺與人機交互的交叉學科,AR的基礎是人工智能和計算機視覺等說法的依據泳柴。
在去年今日頭條發(fā)布的《人工智能影響力報告》中也簡單統(tǒng)計了人工智能科學家的分布情況赋荆,這其中包括人臉識別、語音識別懊昨、機器人窄潭、AR、芯片等領域的公司與大型研發(fā)機構疚颊,高端研發(fā)人員的分布也說明了AI領域的細分方向狈孔。
那AR究竟是不是人工智能?
對AR從業(yè)者來說,理想的狀態(tài)是用更智能的AR終端去取代智能手機材义,所以對于用戶來說接觸使用AR首先受影響的是內容均抽,其次是終端,AR產業(yè)鏈可以粗略劃分為技術提供商其掂、智能終端研發(fā)公司油挥,以及AR內容提供商。在這其中款熬,AR設備提供商不可避免關注硬件技術深寥,如底層的芯片、電池贤牛、光學鏡片等怀程,以及硬件本身的性能優(yōu)化,而內容提供商更傾向于在現有技術基礎上優(yōu)化內容及表現钝菲。所以我們可以說AR技術提供商遣备,或者說在底層算法研發(fā)上有一定成績的AR公司是人工智能公司。
對公司來說术偿,特別是創(chuàng)企會把底層技術轉化為成熟的產品或服務休贴,這可能是如無人機角涯、AR智能終端、機器人等钥陪,也可能是行業(yè)解決方案腻区,以達到商業(yè)目的,并且這已經成為在沸騰聲音之后螟扮,媒體份良、企業(yè)以及大眾對AI企業(yè)的期待和要求。近期括绣,人工智能產業(yè)發(fā)展聯(lián)盟(AIIA)出版的圖書《人工智能浪潮:科技改變生活的100個前沿AI應用》將對外發(fā)布酌省,以及涵括了目前巨頭公司以及創(chuàng)企在商業(yè)化上的前沿成果,也直接反映了AI目前的主要商業(yè)化方向监氢。
作為技術驅動的商業(yè)領域布蔗,無論是AR還是人工智能的其他多數方向,技術距離完全成熟還有很長的路程要走浪腐,在整個產業(yè)鏈逐漸繁榮纵揍,關注商業(yè)化實現的同時,也需要有更多公司機構去不斷拓展技術邊界议街,建立核心競爭力泽谨,讓行業(yè)爆發(fā)更大的價值與潛力,如此特漩,AI時代中國彎道超車當可期吧雹。