1 月 8 日豫鞭,全球權(quán)威機器視覺算法排行榜 KITTI,阿里巴巴 iDST奪得行人檢測單項冠軍卿俺。與此同時桩垫,在知名的行人再識別數(shù)據(jù)集 Market1501 中,iDST 的首位命中率也提升至 96.17%雪隧,位居世界第一西轩。
iDST在KITTI行人檢測項目的數(shù)據(jù)圖示
KITTI 算法評測平臺由德國卡爾斯魯厄理工學(xué)院和芝加哥豐田技術(shù)研究所聯(lián)合建立,是目前國際上最大的自動駕駛場景下的計算機視覺算法評測數(shù)據(jù)集脑沿,用于評測目標(機動車藕畔、非機動車、行人等)檢測庄拇、目標跟蹤注服、路面分割等計算機視覺技術(shù)在車載環(huán)境下的性能。
Market1501 數(shù)據(jù)集的圖像在清華大學(xué)的一個超市門口進行采集措近,由 5 個高清攝像頭與 1 個低像素攝像頭進行拍攝溶弟。目前該數(shù)據(jù)集包括 1501 個個體,涵蓋 19732 張 gallery 圖片和 12936 張訓(xùn)練圖像組成。所有的標注框由 DPM 檢測器生成辜御。
實際上在今年 5 月鸭你,阿里 iDST 就已經(jīng)將車輛檢測的準確率提升至 90.46%,長踞榜單第一名擒权。而在同一難度級別的最新數(shù)據(jù)袱巨,阿里 iDST 如今已經(jīng)刷新至 90.55%。
據(jù)雷鋒網(wǎng) AI 科技評論了解逊床,車輛檢測背后的技術(shù)基于區(qū)域融合決策和上下文相關(guān)的多任務(wù)深度神經(jīng)網(wǎng)絡(luò)遥喘,用于復(fù)雜場景下的車輛檢測任務(wù),重點解決其中多視角蚪库,多姿態(tài)以及車輛遮擋等問題纯殖。而在網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計上,利用反卷積操作提高了小目標的召回率人杜,同時拼接了多層特征以融合低層的局部信息和高層的語義信息动荚,提高了邊框定位的準確率。在訓(xùn)練過程中冯峭,還借鑒了 GAN(生成對抗網(wǎng)絡(luò))中的對抗訓(xùn)練模式昵壁。團隊在計算機視覺國際頂級期刊和會議 TIP烫毡、ACM MM 等已發(fā)表多篇論文谁汤,分享了他們的研究成果。
行人檢測技術(shù)示意
行人再識別技術(shù)示意
行人的識別與檢測與車輛檢測雖然同為計算機視覺的研究內(nèi)容弄萨,但兩者各自的難點與挑戰(zhàn)又有些不同殉俗。行人檢測要求機器能夠從圖像或者視頻中判斷是否有行人,行人在哪里瓣颅;行人再識別則要求機器能夠識別出特定人員在不同攝像頭下出現(xiàn)的所有圖像倦逐。
阿里巴巴 iDST 副院長、IEEE Fellow 華先勝表示宫补,目前大部分攝像頭所拍攝的圖像看不清人臉檬姥,需要通過行人的整體和局部特征進行識別。但在實際情況中粉怕,包括遮擋健民、光照、拍攝角度贫贝、拍攝距離秉犹、人物姿態(tài)等因素的干擾,還有攝像頭設(shè)備的不同稚晚,都會給行人的識別與檢測帶來困難崇堵。
據(jù)介紹,阿里巴巴 iDST 團隊在行人檢測技術(shù)方面,提出了基于目標尺寸分級的級聯(lián)網(wǎng)絡(luò)鸳劳,并充分發(fā)揮感興趣區(qū)域的上下文信息狰贯,提升網(wǎng)絡(luò)特征提取的能力,以解決行人檢測問題中存在的目標尺寸浮動大殊精、遮擋协黑、形變且定位不準等問題;與此同時诽檬,在目標定位方面采用交叉熵正則約束來優(yōu)化邊框定位準確度脏拦。
而在行人再識別方面,團隊不僅利用最新的深度學(xué)習(xí)技術(shù)提取行人的全局特征殿扮,還提出了超分辨率模塊和深度注意力網(wǎng)絡(luò)來獲得頭部摇昌、軀干、四肢篓围、攜帶物等局部細節(jié)特征净耍,并提出了融合粗粒度全局特征和細粒度局部特征的新方法,進一步提高了跨攝像頭場景下行人表征的一致性和行人再識別的準確性培按。
行人檢測與行人識別這兩項技術(shù)有著豐富的應(yīng)用場景嘉警,包括景區(qū)商場的人流預(yù)測、人群個性化分析沪识、行人交通安全拼缝、無人駕駛、尋找丟失老人兒童等應(yīng)用等等彰亥。目前上述技術(shù)已經(jīng)全部集成到阿里云 ET 城市大腦當(dāng)中咧七,并已落地。
華先勝表示任斋,「正如 60 年代的登月計劃帶來了通訊技術(shù)继阻、生物工程技術(shù)大爆發(fā)一樣,城市大腦已經(jīng)成為世界頂尖的科技創(chuàng)新的平臺废酷,前所未有的難題倒逼科學(xué)家們創(chuàng)造前所未有的技術(shù)」瘟檩。
據(jù)雷鋒網(wǎng) AI 科技評論了解,阿里云 ET 城市大腦已經(jīng)在杭州澈蟆、蘇州墨辛、衢州、烏鎮(zhèn)等地落地丰介。借助機器視覺算法背蟆,杭州城市大腦可以做到準確偵測、發(fā)現(xiàn)交通事故哮幢,日均事件報警 500 次以上带膀,準確率達 92%欣慰。