2019年在轮,新的云端AI芯片戰(zhàn)場(chǎng)正風(fēng)起云涌。過(guò)去幾年复罕,人工智能(AI)從一個(gè)被輕視的學(xué)術(shù)冷門研究突然爆紅铣碴,一路狂奔到商業(yè)化的前沿,在安防塑业、金融箱仰、教育、制造低柑、家居屁膝、娛樂等各個(gè)與人們生活息息相關(guān)的領(lǐng)域掀起了一股智能化升級(jí)和萬(wàn)物互聯(lián)的颶風(fēng)。
這場(chǎng)前所未有的技術(shù)革命的直接推動(dòng)者汉统,是國(guó)外谷歌微軟Facebook穷歹、國(guó)內(nèi)BAT等互聯(lián)網(wǎng)巨頭以及一眾新生的AI初創(chuàng)企業(yè),而這些公司快速在AI領(lǐng)域開疆辟土的靈魂支柱暂畴,則是提供源源不斷高密度計(jì)算能力的AI硬件提供商段直。
AI硬件應(yīng)用場(chǎng)景通常分為云端和終端,云端主要指大規(guī)模數(shù)據(jù)中心和服務(wù)器溶诞,終端包括手機(jī)坷牛、車載罕偎、安防攝像頭、機(jī)器人等豐富的場(chǎng)景京闰。
無(wú)論是在線翻譯颜及、語(yǔ)音助手、個(gè)性化推薦還是各種降低開發(fā)者使用門檻的AI開發(fā)平臺(tái)蹂楣,但凡需要AI技術(shù)之處俏站,背后都需要云端AI芯片夜以繼日地為數(shù)據(jù)中心提供強(qiáng)大的算力支撐。
根據(jù)NVIDIA在2017年亮出的數(shù)據(jù)痊土,到2020年肄扎,全球云端AI芯片的市場(chǎng)規(guī)模累計(jì)將超過(guò)200億美元,這個(gè)體量龐大的市場(chǎng)已成為各路芯片巨頭虎視眈眈之地赁酝。
NVIDIA通用圖形處理單元(GPGPU)即是乘著深度學(xué)習(xí)的東風(fēng)扶搖直上犯祠,股價(jià)在2015年還是20美元,到2018年10月飆升至292美元酌呆,市值超過(guò)肯德基和麥當(dāng)勞总党,一躍成為AI領(lǐng)域第一股,市值數(shù)十億美元忱脆,坐享風(fēng)光橘匿。
其火箭般的漲勢(shì)驚醒了一眾潛在競(jìng)爭(zhēng)對(duì)手,風(fēng)暴出現(xiàn)在地平線上圈蔬。半導(dǎo)體巨頭英特爾默言、AMD等奮起直追,谷歌杆谓、亞馬遜豺这、百度、華為跨界自研歼虽,還有數(shù)十家新生芯片創(chuàng)企揭竿而起景妻,意圖通過(guò)自研架構(gòu)等方式突破云端AI芯片性能的天花板,重塑這一市場(chǎng)的版圖公垒。
本文將對(duì)云端AI芯片的戰(zhàn)事進(jìn)行全景式復(fù)盤新框,盤點(diǎn)加入戰(zhàn)局的五大半導(dǎo)體巨頭、七大中美科技巨頭和20家國(guó)內(nèi)外芯片創(chuàng)企队魏,看曾經(jīng)締造神話的NVIDIA公般,能否維系它的傳奇帝國(guó)?如今已經(jīng)出現(xiàn)或者正在開發(fā)的新計(jì)算架構(gòu)胡桨,能否適配未來(lái)的算法官帘?哪些企業(yè)更有望在強(qiáng)手如林的競(jìng)爭(zhēng)環(huán)境中生存下來(lái)?
誰(shuí)能主導(dǎo)這場(chǎng)云端AI芯片戰(zhàn)事,誰(shuí)就掌握了將在未來(lái)云計(jì)算和AI市場(chǎng)的戰(zhàn)役中贏得更多話語(yǔ)權(quán)刽虹。
一酗捌、十年押注,AI發(fā)射
一切始于意外涌哲,又絕非一次意外胖缤。
十幾年前,英偉達(dá)(NVIDIA)在經(jīng)歷過(guò)和數(shù)十家對(duì)手的激烈廝殺后阀圾,和AMD成為圖形顯卡領(lǐng)域的兩大霸主哪廓。那時(shí),大多數(shù)NVIDIA員工們初烘,并不知道人工智能(AI)是什么涡真。
彼時(shí),NVIDIA總營(yíng)收規(guī)模約30億美元貌授,其創(chuàng)始人兼CEO黃仁勛做了一個(gè)冒險(xiǎn)的決定——每年為CUDA項(xiàng)目砸5億美元吟因,通過(guò)一系列改動(dòng)和軟件開發(fā),將GPU轉(zhuǎn)化成更通用的計(jì)算工具势嫁,累計(jì)總額近100億美元产歧。
這是一個(gè)極具前瞻性的決定。2006年谨寂,GPU上的通用計(jì)算解決方案CUDA現(xiàn)世猫降,這一技術(shù)為編程人員帶來(lái)越來(lái)越方便的入門體驗(yàn)呵寂,逐漸為NVIDIA GPU積累了強(qiáng)健穩(wěn)固的開發(fā)者生態(tài)脆携。
直到2012年,NVIDIA遇到了深度學(xué)習(xí)的風(fēng)口豌魏。
這一年瞭核,加拿大多倫多大學(xué)教授、機(jī)器學(xué)習(xí)領(lǐng)域泰斗唉私、神經(jīng)網(wǎng)絡(luò)之父Geoffrey Hinton帶領(lǐng)課題組用GPU訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)(CNN)AlexNet绎蒙,一舉拿下ImageNet圖像識(shí)別比賽的冠軍,將AI推到了學(xué)術(shù)界焦點(diǎn)的歷史性拐點(diǎn)捻爷。
GPU并非為深度學(xué)習(xí)而生辈灼,其并行計(jì)算能力竟與深度學(xué)習(xí)算法的邏輯一拍即合。每個(gè)GPU有數(shù)千個(gè)內(nèi)核并行也榄,這些核心通常執(zhí)行許多低級(jí)的巡莹、繁復(fù)的數(shù)學(xué)運(yùn)算,非常適合運(yùn)行深度學(xué)習(xí)算法甜紫。
之后降宅,越來(lái)越強(qiáng)的“CUDA+GPU”組合,憑借無(wú)敵的處理速度和多任務(wù)處理能力,迅速俘獲一大批研究人員們的芳心腰根,很快就成為全球各大數(shù)據(jù)中心和云服務(wù)基礎(chǔ)設(shè)施的必備組件激才。
巨頭們的云端AI芯片之戰(zhàn),悄然拉開序幕额嘿。
二瘸恼、芯片巨頭鏖戰(zhàn)云端:NVIDIA獨(dú)霸,英特爾AMD奮起
起步早加上生態(tài)穩(wěn)健册养,NVIDIA很快就成為云端AI芯片市場(chǎng)的領(lǐng)導(dǎo)者钞脂。
NVIDIA在通往更強(qiáng)的道路上一往無(wú)前,陸續(xù)展示令人驚嘆的Tensor Core湖生、NVSwitch等技術(shù)狡煎,不斷打造新的性能標(biāo)桿。此外澳敞,它還構(gòu)建了GPU云瞧纹,使得開發(fā)者隨時(shí)可以下載新版的深度學(xué)習(xí)優(yōu)化軟件堆棧容器,極大程度上降低了AI研發(fā)與應(yīng)用的門檻宴宠。
就這樣澳券,NVIDIA靠時(shí)間、人才和技術(shù)的積累碾危,壘起了堅(jiān)不可摧的城墻乎渊。想要城池者,無(wú)不需要遵循NVIDIA指定的法則丛铅。截至今日崩蚀,NVIDIA的工程師軍團(tuán)已逾萬(wàn)人,其GPU+CUDA計(jì)算平臺(tái)是迄今為止成熟的AI訓(xùn)練方案壤趴,吞食掉絕大多數(shù)訓(xùn)練市場(chǎng)的蛋糕涎拉。
從功能來(lái)看,云AI芯片主要在做兩件事:訓(xùn)練(Training)和推理(Inference)的圆。
訓(xùn)練是把海量數(shù)據(jù)塞給機(jī)器鼓拧,通過(guò)反復(fù)調(diào)整AI算法,使其學(xué)習(xí)掌握特定的功能越妈。這個(gè)過(guò)程需要極高的計(jì)算性能季俩、精度和通用性。
推理則是將訓(xùn)練好的模型拿來(lái)應(yīng)用梅掠,它的參數(shù)已經(jīng)固化酌住,也不需要海量數(shù)據(jù),對(duì)性能瓤檐、精度和通用性的要求沒有訓(xùn)練那么高赂韵。
GPU在訓(xùn)練市場(chǎng)的是一座難以翻越的高山娱节,但在對(duì)功耗要求更高的推理市場(chǎng),它的優(yōu)勢(shì)相對(duì)沒那么明顯祭示。
而這里肄满,也是入局偏晚的半導(dǎo)體巨頭們聚集的方向。
1质涛、GPU:NVIDIA贏者通吃拭兢,AMD搶壘7nm
芯片是贏者通吃的市場(chǎng),云端AI芯片亦不例外胯炊,NVIDIA為加速數(shù)據(jù)中心應(yīng)用推出的高中低端通用GPU孟掺,一直是各路玩家參考的性能標(biāo)桿。
NVIDIA在短時(shí)間內(nèi)投入數(shù)十億美元?jiǎng)佑脭?shù)千工程師回东,于2016年推出了第一個(gè)專為深度學(xué)習(xí)優(yōu)化的Pascal GPU喂搬。2017年,它又推出了性能相比Pascal提升5倍的新GPU架構(gòu)Volta成吓,神經(jīng)網(wǎng)絡(luò)推理加速器TensorRT 3也同期亮相熙拐。
在新季度財(cái)報(bào)中,NVIDIA數(shù)據(jù)中心收入同比增長(zhǎng)58%至7.92億美元切咸,占公司總收入的近25%搏翎,在過(guò)去的四個(gè)季度中總共達(dá)到了28.6億美元。如果它能夠保持這種增長(zhǎng)玲崩,預(yù)計(jì)2019年的數(shù)據(jù)中心將達(dá)到約45億美元吸辽。
和NVIDIA在GPU領(lǐng)域長(zhǎng)期相爭(zhēng)的AMD,亦在積極地推進(jìn)對(duì)AI加速計(jì)算的研發(fā)盟步。2016年12月藏斩,AMD宣布主打AI與深度學(xué)習(xí)的加速卡計(jì)劃——Radeon Instinct。
說(shuō)起來(lái)址芯,AMD在深度學(xué)習(xí)領(lǐng)域的起步離不開中國(guó)公司的支持灾茁。百度是第一家在數(shù)據(jù)中心采用AMD Radeon Instinct GPU的中國(guó)公司窜觉,后來(lái)阿里巴巴也跟AMD簽了合同谷炸。
目前AMD的GPU仍然至少落后于NVIDIA的一代Tesla V100,不過(guò)在NVIDIA新招未發(fā)之時(shí)禀挫,AMD率先在其Next Horizon會(huì)議上宣布推出7nm GPU旬陡,名為Radeon Instinct MI60,內(nèi)存帶寬高達(dá)1 TB /秒语婴,并聲稱其7nm GPU通過(guò)AMD Infinity Fabric link等技術(shù)描孟,成為世界上快的雙精度加速器,可以提供高達(dá)7.4 TFLOPS的浮點(diǎn)性能砰左。
除了提供GPU芯片匿醒,AMD也在通過(guò)推出ROCm開放軟件平臺(tái)等方式構(gòu)建更強(qiáng)大的開源機(jī)器學(xué)習(xí)生態(tài)系統(tǒng)场航。
雖說(shuō)GPU暫時(shí)還抗不過(guò)NVIDIA,不過(guò)AMD有自己獨(dú)特的優(yōu)勢(shì)抢妈。AMD既有GPU又有CPU呼笨,可以在其GPU與CPU間用Infinity Fabric實(shí)現(xiàn)無(wú)縫連接,而英特爾至強(qiáng)處理器+NVIDIA GPU就很難做到這樣的完美連接栖俐。
同樣扎在GPU市場(chǎng)安營(yíng)扎寨的還有Imagination Technologies肪吁,只不過(guò)它長(zhǎng)期深耕于移動(dòng)GPU。從2017年到2018年肥寺,Imagination宣布了三款新的PowerVR圖形處理單元(GPU)获踏,主打AI終端市場(chǎng)。
在去年年底糯敢,Imagination高管在接受采訪時(shí)透露行贤,Imagination可能會(huì)宣布推出面向AI訓(xùn)練的GPU。
2瞎弥、FPGA:賽靈思打出創(chuàng)新牌垢蔑,英特爾“買”出全套大禮包
在AI推理的應(yīng)用當(dāng)中,F(xiàn)PGA相較專用集成電路(ASIC)具有靈活可編程的優(yōu)勢(shì)涡写,它們可以針對(duì)特定的工作進(jìn)行即時(shí)重新配置菩擦,比GPU功耗更低。
▲處理器的靈活性與性能差異
FPGA領(lǐng)域的老大老二常年是賽靈思和英特爾Altera搅窿,面對(duì)新興的AI市場(chǎng)嘁酿,體內(nèi)的創(chuàng)新基因亦是躍躍欲試。
賽靈思即將上線的大殺器叫Versal男应,這是業(yè)界自適應(yīng)計(jì)算加速平臺(tái)(Adaptive Compute Acceleration Platform 闹司,ACAP),采用臺(tái)積電7nm工藝沐飘,集成了AI和DSP引擎游桩,其軟硬件均可由開發(fā)者進(jìn)行編程和優(yōu)化。
這一殺器用了4年的時(shí)間來(lái)打磨耐朴,據(jù)稱Versal AI Core的AI推斷性能預(yù)計(jì)比業(yè)領(lǐng)先的GPU提升8倍借卧。按照此前賽靈思釋放的消息,Versal將在今年發(fā)貨筛峭。
有業(yè)內(nèi)人士認(rèn)為铐刘,Versal系列可能會(huì)改變AI推理市場(chǎng)。
如果說(shuō)NVIDIA打開AI的大門影晓,靠的是天然契合的基因镰吵,那么英特爾則是靠“買買買”的捷徑,快速躋身云AI芯片的前排捉瘟。作為幾十年的半導(dǎo)體霸主旁班,英特爾一出手目標(biāo)就是成為“全才”蔑誓。
眾所周知,英特爾屹立不倒的王牌是至強(qiáng)處理器职菜。至強(qiáng)處理器猶如一個(gè)智慧超群的軍師焚痰,運(yùn)籌帷幄,能處理各種任務(wù)羔辉,但如果你讓他去鑄造兵器盯萄,他的效率則完全比不過(guò)一個(gè)頭腦簡(jiǎn)單但有一身蠻力的武夫。
因此睁衰,面對(duì)擁有大量重復(fù)性簡(jiǎn)單運(yùn)算的AI用牲,讓至強(qiáng)處理器去處理此類任務(wù)既是大材小用,結(jié)果又很低效蝴趾。英特爾的做法是給至強(qiáng)處理器搭配加速器勋酿。
沒有做AI加速器的技術(shù)背景怎么辦?英特爾大筆一揮愿味,直接買博个!
2015年12月,英特爾砸下167億美元買走當(dāng)時(shí)的可編程邏輯器件(FPGA)的前年老二Altera功偿,如今英特爾憑著“Xeon+Altera FPGA”異構(gòu)芯片的打法盆佣,將數(shù)據(jù)中心某些任務(wù)提速十倍有余。
尤其是近一年來(lái)械荷,英特爾對(duì)FPGA的加碼肉眼可見共耍。前兩年,英特爾陸續(xù)推出號(hào)稱是史上最快FPGA芯片的Stratix 10系列吨瞎,這一系列獲得了微軟的青睞痹兜。
微軟推出基于英特爾Stratix 10 FPGA的云端解決方案Project Brainwave,稱其運(yùn)行速度達(dá)39.5 TFLOPS颤诀,延遲不足1 ms字旭。
除了Stratix 10 FPGA芯片外,英特爾先是去年12月在重慶落戶了其全球最大的FPGA創(chuàng)新中心崖叫,后又在今年4月亮出被悄然打磨了數(shù)年的新武器——全新架構(gòu)的FPGA Agilex遗淳,集成了英特爾先進(jìn)的10nm工藝、3D封裝归露、第二代HyperFlex等多種創(chuàng)新技術(shù)佳抗。
英特爾的FPGA已經(jīng)在服務(wù)器市場(chǎng)初步站穩(wěn)腳跟,而另一項(xiàng)重要的交易還處于蟄伏期种烫。
2016年8月,英特爾花了三四億美元買下專注于打造深度學(xué)習(xí)專用于硬件的加州創(chuàng)企Nervana墅失,收購(gòu)后不久鼻御,前Nervana CEO就被晉升為英特爾AI事業(yè)部總負(fù)責(zé)人揭轰,采用臺(tái)積電28nm工藝的深度學(xué)習(xí)專用芯片Lake Crest在2018年量產(chǎn),并宣稱性能是當(dāng)時(shí)快的GPU的10倍贰筹。
2018年5月少炎,英特爾全新云AI芯片Nervana神經(jīng)網(wǎng)絡(luò)處理器(Nervana Neural Network Processors,NNP)——Spring Crest正式亮相前挡,據(jù)稱其功耗小于210瓦峡审,訓(xùn)練性能比Lake Crest提升3-4倍,將于2019年下半年向用戶開放屎谆。
對(duì)于云端AI芯片推理拨聚,英特爾在拉斯維加斯舉行的CES上透露,它正在與Facebook就Nervana神經(jīng)網(wǎng)絡(luò)處理器NNP-I的推理版本密切合作琐览。NNP-I將是一個(gè)片上系統(tǒng)(SoC)丑瞧,內(nèi)置英特爾10nm晶體管,并將包括IceLake x86內(nèi)核蜀肘。
對(duì)比谷歌的TPU來(lái)看绊汹,英特爾人工智能事業(yè)群(AIPG)副總裁、Nervana團(tuán)隊(duì)核心成員Carey Kloss認(rèn)為TPU 2.0類似于Lake Crest扮宠,TPU 3.0類似于Spring Crest西乖。
3、新晉入局者:終端芯片巨頭高通
在移動(dòng)芯片領(lǐng)域如日中天的高通坛增,也剛剛舉起進(jìn)軍云計(jì)算和超算領(lǐng)域的敲門磚浴栽。
今年4月,高通宣布推出Cloud AI 100加速器轿偎,將高通的技術(shù)拓展至數(shù)據(jù)中心典鸡,預(yù)計(jì)將于2019年下半年開始向客戶出樣。
據(jù)悉坏晦,這款加速器基于高通在信號(hào)處理和功效方面的技術(shù)積累萝玷,專為滿足急劇增長(zhǎng)的云端AI推理處理的需求而設(shè)計(jì),可以讓分布式智能從云端遍布至用戶的邊緣終端昆婿,以及云端和邊緣終端之間的全部節(jié)點(diǎn)立骄。
高通產(chǎn)品管理高級(jí)副總裁Keith Kressin稱:“高通CloudAI 100加速器將為當(dāng)今業(yè)界的數(shù)據(jù)中心的AI推理處理器樹立全新標(biāo)桿——無(wú)論是采用CPU、GPU和/或FPGA的哪種組合方式來(lái)實(shí)現(xiàn)AI推理的處理器贞倒。”
此外辨埃,他還介紹說(shuō),高通目前正處在優(yōu)勢(shì)地位支持完整的從云端到邊緣的AI解決方案紫颈,所有的AI解決方案均可與具備高速率和低時(shí)延優(yōu)勢(shì)的5G實(shí)現(xiàn)連接下风。
三、跨界巨頭層出不窮:互聯(lián)網(wǎng)霸主爭(zhēng)上游
相比上面對(duì)云和數(shù)據(jù)中心市場(chǎng)野心勃勃的芯片巨頭們嘁汗,下面這些跨界玩家的心思可就相對(duì)“單純”很多鹤肥。
這些中美互聯(lián)網(wǎng)巨頭的目標(biāo)不是直接與NVIDIA永音、英特爾或AMD競(jìng)爭(zhēng),而是向他們自己的云客戶提供強(qiáng)大的算力冠樱,減少對(duì)傳統(tǒng)芯片制造商的依賴炭箭。
他們自研芯片的選擇也不盡相同,谷歌颠舞、亞馬遜等選擇專用芯片(ASIC)的路線菌司,而微軟等則致力于使用現(xiàn)場(chǎng)可編程門列(FPGA)。
1粤铭、谷歌:專用AI芯片商用開路人
作為開始做AI相關(guān)研發(fā)的科技公司之一挖胃,谷歌亦是試水專用AI芯片的先鋒,驗(yàn)證ASIC可以在深度學(xué)習(xí)領(lǐng)域替代GPU承耿。
谷歌于2016年推出了自己開發(fā)的AI芯片Tensor Processing Unit(TPU)冠骄,現(xiàn)已進(jìn)入第三代,為谷歌的語(yǔ)音助理加袋、谷歌地圖凛辣、谷歌翻譯等各種AI應(yīng)用提供算力支撐。最初設(shè)計(jì)的TPU用于深度學(xué)習(xí)的推理階段职烧,而新版本已經(jīng)可以用于AI訓(xùn)練扁誓。
谷歌聲稱,使用32種好的商用GPU訓(xùn)練機(jī)器翻譯系統(tǒng)需要一天的時(shí)間蚀之,相同的工作量需要在8個(gè)連接的TPU上花費(fèi)6個(gè)小時(shí)蝗敢。
谷歌目前只在自己的數(shù)據(jù)中心內(nèi)運(yùn)營(yíng)這種設(shè)備,沒有對(duì)外出售足删。不過(guò)谷歌表示將允許其他公司通過(guò)其云計(jì)算機(jī)服務(wù)購(gòu)買其TPU芯片寿谴。
谷歌TPU在谷歌對(duì)外服務(wù)的市場(chǎng)是有限制的,TPU只能用與和運(yùn)行Google TensorFlow AI框架搜痕,用戶無(wú)法使用它們來(lái)訓(xùn)練或運(yùn)行使用Apache MxNet或Facebook的PyTorch構(gòu)建的AI细咽,也不能將它們用于GPU占據(jù)著至高無(wú)上地位的非AI HPC應(yīng)用程序中。
但谷歌對(duì)此表示滿意绍撇,因?yàn)樗鼘PU和TensorFlow視為其全面的AI領(lǐng)導(dǎo)力的戰(zhàn)略尘忿。針對(duì)其軟件進(jìn)行了優(yōu)化的軟件針對(duì)其軟件進(jìn)行了優(yōu)化,可以構(gòu)建強(qiáng)大而耐用的平臺(tái)督垮。
今年開年的新消息是谷歌在印度班加羅爾成立了新的芯片團(tuán)隊(duì)gChips屡拥,并從英特爾、高通影啸、博通和NVIDIA等傳統(tǒng)芯片公司那里大舉招兵買馬剩骏,至少招募了16名技術(shù)老兵。
2、內(nèi)部商用在即:微軟FPGA衣夏、百度昆侖與華為昇騰
去年5月扭享,微軟AI芯片Brainwave開放云端測(cè)試版坠行,稱Project Brainwave計(jì)算平臺(tái)使用的FPGA芯片為實(shí)時(shí)AI而設(shè)計(jì)匙蚣,比谷歌使用的TPU芯片處理速度快上了5倍(微軟AI芯片Brainwave開放云端試用版 比TPU快5倍)。微軟Azure執(zhí)行副總裁Jason Zander還曾表示改艇,微軟Azure實(shí)際上設(shè)計(jì)了許多自研芯片收班,用于數(shù)據(jù)中心。
不得不承認(rèn)谒兄,國(guó)內(nèi)科技巨頭給芯片起名字摔桦,那文化水平高出國(guó)外不止一個(gè)Level。
百度給云端AI芯片命名的“昆侖”是中國(guó)第一神山承疲,相傳這座山的先主邻耕,被古人尊為“萬(wàn)山之宗”、“龍脈之祖”燕鸽,嫦娥奔月兄世、西游記、白蛇傳等家喻戶曉的神話傳說(shuō)都與此山有所關(guān)聯(lián)啊研。
華為云端AI芯片的“昇騰”則取超脫塵世御滩、上升、器宇軒昂之義党远,頗受文人墨客的喜愛削解。
百度和華為都是國(guó)內(nèi)早早跨界造芯的科技公司。早在2017年8月蒸败,百度就在加州Hot Chips大會(huì)上發(fā)布了一款256核圾恐、基于FPGA的云計(jì)算加速芯片,合作伙伴是賽靈思雅沽。華為做芯片就更早了擂椎,2004年就成立半導(dǎo)體公司海思,只不過(guò)以前都是做終端的芯片解決方案泡缠。
2018年下半年趟蛋,以它們?yōu)榇淼男乱惠喸煨緞?shì)力吹響了中國(guó)云端AI芯片沖鋒的號(hào)角。
百度是國(guó)內(nèi)較早試水造芯的科技巨頭鼎示,早在2010年就開始用FPGA做AI架構(gòu)的研發(fā)同嚷,2011年開展小規(guī)模部署上線,2015年打破幾千片的部署規(guī)模虫店,2017年部署超過(guò)了10000片F(xiàn)PGA甫知,百度內(nèi)部數(shù)據(jù)中心、自動(dòng)駕駛系統(tǒng)等都在大規(guī)模使用。
2017年8月诡蜓,百度發(fā)布了一款256核熬甫、基于FPGA的XPU芯片,這款是和賽靈思合作的蔓罚,核心很小椿肩,沒有緩存或操作系統(tǒng),效率與CPU相當(dāng)豺谈。
隨后在2018年7月舉辦的百度AI開發(fā)者大會(huì)上郑象,百度宣布當(dāng)時(shí)業(yè)內(nèi)的算力最高的AI芯片——昆侖。
參數(shù)方面茬末,昆侖芯片由三星代工厂榛,采用14nm工藝,內(nèi)存帶寬達(dá)512GB/s丽惭,核心有數(shù)萬(wàn)個(gè)击奶,能在100W以上的功耗提供260 TOPS的算力。
以NVIDIA最新圖靈(Turing)架構(gòu)的T4 GPU為對(duì)比责掏,T4最大功耗為70W柜砾,能提供的最高算力也是260 TOPS,但這款GPU比昆侖芯片的發(fā)布晚了2個(gè)月拷橘,并且初期并沒有在中國(guó)開售脖耽。百度主任架構(gòu)師歐陽(yáng)劍在今年的AI芯片創(chuàng)新峰會(huì)上透露,今年“昆侖”會(huì)在百度內(nèi)部大規(guī)模使用拨臂。
華為的云端AI芯片昇騰910更是直接在發(fā)布現(xiàn)場(chǎng)和NVIDIA與谷歌正面PK京多。昇騰910直接用起了先進(jìn)的7nm工藝,采用華為自研的達(dá)芬奇架構(gòu)基际,最大功耗350W痛慷。華為打的旗號(hào)是截止到發(fā)布日期“單芯片計(jì)算密度最大的芯片”,半精度(FP16)運(yùn)算能力達(dá)到256 TFLOPS袍砚,比NVIDIA V100的125 TFLOPS足足高了一倍樱炬。
徐直軍甚至表示,假設(shè)集齊1024個(gè)昇騰910,會(huì)出現(xiàn)“迄今為止全球最大的AI計(jì)算集群,性能達(dá)到256P锋恬,不管多么復(fù)雜的模型都能輕松訓(xùn)練杰泡。”這個(gè)大規(guī)模分布式訓(xùn)練系統(tǒng)憎瘸,名為“Ascend Cluster”。
落地方面,百度 稱其昆侖將于今年年內(nèi)在百度數(shù)據(jù)中心大規(guī)模使用,華為的昇騰910原計(jì)劃在今年Q2上市解滓,現(xiàn)在在貿(mào)易戰(zhàn)的背景之下,不知道會(huì)不會(huì)延遲。
3洼裤、神秘主義:亞馬遜邻辉、阿里與臉書
作為中美云計(jì)算市場(chǎng)的龍頭,阿里巴巴和亞馬遜雖然稍微遲到腮鞍,但絕對(duì)不會(huì)缺席值骇。
兩家的研發(fā)目的都很明確,是為了解決圖像缕减、視頻識(shí)別雷客、云計(jì)算等商業(yè)場(chǎng)景的AI推理運(yùn)算問(wèn)題芒珠,提升運(yùn)算效率桥狡、降低成本。
阿里巴巴達(dá)摩院去年4月宣布皱卓,Ali-NPU性能將是現(xiàn)在市面上主流CPU裹芝、GPU架構(gòu)AI芯片的10倍,制造成本和功耗僅為一半娜汁,性價(jià)比超40倍臀匹。同月,阿里全資收購(gòu)大陸唯一的自主嵌入式CPU IP核公司中天微油后。
新進(jìn)展發(fā)生在9月挠站,阿里將中天微與達(dá)摩院自研芯片業(yè)務(wù)合并,整合成一家芯片公司平頭哥容书。研發(fā)Ali-NPU的重任由平頭哥接棒恃藐,首批AI芯片預(yù)計(jì)2019年下半年面世,將應(yīng)用在阿里數(shù)據(jù)中心藤棕、城市大腦和自動(dòng)駕駛等云端數(shù)據(jù)場(chǎng)景中自拖。未來(lái)將通過(guò)阿里云對(duì)外開放使用。
在模擬驗(yàn)證測(cè)試中朴树,這款芯片的原型讓鋪設(shè)阿里城市大腦的硬件成本節(jié)約了35%宏查。但此后,阿里幾乎未再發(fā)出相關(guān)進(jìn)展的聲音榨惭。
亞馬遜的云AI芯片Inferentia是去年11月在拉斯維加斯舉行的re:Invent大會(huì)上公布的骡拐。
這款芯片的技術(shù)源頭要追溯到亞馬遜在2015年初花費(fèi)3.5億美元收購(gòu)的以色列芯片公司Annapurna Labs。按照介紹忿项,每個(gè)Inferentia芯片提供高達(dá)幾百TOPS的算力蓉冈,多個(gè)AWS Inferentia芯片可形成成千上萬(wàn)的TOPS算力。該芯片仍在開發(fā)中倦卖,按預(yù)告洒擦,這款芯片將于2019年底上市。
Facebook的造芯計(jì)劃浮出水面的很早,但卻是信息曝光少的玩家熟嫩。
除了買下相對(duì)成熟的芯片公司外秦踪,招兵買馬也是常備之選。Facebook的造芯計(jì)劃在去年4月初露端倪掸茅,上發(fā)布了招聘ASIC&FPGA設(shè)計(jì)工程師的廣告椅邓,用于組建芯片團(tuán)隊(duì)。3個(gè)月后昧狮,美媒彭博社報(bào)道稱景馁,F(xiàn)acebook挖走谷歌高級(jí)工程師主管Shahriar Rabii擔(dān)任副總裁兼芯片負(fù)責(zé)人。
Facebook首席人工智能科學(xué)家逗鸣、新圖靈獎(jiǎng)獲得者Yann LeCun在接受采訪時(shí)透露合住,其造芯主要是未來(lái)滿足對(duì)網(wǎng)站進(jìn)行實(shí)時(shí)視頻監(jiān)控的需求。
而等到今年1月時(shí)特与,英特爾在全球消費(fèi)電子展(CES)上表示释何,正與Facebook合作開發(fā)一款新的AI芯片,用于加速推理注括,并力爭(zhēng)在今年下半年開發(fā)完成坯肿。
不過(guò)迄今為止,外界對(duì)Facebook AI芯片的性能信息一無(wú)所知蝴车。
四蔗承、新秀迭出:國(guó)內(nèi)創(chuàng)企搶先落地,國(guó)外創(chuàng)企醞釀大招
AI的復(fù)興顛覆了以往由英特爾蛹协、AMD主瘸、高通等芯片公司carry全產(chǎn)業(yè)的穩(wěn)定局面,為新的一批芯片創(chuàng)業(yè)者創(chuàng)造了機(jī)會(huì)淑停。
一些初創(chuàng)公司希望從頭開始創(chuàng)建一個(gè)新平臺(tái)孝摘,一直到硬件,專門針對(duì)AI操作進(jìn)行優(yōu)化锰抡。希望通過(guò)這樣做妻往,它能夠在速度,功耗试和,甚至可能是芯片的實(shí)際尺寸方面超越GPU讯泣。
1、中國(guó)創(chuàng)企:比特大陸寒武紀(jì)領(lǐng)銜阅悍,依圖智能密度超NVIDIA
先說(shuō)國(guó)內(nèi)做云端AI芯片創(chuàng)企好渠,其中耀眼的當(dāng)屬比特大陸和中科寒武紀(jì)。
比特大陸作為礦機(jī)芯片老大業(yè)界聞名节视,但在過(guò)去一年的比特幣大退潮中拳锚,比特大陸首當(dāng)其沖陷入輿論漩渦假栓,上市計(jì)劃未能如期實(shí)現(xiàn)。
這家2013年成立的公司霍掺,在2015年就啟動(dòng)AI芯片業(yè)務(wù)匾荆。繼2017年推出第一代28nm云端AI芯片產(chǎn)品BM1680后,它在2018年第一季度發(fā)布第二代BM1682杆烁,迭代時(shí)間僅9個(gè)月牙丽。
按照比特大陸去年公布的造芯計(jì)劃,12nm的云端芯片BM1684應(yīng)在2018年年底推出兔魂,BM1686將在2019年推出郑舷,很可能采用7nm制程,不過(guò)這兩款芯片都姍姍來(lái)遲锌拱。
和比特大陸一樣同時(shí)發(fā)力云端和終端芯片的還有AI小芯片獨(dú)角獸中科寒武紀(jì)肘鹅。
寒武紀(jì)曾因嵌在華為手機(jī)AI芯片中麒麟970中的神經(jīng)網(wǎng)絡(luò)處理器(NPU)成功打響知名度,成為國(guó)內(nèi)外AI芯片創(chuàng)企中的當(dāng)紅炸子雞陷母,在經(jīng)歷A贷营、B兩輪融資后,整體估值約25億美元(約170多億人民幣)尿欲。
2018年5月,寒武紀(jì)正式發(fā)布第一代云AI芯片MLU100牡呀,據(jù)稱可以以更低的功率提供比NVIDIA V100更好的性能溜舷。其客戶科大訊飛曾披露測(cè)試結(jié)果,稱MLU100芯片在語(yǔ)音智能處理的能耗效率領(lǐng)先國(guó)際競(jìng)爭(zhēng)對(duì)手的云端GPU方案5倍以上轧黑。
一年后开摄,其第二代云端AI芯片思元270芯片未發(fā)先熱,部分性能被知乎網(wǎng)友曝光且昭,峰值性能和功耗都基本與NVIDIA Tesla T4基本持平邦马,業(yè)內(nèi)傳聞寒武紀(jì)可能在低精度訓(xùn)練領(lǐng)域有所突破。該芯片不出意外地話將于近期發(fā)布宴卖。
欲對(duì)標(biāo)NVIDIA和谷歌的創(chuàng)企不止于此滋将。
令人稍感意外的玩家是國(guó)內(nèi)計(jì)算機(jī)視覺(CV)四小龍之一依圖科技。今年5月症昏,依圖發(fā)布了與AI芯片創(chuàng)企熠知電子(ThinkForce)聯(lián)合開發(fā)的云端AI芯片求索questcore随闽。
熠知電子是一家低調(diào)但不容小覷的上海AI芯片創(chuàng)企,于2017年獲依圖科技肝谭、云鋒基金掘宪、紅杉資本、高瓴資本的4.5億元人民幣A輪融資攘烛。其核心成員來(lái)自IBM魏滚、AMD镀首、英特爾、博通鼠次、Cadence等半導(dǎo)體巨頭蘑斧,均有十年以上的芯片行業(yè)從業(yè)經(jīng)歷。
這款云端深度學(xué)習(xí)推理定制化SoC芯片采用16nm制程和擁有自主知識(shí)產(chǎn)權(quán)的ManyCore架構(gòu)卢操,據(jù)稱最高能提供每秒15 TOPS的視覺推理性能堡喳,僅針對(duì)INT 8數(shù)據(jù)(8 位整數(shù)數(shù)據(jù)類型)進(jìn)行加速,最大功耗僅20W企奔,比一個(gè)普通的電燈泡還小祸播。
依圖表示,開發(fā)這款芯片不是想追求NVIDIA那樣幾百個(gè)T的算力妖奕,而是看重高計(jì)算密度遭唠。
和前述的跨界科技巨頭們一樣,依圖芯片商用的第一步也是結(jié)合其自身軟硬件和解決方案打包出售窄栓,不會(huì)單獨(dú)售賣颊姻,第二、三代產(chǎn)品也都在籌備中笙亿。
上海的熱門造芯新勢(shì)力還有燧原科技矫恳。它可以說(shuō)是國(guó)內(nèi)年輕的AI芯片造芯者,2018年3月成立炕烈,獲得由騰訊領(lǐng)投的3.4億元人民幣Pre-A輪融資刮赵,主攻云端AI加速芯片及相關(guān)軟件生態(tài)的研發(fā)投入。這是騰訊第一次投資國(guó)內(nèi)AI芯片創(chuàng)企皱坛。
燧原科技的創(chuàng)始團(tuán)隊(duì)主要來(lái)自于AMD编曼,其創(chuàng)始人趙立東此前曾任職于 AMD 中國(guó),后又赴銳迪科(現(xiàn)與展訊合并為紫光展銳)任職總裁剩辟。
2019年6月6日掐场,燧原科技宣布新一輪3億元人民幣融資,由紅點(diǎn)創(chuàng)投中國(guó)基金領(lǐng)投贩猎,海松資本熊户、騰訊等投資。其深度學(xué)習(xí)高端芯片的神秘面紗尚未揭開融欧。
和前幾位玩家不同的是敏弃,天數(shù)智芯和登臨科技選擇的是直接與NVIDIA對(duì)標(biāo)的通用GPU(GPU)。
在國(guó)內(nèi)噪馏,尚無(wú)能與NVIDIA分庭抗禮的GPGPU公司麦到,這對(duì)創(chuàng)企而言是個(gè)值得切入的機(jī)會(huì)。
兩家公司的造芯陣容都很成熟欠肾,天數(shù)智芯的硬件團(tuán)隊(duì)基于AMD在上海和硅谷的GPU團(tuán)隊(duì)瓶颠,登臨科技的創(chuàng)始團(tuán)隊(duì)也是在GPU行業(yè)多年的老將拟赊。
目前天數(shù)智芯的高中低端GPGPU產(chǎn)品都在研發(fā)中,其高端芯片Big Island將同時(shí)支持云端推理和訓(xùn)練捅青。登臨科技的GPGPU處理器也已通過(guò)FPGA驗(yàn)證蹲瘩,第一代產(chǎn)品Goldwasser的設(shè)計(jì)已完成,計(jì)劃在今年年底前可供客戶測(cè)試使用豺孤。
還有一家創(chuàng)企名為龍加智架揉,創(chuàng)立于2017年7月,由摯信資本和翊翎資本領(lǐng)投凌秩,致力于研發(fā)TPU芯片浦砸。
為了滿足對(duì)低時(shí)延、高可靠性和數(shù)據(jù)安全的需求段许,龍加智推出新的芯片類型關(guān)鍵任務(wù)芯片 (Mission-Critical AI Processor)毯旷,第一代芯片命名Dino-TPU,先應(yīng)用于云端數(shù)據(jù)中心驹毁,算力超過(guò)除新款Nvidia Volta之外的所有GPU选癣,時(shí)延僅為Volta V100的1/10,功耗為75W廊席,且獨(dú)具冗余備份和數(shù)據(jù)安全保障杰刽。
按照龍加智的開發(fā)計(jì)劃,公司計(jì)劃于 2018 年底完成第一款芯片的流片堆生。
2专缠、美國(guó)創(chuàng)企:Wave 7nm芯片推出在即,Cerebras仍處于秘密模式
在大洋彼岸淑仆,美國(guó)多家AI芯片創(chuàng)企也瞄準(zhǔn)了云與計(jì)算中心市場(chǎng)。
一家去年存在感較強(qiáng)的企業(yè)是Wave Computing哥力。這家創(chuàng)企去年收購(gòu)了老芯片IP供應(yīng)商MIPS蔗怠,還推出MIPS開放計(jì)劃。它的累計(jì)融資達(dá)到1.17億美元吩跋。
它的核心產(chǎn)品叫其數(shù)據(jù)流處理器單元(DPU)寞射,采用非馮諾依曼(von Neumann)架構(gòu)的軟件可動(dòng)態(tài)重構(gòu)處理器CGRA(Coarse grain reconfigurable array/accelerator)技術(shù),適用于大規(guī)模異步并行計(jì)算問(wèn)題锌钮。
其主要優(yōu)勢(shì)是使得硬件更加靈活地適配于軟件桥温,在可編程性(或通用性)和性能方面達(dá)到很好的綜合平衡,降低AI芯片開發(fā)門檻梁丘,不會(huì)受到GPU等加速器中存在的內(nèi)存瓶頸的影響侵浸。
Wave的第一代DPU采用16nm制程工藝,以6 GHz以上的速度運(yùn)行到趴,已經(jīng)落地商用林乍。據(jù)其高級(jí)副總裁兼CTO Chris Nicol介紹宙锡,新一代7nm DPU將引入MIPS技術(shù),并采用高帶寬內(nèi)存HBM(High Band Memory)戒腔,預(yù)計(jì)在明年發(fā)布狐昆。
還有一家十分神秘的創(chuàng)企Cerebras System,它于2016年在美國(guó)加利福尼亞創(chuàng)辦掸枉。即便它至今未發(fā)布任何產(chǎn)品八领,這并不妨礙它常常被與芯片巨頭們相提并論。
Cerebras的創(chuàng)始團(tuán)隊(duì)大多來(lái)自芯片巨頭AMD磷妻。其聯(lián)合創(chuàng)始人兼首席CEO安德魯·費(fèi)爾德曼(Andrew Feldman)此前曾創(chuàng)辦SeaMicro鼠灼,這是一家低功耗服務(wù)器制造商,在2012年被AMD以3.34億美元收購(gòu)掷雪。此后将遮,費(fèi)爾德曼花了兩年半的時(shí)間爬上了AMD的副總裁之位。
在三輪融資中肌坑,Cerebras籌集了1.12億美元近弟,其估值已飆升至高達(dá)8.6億美元。如今挺智,Cerebras仍處于秘密模式祷愉,據(jù)相關(guān)人士透露,其硬件將為“訓(xùn)練”深度學(xué)習(xí)算法量身定制赦颇。
▲Cerebras使用深度學(xué)習(xí)加速器進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練和推理專利
2017年4月成立的Groq創(chuàng)始團(tuán)隊(duì)更是搶眼二鳄,來(lái)自谷歌TPU十人核心團(tuán)隊(duì)中的8人。這家創(chuàng)企一出場(chǎng)就雄心勃勃媒怯,顯示器芯片算力將能達(dá)到400 TOPS订讼。
SambaNova Systems比Groq晚7個(gè)月成立,總部位于加州Palo Alto扇苞,創(chuàng)始人包括兩位斯坦福大學(xué)教授Kunle Olukotun和ChrisRé和一位老牌芯片公司(Sun前任開發(fā)高級(jí)副總裁)高管欺殿。
其A輪融資由谷歌母公司Alphabet的風(fēng)險(xiǎn)投資部門Google Venture(GV)領(lǐng)投,這是GV首次對(duì)人工智能芯片公司進(jìn)行投資鳖敷。今年4月脖苏,英特爾投資宣布向14家科技創(chuàng)業(yè)公司新投資總計(jì)1.17億美元,SambaNova Systems也在名單中定踱。
3盼掘、其他創(chuàng)企:英國(guó)獨(dú)角獸Graphcore受青睞,多數(shù)芯片尚未推出
除了中美外耸颁,其他地域的AI芯片創(chuàng)企也在蓄勢(shì)待發(fā)彰巫。
被看好的是一家資金雄厚的英國(guó)獨(dú)角獸Graphcore,成立于2016年韭赡,估值達(dá)到17億美元挟晒,累計(jì)融資3.12億美元残神。這家創(chuàng)企堪稱巨頭收割機(jī),投資陣容很強(qiáng)大寸快,包括紅杉資本新浦、寶馬、微軟汞阔、博世和戴爾科技笋条。
這家公司打造了一款專為機(jī)器智能工作負(fù)載而設(shè)計(jì)的智能處理單元(IPU),采用支持片上互連和片上存儲(chǔ)企舌,從邊緣設(shè)備擴(kuò)展到用于數(shù)據(jù)中心訓(xùn)練和推理的“Colossus”雙芯片封裝执执。
Graphcore在上如是寫道:我們的IPU系統(tǒng)旨在降低在云和企業(yè)數(shù)據(jù)中心加速AI應(yīng)用程序的成本,與目前最快的系統(tǒng)相比晌姚,將訓(xùn)練和推理的性能提高多達(dá)100倍粤剧。
在去年年底的NeurIPS活動(dòng)中,Graphcore展示了一個(gè)示例配置RackScale IPU-Pod挥唠,包括32個(gè)1U IPU-Machines抵恋,每個(gè)由4個(gè)Colossus GC2 IPU處理器組成,提供500 TFLOPS混合精度計(jì)算宝磨,超過(guò)1.2GB的處理器內(nèi)存以及超過(guò)200TB/s的內(nèi)存帶寬弧关。
另一家2016年成立的以色列創(chuàng)企Habana Labs,在去年9月的AI硬件峰會(huì)上宣布已經(jīng)準(zhǔn)備推出其首款用于推理的AI芯片Goya唤锉,它顯示了在Resnet50圖像分類數(shù)據(jù)庫(kù)中每秒分類15000張圖像的吞吐量世囊,比NVIDIA的T4設(shè)備高出約50%,延遲時(shí)間為1.3ms窿祥,功耗僅為100 W株憾。
其新7500萬(wàn)美元B輪融資(2018年12月)由英特爾風(fēng)險(xiǎn)投資公司領(lǐng)投,資金將部分用于研發(fā)第二款芯片Gaudi晒衩,該芯片將面向訓(xùn)練市場(chǎng)号胚,據(jù)稱訓(xùn)練性能可線性擴(kuò)展到1000多個(gè)處理器。
印度AlphaICs公司也是在2016年成立逊汤,正在設(shè)計(jì)AI芯片并致力于AI 2.0,希望通過(guò)該系列產(chǎn)品實(shí)現(xiàn)下一代AI湘胚。
AlphaICs的一位聯(lián)合創(chuàng)始人之一是有“奔騰芯片之父”稱號(hào)的Vinod Dham啥榜,他與一些年輕的芯片設(shè)計(jì)師們合作打造了可執(zhí)行基于代理的AI協(xié)處理芯片——RAP芯片。
Dham表示虑佳,AlphaICs芯片在處理速度上相較競(jìng)爭(zhēng)對(duì)手更有優(yōu)勢(shì)掏博,并稱當(dāng)前我們看到的大多屬于弱AI,而他們可以被稱之為“強(qiáng)AI”檬鞠。
按照Dham的說(shuō)法伊肿,RAP芯片有望在2019年年中推出肆鸿,“希望為真正的AI創(chuàng)造一個(gè)大爆炸”。
Tenstorrent是位于加拿大多倫多的創(chuàng)企炒耀,由兩位AMD前工程師Ljubisa Bajic和Milos Trajkovic創(chuàng)辦瞳聊,核心團(tuán)隊(duì)大多來(lái)自NVIDIA和AMD,研發(fā)專為深度學(xué)習(xí)和智能硬件而設(shè)計(jì)的高性能處理器名密。
去年早些時(shí)候藏估,這家公司獲得來(lái)自Real Ventures的種子輪投資,不過(guò)至今仍處于秘密模式失驶。
4土居、獨(dú)特戰(zhàn)隊(duì):光子AI芯片
在面向云和數(shù)據(jù)中心領(lǐng)域的硬件勢(shì)力中,一支特別的戰(zhàn)隊(duì)正受到國(guó)內(nèi)外科技巨頭的青睞嬉探,它就是光子AI芯片擦耀。
和常規(guī)芯片不同,這些芯片采用光子電路來(lái)代替電子傳輸信號(hào)涩堤,他們比電子電路擁有更高的傳輸速度眷蜓、更低的延遲和更高的吞吐量。
2016年定躏,MIT研究團(tuán)隊(duì)打造了首個(gè)光學(xué)計(jì)算系統(tǒng)账磺,該成果于2017年以封面文章的形式發(fā)表在頂級(jí)期刊Nature Photonics雜志。正是這篇論文痊远,在全球范圍內(nèi)啟發(fā)更多人投入到光子AI芯片的研發(fā)之中垮抗。
僅是這一MIT團(tuán)隊(duì),就在2017年孵化出Lightelligence和LightMatter兩家美國(guó)公司碧聪。
Lightelligence在2018年2月拿到百度風(fēng)投和和美國(guó)半導(dǎo)體行業(yè)高管1000萬(wàn)美元種子輪融資冒版,LightMatter在2019年2月拿到由谷歌母公司Alphabet旗下的風(fēng)險(xiǎn)投資部門Google Ventures領(lǐng)投的2200萬(wàn)美元B輪融資。
Lightelligence稱光子電路(Photonic Circuits)不僅能在云計(jì)算領(lǐng)域作為CPU的協(xié)處理器加速深度學(xué)習(xí)訓(xùn)練和推理伐页,還能用于要求高效低能耗的網(wǎng)絡(luò)邊緣設(shè)備侈敏。
今年4月,Lightelligence宣布成功開發(fā)出世界第一款光子芯片原型板卡(Prototype)养砾,其光子芯片已與谷歌嫩视、Facebook、AWS质教、BAT級(jí)別的客戶接洽豪荧。
LightMatter同樣重點(diǎn)面向大型云計(jì)算數(shù)據(jù)中心和高性能計(jì)算集群,他們?cè)蛟斐?個(gè)早期的芯片瓦陡,其中一個(gè)芯片包含超過(guò)十一個(gè)晶體管筑陡。
受MIT那篇論文的啟發(fā),2017年,國(guó)內(nèi)第一家光子AI芯片創(chuàng)企光子算數(shù)由來(lái)自由清華大學(xué)辱矮、北京大學(xué)喝爽、北京交通大學(xué)等10所高校的博士生創(chuàng)立。
這家公司在2018年9月獲得天使輪融資愿瘫,據(jù)稱其光子芯片的性能是電子芯片的1000倍年堆,而功耗只有電子芯片的1%。
就在本月罢屈,比爾蓋茨也開始投資AI芯片嘀韧,而且投資的是同樣研發(fā)硅光技術(shù)的Luminous。其他投資者還包括Uber聯(lián)合創(chuàng)始人Travis Kalanick的10100基金缠捌,以及現(xiàn)任Uber CEO Dara Khosrowshahi锄贷。
Luminous目前僅有7位成員,但它的胃口可不小曼月,目標(biāo)是為包含谷歌新的Tensor Processing Unit AI芯片的3000塊電路板創(chuàng)建一個(gè)替代品谊却。它們采用的方法借鑒了其聯(lián)合創(chuàng)始人Mitchell Nahmias在普林斯頓大學(xué)的早期神經(jīng)形態(tài)光子學(xué)工作。
現(xiàn)在這幾家創(chuàng)企共同存在的問(wèn)題是哑芹,不清楚多久能發(fā)布量產(chǎn)的光子AI芯片炎辨,以及這些芯片的實(shí)際應(yīng)用效果能否真正取代電子芯片的位置。
五聪姿、當(dāng)前云端AI芯片主要挑戰(zhàn)
如今切入云AI芯片市場(chǎng)的玩家已經(jīng)有數(shù)十家碴萧,不過(guò)由NVIDIA主導(dǎo)、多家半導(dǎo)體巨頭分食的軟硬件和服務(wù)市場(chǎng)大體格局依然比較穩(wěn)定末购,產(chǎn)生新的格局變動(dòng)絕非一件易事勤消。
1、粥多僧少壕俱,聚攏效應(yīng)明顯
對(duì)于芯片行業(yè)來(lái)說(shuō)源糖,足量的產(chǎn)能至關(guān)重要。
半導(dǎo)體巨頭可以實(shí)現(xiàn)十倍障浅、百倍的產(chǎn)能师晨,而創(chuàng)企很難在創(chuàng)業(yè)初期就做到這一點(diǎn)。現(xiàn)在的創(chuàng)企多為IC設(shè)計(jì)廠商支你,如果他們想要成為像英特爾研神、三星那樣“自給自足”的公司,可能需要花數(shù)十億美元不止旷动。
經(jīng)過(guò)2015-2016年的半導(dǎo)體行業(yè)整合浪潮后囊像,近兩年半導(dǎo)體并購(gòu)潮正在逐漸“退燒”,大公司對(duì)芯片創(chuàng)企的投資或收購(gòu)行動(dòng)會(huì)更加謹(jǐn)慎卡竣。
2、人才爭(zhēng)奪愈演愈烈
云端AI芯片的核心競(jìng)爭(zhēng)力在于人才。
從當(dāng)前市場(chǎng)上較受關(guān)注的云AI芯片公司來(lái)看蝴韭,它們的研究團(tuán)隊(duì)多是在芯片巨頭有超過(guò)十年從業(yè)經(jīng)歷的行業(yè)老兵够颠,而且往往有帶頭研發(fā)出相關(guān)成功產(chǎn)品的經(jīng)驗(yàn)。
無(wú)論是半導(dǎo)體巨頭還是跨界造芯的科技巨頭榄鉴,基本上都在走兩種路徑履磨,一是投資并購(gòu)成熟的芯片公司,另一種就是從挖走其他大公司的芯片高管庆尘。
3剃诅、創(chuàng)新難+落地難
英特爾研究院院長(zhǎng)宋繼強(qiáng)曾經(jīng)向智東西表示,AI芯片的未來(lái)一定是多樣化驶忌,不同種類的產(chǎn)品滿足不同功耗矛辕、尺寸、價(jià)錢的要求付魔,AI一場(chǎng)馬拉松聊品,現(xiàn)在這場(chǎng)比賽才剛剛開始。
現(xiàn)階段几苍,入局云AI芯片領(lǐng)域的絕大多數(shù)巨頭和創(chuàng)企都在打創(chuàng)新的招牌翻屈,包括創(chuàng)新的架構(gòu)、存儲(chǔ)技術(shù)以及硅光技術(shù)等妻坝。
由于對(duì)推動(dòng)深度學(xué)習(xí)的新型計(jì)算資源的需求激增奋肄,許多人認(rèn)為這是初創(chuàng)企業(yè)從巨頭和投資機(jī)構(gòu)手中爭(zhēng)取資金的難得機(jī)會(huì)。
盡管玩家正在增多折扮,打出的旗幟也趨于多樣化逃口,但就目前而言,真正落地量產(chǎn)的創(chuàng)新硬件還很有限夏坝。云端AI芯片面臨的困境仍有很多畴贵,比如計(jì)算機(jī)體系結(jié)構(gòu)普遍存在的摩爾定律難以維系和半導(dǎo)體器件方面的瓶頸。
研發(fā)芯片的過(guò)程可能需要數(shù)年時(shí)間花脐,目前大部分硬件仍在開發(fā)中或在早期試驗(yàn)計(jì)劃中進(jìn)行幅秉。因此,很難預(yù)測(cè)哪些企業(yè)會(huì)實(shí)現(xiàn)承諾的性能戚吕。
結(jié)語(yǔ):三股勢(shì)力渠跷,決戰(zhàn)云端AI芯片之巔
總體來(lái)看,云端AI芯片市場(chǎng)正逐漸分成三股勢(shì)力员漩,以英偉達(dá)收罢、英特爾等為代表的半導(dǎo)體巨頭,以谷歌逝淹、華為等為代表的中美科技巨頭耕姊,和以寒武紀(jì)、Groq等為代表的芯片創(chuàng)企。其中茉兰,半導(dǎo)體巨頭和芯片創(chuàng)企面向主攻通用芯片尤泽,而跨界造芯的科技巨頭以及AI創(chuàng)企依圖暫時(shí)不對(duì)外直接銷售。
從應(yīng)用領(lǐng)域來(lái)看规脸,盡管GPU的高能耗遭到業(yè)界越來(lái)越多的吐槽坯约,但因其并行運(yùn)算能力,使得云端AI訓(xùn)練領(lǐng)域至今尚未出現(xiàn)能與NVIDIA GPU分庭抗禮的玩家莫鸭。挑戰(zhàn)這一領(lǐng)域的玩家主要是傳統(tǒng)芯片巨頭和創(chuàng)企闹丐,跨界的科技巨頭有谷歌、百度和華為被因,主要采用的架構(gòu)是通用GPU和ASIC卿拴。
在更注重能耗、時(shí)延氏身、成本巍棱、性價(jià)比等綜合能力的云端AI推理領(lǐng)域,入局的玩家相對(duì)更多爱亡,F(xiàn)PGA和ASIC的優(yōu)勢(shì)相對(duì)高于GPU穴你。擁有全面AI芯片布局的英特爾勢(shì)頭正猛,其他玩家也不遑多讓泊铸,中美幾大互聯(lián)網(wǎng)巨頭基本上全部加入戰(zhàn)局乓收,但部分巨頭的芯片研發(fā)進(jìn)展尚未可知。
關(guān)于提升造芯實(shí)力者侄,多數(shù)半導(dǎo)體巨頭和科技巨頭均選擇了投資愧棋、并購(gòu)和挖芯片大牛的捷徑,從而直接得到成熟芯片團(tuán)隊(duì)的輔助亮哑,快速補(bǔ)足人才和業(yè)務(wù)的空缺罗和。而對(duì)于創(chuàng)企來(lái)說(shuō),獲得投資界青睞的基本都具備兩大因素——富有經(jīng)驗(yàn)的創(chuàng)始團(tuán)隊(duì)和擁有創(chuàng)新技術(shù)的產(chǎn)品核狰,從落地進(jìn)程來(lái)看功哮,我國(guó)芯片創(chuàng)企的步伐可以排在世界前列。
就目前來(lái)看潦擅,絕大多數(shù)AI應(yīng)用仍然依賴于在云端的訓(xùn)練和推理援奢,在訓(xùn)練領(lǐng)域,NVIDIA穩(wěn)固的生態(tài)體系依然是難以撼動(dòng)的一座高山忍捡,在推理領(lǐng)域集漾,更是群雄逐鹿能者勝。隨著AI更加廣泛地落地到各行各業(yè)砸脊,云端AI芯片市場(chǎng)也會(huì)獲得更大的增長(zhǎng)空間具篇,但這篇市場(chǎng)未必容得下這么多的玩家纬霞,資金、器件瓶頸栽连、架構(gòu)創(chuàng)新险领、適配快速改變的AI算法以及構(gòu)建生態(tài)系統(tǒng)都是擺在這些企業(yè)面前的難題。什么是完全適合云端訓(xùn)練和推理的AI芯片形態(tài)秒紧,也尚未出現(xiàn)統(tǒng)一的結(jié)論。
這場(chǎng)前所未有的技術(shù)革命的直接推動(dòng)者汉统,是國(guó)外谷歌微軟Facebook穷歹、國(guó)內(nèi)BAT等互聯(lián)網(wǎng)巨頭以及一眾新生的AI初創(chuàng)企業(yè),而這些公司快速在AI領(lǐng)域開疆辟土的靈魂支柱暂畴,則是提供源源不斷高密度計(jì)算能力的AI硬件提供商段直。
AI硬件應(yīng)用場(chǎng)景通常分為云端和終端,云端主要指大規(guī)模數(shù)據(jù)中心和服務(wù)器溶诞,終端包括手機(jī)坷牛、車載罕偎、安防攝像頭、機(jī)器人等豐富的場(chǎng)景京闰。
無(wú)論是在線翻譯颜及、語(yǔ)音助手、個(gè)性化推薦還是各種降低開發(fā)者使用門檻的AI開發(fā)平臺(tái)蹂楣,但凡需要AI技術(shù)之處俏站,背后都需要云端AI芯片夜以繼日地為數(shù)據(jù)中心提供強(qiáng)大的算力支撐。
根據(jù)NVIDIA在2017年亮出的數(shù)據(jù)痊土,到2020年肄扎,全球云端AI芯片的市場(chǎng)規(guī)模累計(jì)將超過(guò)200億美元,這個(gè)體量龐大的市場(chǎng)已成為各路芯片巨頭虎視眈眈之地赁酝。
NVIDIA通用圖形處理單元(GPGPU)即是乘著深度學(xué)習(xí)的東風(fēng)扶搖直上犯祠,股價(jià)在2015年還是20美元,到2018年10月飆升至292美元酌呆,市值超過(guò)肯德基和麥當(dāng)勞总党,一躍成為AI領(lǐng)域第一股,市值數(shù)十億美元忱脆,坐享風(fēng)光橘匿。
其火箭般的漲勢(shì)驚醒了一眾潛在競(jìng)爭(zhēng)對(duì)手,風(fēng)暴出現(xiàn)在地平線上圈蔬。半導(dǎo)體巨頭英特爾默言、AMD等奮起直追,谷歌杆谓、亞馬遜豺这、百度、華為跨界自研歼虽,還有數(shù)十家新生芯片創(chuàng)企揭竿而起景妻,意圖通過(guò)自研架構(gòu)等方式突破云端AI芯片性能的天花板,重塑這一市場(chǎng)的版圖公垒。
本文將對(duì)云端AI芯片的戰(zhàn)事進(jìn)行全景式復(fù)盤新框,盤點(diǎn)加入戰(zhàn)局的五大半導(dǎo)體巨頭、七大中美科技巨頭和20家國(guó)內(nèi)外芯片創(chuàng)企队魏,看曾經(jīng)締造神話的NVIDIA公般,能否維系它的傳奇帝國(guó)?如今已經(jīng)出現(xiàn)或者正在開發(fā)的新計(jì)算架構(gòu)胡桨,能否適配未來(lái)的算法官帘?哪些企業(yè)更有望在強(qiáng)手如林的競(jìng)爭(zhēng)環(huán)境中生存下來(lái)?
誰(shuí)能主導(dǎo)這場(chǎng)云端AI芯片戰(zhàn)事,誰(shuí)就掌握了將在未來(lái)云計(jì)算和AI市場(chǎng)的戰(zhàn)役中贏得更多話語(yǔ)權(quán)刽虹。
一酗捌、十年押注,AI發(fā)射
一切始于意外涌哲,又絕非一次意外胖缤。
十幾年前,英偉達(dá)(NVIDIA)在經(jīng)歷過(guò)和數(shù)十家對(duì)手的激烈廝殺后阀圾,和AMD成為圖形顯卡領(lǐng)域的兩大霸主哪廓。那時(shí),大多數(shù)NVIDIA員工們初烘,并不知道人工智能(AI)是什么涡真。
彼時(shí),NVIDIA總營(yíng)收規(guī)模約30億美元貌授,其創(chuàng)始人兼CEO黃仁勛做了一個(gè)冒險(xiǎn)的決定——每年為CUDA項(xiàng)目砸5億美元吟因,通過(guò)一系列改動(dòng)和軟件開發(fā),將GPU轉(zhuǎn)化成更通用的計(jì)算工具势嫁,累計(jì)總額近100億美元产歧。
這是一個(gè)極具前瞻性的決定。2006年谨寂,GPU上的通用計(jì)算解決方案CUDA現(xiàn)世猫降,這一技術(shù)為編程人員帶來(lái)越來(lái)越方便的入門體驗(yàn)呵寂,逐漸為NVIDIA GPU積累了強(qiáng)健穩(wěn)固的開發(fā)者生態(tài)脆携。
直到2012年,NVIDIA遇到了深度學(xué)習(xí)的風(fēng)口豌魏。
這一年瞭核,加拿大多倫多大學(xué)教授、機(jī)器學(xué)習(xí)領(lǐng)域泰斗唉私、神經(jīng)網(wǎng)絡(luò)之父Geoffrey Hinton帶領(lǐng)課題組用GPU訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)(CNN)AlexNet绎蒙,一舉拿下ImageNet圖像識(shí)別比賽的冠軍,將AI推到了學(xué)術(shù)界焦點(diǎn)的歷史性拐點(diǎn)捻爷。
GPU并非為深度學(xué)習(xí)而生辈灼,其并行計(jì)算能力竟與深度學(xué)習(xí)算法的邏輯一拍即合。每個(gè)GPU有數(shù)千個(gè)內(nèi)核并行也榄,這些核心通常執(zhí)行許多低級(jí)的巡莹、繁復(fù)的數(shù)學(xué)運(yùn)算,非常適合運(yùn)行深度學(xué)習(xí)算法甜紫。
之后降宅,越來(lái)越強(qiáng)的“CUDA+GPU”組合,憑借無(wú)敵的處理速度和多任務(wù)處理能力,迅速俘獲一大批研究人員們的芳心腰根,很快就成為全球各大數(shù)據(jù)中心和云服務(wù)基礎(chǔ)設(shè)施的必備組件激才。
巨頭們的云端AI芯片之戰(zhàn),悄然拉開序幕额嘿。
二瘸恼、芯片巨頭鏖戰(zhàn)云端:NVIDIA獨(dú)霸,英特爾AMD奮起
起步早加上生態(tài)穩(wěn)健册养,NVIDIA很快就成為云端AI芯片市場(chǎng)的領(lǐng)導(dǎo)者钞脂。
NVIDIA在通往更強(qiáng)的道路上一往無(wú)前,陸續(xù)展示令人驚嘆的Tensor Core湖生、NVSwitch等技術(shù)狡煎,不斷打造新的性能標(biāo)桿。此外澳敞,它還構(gòu)建了GPU云瞧纹,使得開發(fā)者隨時(shí)可以下載新版的深度學(xué)習(xí)優(yōu)化軟件堆棧容器,極大程度上降低了AI研發(fā)與應(yīng)用的門檻宴宠。
就這樣澳券,NVIDIA靠時(shí)間、人才和技術(shù)的積累碾危,壘起了堅(jiān)不可摧的城墻乎渊。想要城池者,無(wú)不需要遵循NVIDIA指定的法則丛铅。截至今日崩蚀,NVIDIA的工程師軍團(tuán)已逾萬(wàn)人,其GPU+CUDA計(jì)算平臺(tái)是迄今為止成熟的AI訓(xùn)練方案壤趴,吞食掉絕大多數(shù)訓(xùn)練市場(chǎng)的蛋糕涎拉。
從功能來(lái)看,云AI芯片主要在做兩件事:訓(xùn)練(Training)和推理(Inference)的圆。
訓(xùn)練是把海量數(shù)據(jù)塞給機(jī)器鼓拧,通過(guò)反復(fù)調(diào)整AI算法,使其學(xué)習(xí)掌握特定的功能越妈。這個(gè)過(guò)程需要極高的計(jì)算性能季俩、精度和通用性。
推理則是將訓(xùn)練好的模型拿來(lái)應(yīng)用梅掠,它的參數(shù)已經(jīng)固化酌住,也不需要海量數(shù)據(jù),對(duì)性能瓤檐、精度和通用性的要求沒有訓(xùn)練那么高赂韵。
GPU在訓(xùn)練市場(chǎng)的是一座難以翻越的高山娱节,但在對(duì)功耗要求更高的推理市場(chǎng),它的優(yōu)勢(shì)相對(duì)沒那么明顯祭示。
而這里肄满,也是入局偏晚的半導(dǎo)體巨頭們聚集的方向。
1质涛、GPU:NVIDIA贏者通吃拭兢,AMD搶壘7nm
芯片是贏者通吃的市場(chǎng),云端AI芯片亦不例外胯炊,NVIDIA為加速數(shù)據(jù)中心應(yīng)用推出的高中低端通用GPU孟掺,一直是各路玩家參考的性能標(biāo)桿。
NVIDIA在短時(shí)間內(nèi)投入數(shù)十億美元?jiǎng)佑脭?shù)千工程師回东,于2016年推出了第一個(gè)專為深度學(xué)習(xí)優(yōu)化的Pascal GPU喂搬。2017年,它又推出了性能相比Pascal提升5倍的新GPU架構(gòu)Volta成吓,神經(jīng)網(wǎng)絡(luò)推理加速器TensorRT 3也同期亮相熙拐。
在新季度財(cái)報(bào)中,NVIDIA數(shù)據(jù)中心收入同比增長(zhǎng)58%至7.92億美元切咸,占公司總收入的近25%搏翎,在過(guò)去的四個(gè)季度中總共達(dá)到了28.6億美元。如果它能夠保持這種增長(zhǎng)玲崩,預(yù)計(jì)2019年的數(shù)據(jù)中心將達(dá)到約45億美元吸辽。
和NVIDIA在GPU領(lǐng)域長(zhǎng)期相爭(zhēng)的AMD,亦在積極地推進(jìn)對(duì)AI加速計(jì)算的研發(fā)盟步。2016年12月藏斩,AMD宣布主打AI與深度學(xué)習(xí)的加速卡計(jì)劃——Radeon Instinct。
說(shuō)起來(lái)址芯,AMD在深度學(xué)習(xí)領(lǐng)域的起步離不開中國(guó)公司的支持灾茁。百度是第一家在數(shù)據(jù)中心采用AMD Radeon Instinct GPU的中國(guó)公司窜觉,后來(lái)阿里巴巴也跟AMD簽了合同谷炸。
目前AMD的GPU仍然至少落后于NVIDIA的一代Tesla V100,不過(guò)在NVIDIA新招未發(fā)之時(shí)禀挫,AMD率先在其Next Horizon會(huì)議上宣布推出7nm GPU旬陡,名為Radeon Instinct MI60,內(nèi)存帶寬高達(dá)1 TB /秒语婴,并聲稱其7nm GPU通過(guò)AMD Infinity Fabric link等技術(shù)描孟,成為世界上快的雙精度加速器,可以提供高達(dá)7.4 TFLOPS的浮點(diǎn)性能砰左。
除了提供GPU芯片匿醒,AMD也在通過(guò)推出ROCm開放軟件平臺(tái)等方式構(gòu)建更強(qiáng)大的開源機(jī)器學(xué)習(xí)生態(tài)系統(tǒng)场航。
雖說(shuō)GPU暫時(shí)還抗不過(guò)NVIDIA,不過(guò)AMD有自己獨(dú)特的優(yōu)勢(shì)抢妈。AMD既有GPU又有CPU呼笨,可以在其GPU與CPU間用Infinity Fabric實(shí)現(xiàn)無(wú)縫連接,而英特爾至強(qiáng)處理器+NVIDIA GPU就很難做到這樣的完美連接栖俐。
同樣扎在GPU市場(chǎng)安營(yíng)扎寨的還有Imagination Technologies肪吁,只不過(guò)它長(zhǎng)期深耕于移動(dòng)GPU。從2017年到2018年肥寺,Imagination宣布了三款新的PowerVR圖形處理單元(GPU)获踏,主打AI終端市場(chǎng)。
在去年年底糯敢,Imagination高管在接受采訪時(shí)透露行贤,Imagination可能會(huì)宣布推出面向AI訓(xùn)練的GPU。
2瞎弥、FPGA:賽靈思打出創(chuàng)新牌垢蔑,英特爾“買”出全套大禮包
在AI推理的應(yīng)用當(dāng)中,F(xiàn)PGA相較專用集成電路(ASIC)具有靈活可編程的優(yōu)勢(shì)涡写,它們可以針對(duì)特定的工作進(jìn)行即時(shí)重新配置菩擦,比GPU功耗更低。
▲處理器的靈活性與性能差異
FPGA領(lǐng)域的老大老二常年是賽靈思和英特爾Altera搅窿,面對(duì)新興的AI市場(chǎng)嘁酿,體內(nèi)的創(chuàng)新基因亦是躍躍欲試。
賽靈思即將上線的大殺器叫Versal男应,這是業(yè)界自適應(yīng)計(jì)算加速平臺(tái)(Adaptive Compute Acceleration Platform 闹司,ACAP),采用臺(tái)積電7nm工藝沐飘,集成了AI和DSP引擎游桩,其軟硬件均可由開發(fā)者進(jìn)行編程和優(yōu)化。
這一殺器用了4年的時(shí)間來(lái)打磨耐朴,據(jù)稱Versal AI Core的AI推斷性能預(yù)計(jì)比業(yè)領(lǐng)先的GPU提升8倍借卧。按照此前賽靈思釋放的消息,Versal將在今年發(fā)貨筛峭。
有業(yè)內(nèi)人士認(rèn)為铐刘,Versal系列可能會(huì)改變AI推理市場(chǎng)。
如果說(shuō)NVIDIA打開AI的大門影晓,靠的是天然契合的基因镰吵,那么英特爾則是靠“買買買”的捷徑,快速躋身云AI芯片的前排捉瘟。作為幾十年的半導(dǎo)體霸主旁班,英特爾一出手目標(biāo)就是成為“全才”蔑誓。
眾所周知,英特爾屹立不倒的王牌是至強(qiáng)處理器职菜。至強(qiáng)處理器猶如一個(gè)智慧超群的軍師焚痰,運(yùn)籌帷幄,能處理各種任務(wù)羔辉,但如果你讓他去鑄造兵器盯萄,他的效率則完全比不過(guò)一個(gè)頭腦簡(jiǎn)單但有一身蠻力的武夫。
因此睁衰,面對(duì)擁有大量重復(fù)性簡(jiǎn)單運(yùn)算的AI用牲,讓至強(qiáng)處理器去處理此類任務(wù)既是大材小用,結(jié)果又很低效蝴趾。英特爾的做法是給至強(qiáng)處理器搭配加速器勋酿。
沒有做AI加速器的技術(shù)背景怎么辦?英特爾大筆一揮愿味,直接買博个!
2015年12月,英特爾砸下167億美元買走當(dāng)時(shí)的可編程邏輯器件(FPGA)的前年老二Altera功偿,如今英特爾憑著“Xeon+Altera FPGA”異構(gòu)芯片的打法盆佣,將數(shù)據(jù)中心某些任務(wù)提速十倍有余。
尤其是近一年來(lái)械荷,英特爾對(duì)FPGA的加碼肉眼可見共耍。前兩年,英特爾陸續(xù)推出號(hào)稱是史上最快FPGA芯片的Stratix 10系列吨瞎,這一系列獲得了微軟的青睞痹兜。
微軟推出基于英特爾Stratix 10 FPGA的云端解決方案Project Brainwave,稱其運(yùn)行速度達(dá)39.5 TFLOPS颤诀,延遲不足1 ms字旭。
除了Stratix 10 FPGA芯片外,英特爾先是去年12月在重慶落戶了其全球最大的FPGA創(chuàng)新中心崖叫,后又在今年4月亮出被悄然打磨了數(shù)年的新武器——全新架構(gòu)的FPGA Agilex遗淳,集成了英特爾先進(jìn)的10nm工藝、3D封裝归露、第二代HyperFlex等多種創(chuàng)新技術(shù)佳抗。
英特爾的FPGA已經(jīng)在服務(wù)器市場(chǎng)初步站穩(wěn)腳跟,而另一項(xiàng)重要的交易還處于蟄伏期种烫。
2016年8月,英特爾花了三四億美元買下專注于打造深度學(xué)習(xí)專用于硬件的加州創(chuàng)企Nervana墅失,收購(gòu)后不久鼻御,前Nervana CEO就被晉升為英特爾AI事業(yè)部總負(fù)責(zé)人揭轰,采用臺(tái)積電28nm工藝的深度學(xué)習(xí)專用芯片Lake Crest在2018年量產(chǎn),并宣稱性能是當(dāng)時(shí)快的GPU的10倍贰筹。
2018年5月少炎,英特爾全新云AI芯片Nervana神經(jīng)網(wǎng)絡(luò)處理器(Nervana Neural Network Processors,NNP)——Spring Crest正式亮相前挡,據(jù)稱其功耗小于210瓦峡审,訓(xùn)練性能比Lake Crest提升3-4倍,將于2019年下半年向用戶開放屎谆。
對(duì)于云端AI芯片推理拨聚,英特爾在拉斯維加斯舉行的CES上透露,它正在與Facebook就Nervana神經(jīng)網(wǎng)絡(luò)處理器NNP-I的推理版本密切合作琐览。NNP-I將是一個(gè)片上系統(tǒng)(SoC)丑瞧,內(nèi)置英特爾10nm晶體管,并將包括IceLake x86內(nèi)核蜀肘。
對(duì)比谷歌的TPU來(lái)看绊汹,英特爾人工智能事業(yè)群(AIPG)副總裁、Nervana團(tuán)隊(duì)核心成員Carey Kloss認(rèn)為TPU 2.0類似于Lake Crest扮宠,TPU 3.0類似于Spring Crest西乖。
3、新晉入局者:終端芯片巨頭高通
在移動(dòng)芯片領(lǐng)域如日中天的高通坛增,也剛剛舉起進(jìn)軍云計(jì)算和超算領(lǐng)域的敲門磚浴栽。
今年4月,高通宣布推出Cloud AI 100加速器轿偎,將高通的技術(shù)拓展至數(shù)據(jù)中心典鸡,預(yù)計(jì)將于2019年下半年開始向客戶出樣。
據(jù)悉坏晦,這款加速器基于高通在信號(hào)處理和功效方面的技術(shù)積累萝玷,專為滿足急劇增長(zhǎng)的云端AI推理處理的需求而設(shè)計(jì),可以讓分布式智能從云端遍布至用戶的邊緣終端昆婿,以及云端和邊緣終端之間的全部節(jié)點(diǎn)立骄。
高通產(chǎn)品管理高級(jí)副總裁Keith Kressin稱:“高通CloudAI 100加速器將為當(dāng)今業(yè)界的數(shù)據(jù)中心的AI推理處理器樹立全新標(biāo)桿——無(wú)論是采用CPU、GPU和/或FPGA的哪種組合方式來(lái)實(shí)現(xiàn)AI推理的處理器贞倒。”
此外辨埃,他還介紹說(shuō),高通目前正處在優(yōu)勢(shì)地位支持完整的從云端到邊緣的AI解決方案紫颈,所有的AI解決方案均可與具備高速率和低時(shí)延優(yōu)勢(shì)的5G實(shí)現(xiàn)連接下风。
三、跨界巨頭層出不窮:互聯(lián)網(wǎng)霸主爭(zhēng)上游
相比上面對(duì)云和數(shù)據(jù)中心市場(chǎng)野心勃勃的芯片巨頭們嘁汗,下面這些跨界玩家的心思可就相對(duì)“單純”很多鹤肥。
這些中美互聯(lián)網(wǎng)巨頭的目標(biāo)不是直接與NVIDIA永音、英特爾或AMD競(jìng)爭(zhēng),而是向他們自己的云客戶提供強(qiáng)大的算力冠樱,減少對(duì)傳統(tǒng)芯片制造商的依賴炭箭。
他們自研芯片的選擇也不盡相同,谷歌颠舞、亞馬遜等選擇專用芯片(ASIC)的路線菌司,而微軟等則致力于使用現(xiàn)場(chǎng)可編程門列(FPGA)。
1粤铭、谷歌:專用AI芯片商用開路人
作為開始做AI相關(guān)研發(fā)的科技公司之一挖胃,谷歌亦是試水專用AI芯片的先鋒,驗(yàn)證ASIC可以在深度學(xué)習(xí)領(lǐng)域替代GPU承耿。
谷歌于2016年推出了自己開發(fā)的AI芯片Tensor Processing Unit(TPU)冠骄,現(xiàn)已進(jìn)入第三代,為谷歌的語(yǔ)音助理加袋、谷歌地圖凛辣、谷歌翻譯等各種AI應(yīng)用提供算力支撐。最初設(shè)計(jì)的TPU用于深度學(xué)習(xí)的推理階段职烧,而新版本已經(jīng)可以用于AI訓(xùn)練扁誓。
谷歌聲稱,使用32種好的商用GPU訓(xùn)練機(jī)器翻譯系統(tǒng)需要一天的時(shí)間蚀之,相同的工作量需要在8個(gè)連接的TPU上花費(fèi)6個(gè)小時(shí)蝗敢。
谷歌目前只在自己的數(shù)據(jù)中心內(nèi)運(yùn)營(yíng)這種設(shè)備,沒有對(duì)外出售足删。不過(guò)谷歌表示將允許其他公司通過(guò)其云計(jì)算機(jī)服務(wù)購(gòu)買其TPU芯片寿谴。
谷歌TPU在谷歌對(duì)外服務(wù)的市場(chǎng)是有限制的,TPU只能用與和運(yùn)行Google TensorFlow AI框架搜痕,用戶無(wú)法使用它們來(lái)訓(xùn)練或運(yùn)行使用Apache MxNet或Facebook的PyTorch構(gòu)建的AI细咽,也不能將它們用于GPU占據(jù)著至高無(wú)上地位的非AI HPC應(yīng)用程序中。
但谷歌對(duì)此表示滿意绍撇,因?yàn)樗鼘PU和TensorFlow視為其全面的AI領(lǐng)導(dǎo)力的戰(zhàn)略尘忿。針對(duì)其軟件進(jìn)行了優(yōu)化的軟件針對(duì)其軟件進(jìn)行了優(yōu)化,可以構(gòu)建強(qiáng)大而耐用的平臺(tái)督垮。
今年開年的新消息是谷歌在印度班加羅爾成立了新的芯片團(tuán)隊(duì)gChips屡拥,并從英特爾、高通影啸、博通和NVIDIA等傳統(tǒng)芯片公司那里大舉招兵買馬剩骏,至少招募了16名技術(shù)老兵。
2、內(nèi)部商用在即:微軟FPGA衣夏、百度昆侖與華為昇騰
去年5月扭享,微軟AI芯片Brainwave開放云端測(cè)試版坠行,稱Project Brainwave計(jì)算平臺(tái)使用的FPGA芯片為實(shí)時(shí)AI而設(shè)計(jì)匙蚣,比谷歌使用的TPU芯片處理速度快上了5倍(微軟AI芯片Brainwave開放云端試用版 比TPU快5倍)。微軟Azure執(zhí)行副總裁Jason Zander還曾表示改艇,微軟Azure實(shí)際上設(shè)計(jì)了許多自研芯片收班,用于數(shù)據(jù)中心。
不得不承認(rèn)谒兄,國(guó)內(nèi)科技巨頭給芯片起名字摔桦,那文化水平高出國(guó)外不止一個(gè)Level。
百度給云端AI芯片命名的“昆侖”是中國(guó)第一神山承疲,相傳這座山的先主邻耕,被古人尊為“萬(wàn)山之宗”、“龍脈之祖”燕鸽,嫦娥奔月兄世、西游記、白蛇傳等家喻戶曉的神話傳說(shuō)都與此山有所關(guān)聯(lián)啊研。
華為云端AI芯片的“昇騰”則取超脫塵世御滩、上升、器宇軒昂之義党远,頗受文人墨客的喜愛削解。
百度和華為都是國(guó)內(nèi)早早跨界造芯的科技公司。早在2017年8月蒸败,百度就在加州Hot Chips大會(huì)上發(fā)布了一款256核圾恐、基于FPGA的云計(jì)算加速芯片,合作伙伴是賽靈思雅沽。華為做芯片就更早了擂椎,2004年就成立半導(dǎo)體公司海思,只不過(guò)以前都是做終端的芯片解決方案泡缠。
2018年下半年趟蛋,以它們?yōu)榇淼男乱惠喸煨緞?shì)力吹響了中國(guó)云端AI芯片沖鋒的號(hào)角。
百度是國(guó)內(nèi)較早試水造芯的科技巨頭鼎示,早在2010年就開始用FPGA做AI架構(gòu)的研發(fā)同嚷,2011年開展小規(guī)模部署上線,2015年打破幾千片的部署規(guī)模虫店,2017年部署超過(guò)了10000片F(xiàn)PGA甫知,百度內(nèi)部數(shù)據(jù)中心、自動(dòng)駕駛系統(tǒng)等都在大規(guī)模使用。
2017年8月诡蜓,百度發(fā)布了一款256核熬甫、基于FPGA的XPU芯片,這款是和賽靈思合作的蔓罚,核心很小椿肩,沒有緩存或操作系統(tǒng),效率與CPU相當(dāng)豺谈。
隨后在2018年7月舉辦的百度AI開發(fā)者大會(huì)上郑象,百度宣布當(dāng)時(shí)業(yè)內(nèi)的算力最高的AI芯片——昆侖。
參數(shù)方面茬末,昆侖芯片由三星代工厂榛,采用14nm工藝,內(nèi)存帶寬達(dá)512GB/s丽惭,核心有數(shù)萬(wàn)個(gè)击奶,能在100W以上的功耗提供260 TOPS的算力。
以NVIDIA最新圖靈(Turing)架構(gòu)的T4 GPU為對(duì)比责掏,T4最大功耗為70W柜砾,能提供的最高算力也是260 TOPS,但這款GPU比昆侖芯片的發(fā)布晚了2個(gè)月拷橘,并且初期并沒有在中國(guó)開售脖耽。百度主任架構(gòu)師歐陽(yáng)劍在今年的AI芯片創(chuàng)新峰會(huì)上透露,今年“昆侖”會(huì)在百度內(nèi)部大規(guī)模使用拨臂。
華為的云端AI芯片昇騰910更是直接在發(fā)布現(xiàn)場(chǎng)和NVIDIA與谷歌正面PK京多。昇騰910直接用起了先進(jìn)的7nm工藝,采用華為自研的達(dá)芬奇架構(gòu)基际,最大功耗350W痛慷。華為打的旗號(hào)是截止到發(fā)布日期“單芯片計(jì)算密度最大的芯片”,半精度(FP16)運(yùn)算能力達(dá)到256 TFLOPS袍砚,比NVIDIA V100的125 TFLOPS足足高了一倍樱炬。
徐直軍甚至表示,假設(shè)集齊1024個(gè)昇騰910,會(huì)出現(xiàn)“迄今為止全球最大的AI計(jì)算集群,性能達(dá)到256P锋恬,不管多么復(fù)雜的模型都能輕松訓(xùn)練杰泡。”這個(gè)大規(guī)模分布式訓(xùn)練系統(tǒng)憎瘸,名為“Ascend Cluster”。
落地方面,百度 稱其昆侖將于今年年內(nèi)在百度數(shù)據(jù)中心大規(guī)模使用,華為的昇騰910原計(jì)劃在今年Q2上市解滓,現(xiàn)在在貿(mào)易戰(zhàn)的背景之下,不知道會(huì)不會(huì)延遲。
3洼裤、神秘主義:亞馬遜邻辉、阿里與臉書
作為中美云計(jì)算市場(chǎng)的龍頭,阿里巴巴和亞馬遜雖然稍微遲到腮鞍,但絕對(duì)不會(huì)缺席值骇。
兩家的研發(fā)目的都很明確,是為了解決圖像缕减、視頻識(shí)別雷客、云計(jì)算等商業(yè)場(chǎng)景的AI推理運(yùn)算問(wèn)題芒珠,提升運(yùn)算效率桥狡、降低成本。
阿里巴巴達(dá)摩院去年4月宣布皱卓,Ali-NPU性能將是現(xiàn)在市面上主流CPU裹芝、GPU架構(gòu)AI芯片的10倍,制造成本和功耗僅為一半娜汁,性價(jià)比超40倍臀匹。同月,阿里全資收購(gòu)大陸唯一的自主嵌入式CPU IP核公司中天微油后。
新進(jìn)展發(fā)生在9月挠站,阿里將中天微與達(dá)摩院自研芯片業(yè)務(wù)合并,整合成一家芯片公司平頭哥容书。研發(fā)Ali-NPU的重任由平頭哥接棒恃藐,首批AI芯片預(yù)計(jì)2019年下半年面世,將應(yīng)用在阿里數(shù)據(jù)中心藤棕、城市大腦和自動(dòng)駕駛等云端數(shù)據(jù)場(chǎng)景中自拖。未來(lái)將通過(guò)阿里云對(duì)外開放使用。
在模擬驗(yàn)證測(cè)試中朴树,這款芯片的原型讓鋪設(shè)阿里城市大腦的硬件成本節(jié)約了35%宏查。但此后,阿里幾乎未再發(fā)出相關(guān)進(jìn)展的聲音榨惭。
亞馬遜的云AI芯片Inferentia是去年11月在拉斯維加斯舉行的re:Invent大會(huì)上公布的骡拐。
這款芯片的技術(shù)源頭要追溯到亞馬遜在2015年初花費(fèi)3.5億美元收購(gòu)的以色列芯片公司Annapurna Labs。按照介紹忿项,每個(gè)Inferentia芯片提供高達(dá)幾百TOPS的算力蓉冈,多個(gè)AWS Inferentia芯片可形成成千上萬(wàn)的TOPS算力。該芯片仍在開發(fā)中倦卖,按預(yù)告洒擦,這款芯片將于2019年底上市。
Facebook的造芯計(jì)劃浮出水面的很早,但卻是信息曝光少的玩家熟嫩。
除了買下相對(duì)成熟的芯片公司外秦踪,招兵買馬也是常備之選。Facebook的造芯計(jì)劃在去年4月初露端倪掸茅,上發(fā)布了招聘ASIC&FPGA設(shè)計(jì)工程師的廣告椅邓,用于組建芯片團(tuán)隊(duì)。3個(gè)月后昧狮,美媒彭博社報(bào)道稱景馁,F(xiàn)acebook挖走谷歌高級(jí)工程師主管Shahriar Rabii擔(dān)任副總裁兼芯片負(fù)責(zé)人。
Facebook首席人工智能科學(xué)家逗鸣、新圖靈獎(jiǎng)獲得者Yann LeCun在接受采訪時(shí)透露合住,其造芯主要是未來(lái)滿足對(duì)網(wǎng)站進(jìn)行實(shí)時(shí)視頻監(jiān)控的需求。
而等到今年1月時(shí)特与,英特爾在全球消費(fèi)電子展(CES)上表示释何,正與Facebook合作開發(fā)一款新的AI芯片,用于加速推理注括,并力爭(zhēng)在今年下半年開發(fā)完成坯肿。
不過(guò)迄今為止,外界對(duì)Facebook AI芯片的性能信息一無(wú)所知蝴车。
四蔗承、新秀迭出:國(guó)內(nèi)創(chuàng)企搶先落地,國(guó)外創(chuàng)企醞釀大招
AI的復(fù)興顛覆了以往由英特爾蛹协、AMD主瘸、高通等芯片公司carry全產(chǎn)業(yè)的穩(wěn)定局面,為新的一批芯片創(chuàng)業(yè)者創(chuàng)造了機(jī)會(huì)淑停。
一些初創(chuàng)公司希望從頭開始創(chuàng)建一個(gè)新平臺(tái)孝摘,一直到硬件,專門針對(duì)AI操作進(jìn)行優(yōu)化锰抡。希望通過(guò)這樣做妻往,它能夠在速度,功耗试和,甚至可能是芯片的實(shí)際尺寸方面超越GPU讯泣。
1、中國(guó)創(chuàng)企:比特大陸寒武紀(jì)領(lǐng)銜阅悍,依圖智能密度超NVIDIA
先說(shuō)國(guó)內(nèi)做云端AI芯片創(chuàng)企好渠,其中耀眼的當(dāng)屬比特大陸和中科寒武紀(jì)。
比特大陸作為礦機(jī)芯片老大業(yè)界聞名节视,但在過(guò)去一年的比特幣大退潮中拳锚,比特大陸首當(dāng)其沖陷入輿論漩渦假栓,上市計(jì)劃未能如期實(shí)現(xiàn)。
這家2013年成立的公司霍掺,在2015年就啟動(dòng)AI芯片業(yè)務(wù)匾荆。繼2017年推出第一代28nm云端AI芯片產(chǎn)品BM1680后,它在2018年第一季度發(fā)布第二代BM1682杆烁,迭代時(shí)間僅9個(gè)月牙丽。
按照比特大陸去年公布的造芯計(jì)劃,12nm的云端芯片BM1684應(yīng)在2018年年底推出兔魂,BM1686將在2019年推出郑舷,很可能采用7nm制程,不過(guò)這兩款芯片都姍姍來(lái)遲锌拱。
和比特大陸一樣同時(shí)發(fā)力云端和終端芯片的還有AI小芯片獨(dú)角獸中科寒武紀(jì)肘鹅。
寒武紀(jì)曾因嵌在華為手機(jī)AI芯片中麒麟970中的神經(jīng)網(wǎng)絡(luò)處理器(NPU)成功打響知名度,成為國(guó)內(nèi)外AI芯片創(chuàng)企中的當(dāng)紅炸子雞陷母,在經(jīng)歷A贷营、B兩輪融資后,整體估值約25億美元(約170多億人民幣)尿欲。
2018年5月,寒武紀(jì)正式發(fā)布第一代云AI芯片MLU100牡呀,據(jù)稱可以以更低的功率提供比NVIDIA V100更好的性能溜舷。其客戶科大訊飛曾披露測(cè)試結(jié)果,稱MLU100芯片在語(yǔ)音智能處理的能耗效率領(lǐng)先國(guó)際競(jìng)爭(zhēng)對(duì)手的云端GPU方案5倍以上轧黑。
一年后开摄,其第二代云端AI芯片思元270芯片未發(fā)先熱,部分性能被知乎網(wǎng)友曝光且昭,峰值性能和功耗都基本與NVIDIA Tesla T4基本持平邦马,業(yè)內(nèi)傳聞寒武紀(jì)可能在低精度訓(xùn)練領(lǐng)域有所突破。該芯片不出意外地話將于近期發(fā)布宴卖。
欲對(duì)標(biāo)NVIDIA和谷歌的創(chuàng)企不止于此滋将。
令人稍感意外的玩家是國(guó)內(nèi)計(jì)算機(jī)視覺(CV)四小龍之一依圖科技。今年5月症昏,依圖發(fā)布了與AI芯片創(chuàng)企熠知電子(ThinkForce)聯(lián)合開發(fā)的云端AI芯片求索questcore随闽。
熠知電子是一家低調(diào)但不容小覷的上海AI芯片創(chuàng)企,于2017年獲依圖科技肝谭、云鋒基金掘宪、紅杉資本、高瓴資本的4.5億元人民幣A輪融資攘烛。其核心成員來(lái)自IBM魏滚、AMD镀首、英特爾、博通鼠次、Cadence等半導(dǎo)體巨頭蘑斧,均有十年以上的芯片行業(yè)從業(yè)經(jīng)歷。
這款云端深度學(xué)習(xí)推理定制化SoC芯片采用16nm制程和擁有自主知識(shí)產(chǎn)權(quán)的ManyCore架構(gòu)卢操,據(jù)稱最高能提供每秒15 TOPS的視覺推理性能堡喳,僅針對(duì)INT 8數(shù)據(jù)(8 位整數(shù)數(shù)據(jù)類型)進(jìn)行加速,最大功耗僅20W企奔,比一個(gè)普通的電燈泡還小祸播。
依圖表示,開發(fā)這款芯片不是想追求NVIDIA那樣幾百個(gè)T的算力妖奕,而是看重高計(jì)算密度遭唠。
和前述的跨界科技巨頭們一樣,依圖芯片商用的第一步也是結(jié)合其自身軟硬件和解決方案打包出售窄栓,不會(huì)單獨(dú)售賣颊姻,第二、三代產(chǎn)品也都在籌備中笙亿。
上海的熱門造芯新勢(shì)力還有燧原科技矫恳。它可以說(shuō)是國(guó)內(nèi)年輕的AI芯片造芯者,2018年3月成立炕烈,獲得由騰訊領(lǐng)投的3.4億元人民幣Pre-A輪融資刮赵,主攻云端AI加速芯片及相關(guān)軟件生態(tài)的研發(fā)投入。這是騰訊第一次投資國(guó)內(nèi)AI芯片創(chuàng)企皱坛。
燧原科技的創(chuàng)始團(tuán)隊(duì)主要來(lái)自于AMD编曼,其創(chuàng)始人趙立東此前曾任職于 AMD 中國(guó),后又赴銳迪科(現(xiàn)與展訊合并為紫光展銳)任職總裁剩辟。
2019年6月6日掐场,燧原科技宣布新一輪3億元人民幣融資,由紅點(diǎn)創(chuàng)投中國(guó)基金領(lǐng)投贩猎,海松資本熊户、騰訊等投資。其深度學(xué)習(xí)高端芯片的神秘面紗尚未揭開融欧。
和前幾位玩家不同的是敏弃,天數(shù)智芯和登臨科技選擇的是直接與NVIDIA對(duì)標(biāo)的通用GPU(GPU)。
在國(guó)內(nèi)噪馏,尚無(wú)能與NVIDIA分庭抗禮的GPGPU公司麦到,這對(duì)創(chuàng)企而言是個(gè)值得切入的機(jī)會(huì)。
兩家公司的造芯陣容都很成熟欠肾,天數(shù)智芯的硬件團(tuán)隊(duì)基于AMD在上海和硅谷的GPU團(tuán)隊(duì)瓶颠,登臨科技的創(chuàng)始團(tuán)隊(duì)也是在GPU行業(yè)多年的老將拟赊。
目前天數(shù)智芯的高中低端GPGPU產(chǎn)品都在研發(fā)中,其高端芯片Big Island將同時(shí)支持云端推理和訓(xùn)練捅青。登臨科技的GPGPU處理器也已通過(guò)FPGA驗(yàn)證蹲瘩,第一代產(chǎn)品Goldwasser的設(shè)計(jì)已完成,計(jì)劃在今年年底前可供客戶測(cè)試使用豺孤。
還有一家創(chuàng)企名為龍加智架揉,創(chuàng)立于2017年7月,由摯信資本和翊翎資本領(lǐng)投凌秩,致力于研發(fā)TPU芯片浦砸。
為了滿足對(duì)低時(shí)延、高可靠性和數(shù)據(jù)安全的需求段许,龍加智推出新的芯片類型關(guān)鍵任務(wù)芯片 (Mission-Critical AI Processor)毯旷,第一代芯片命名Dino-TPU,先應(yīng)用于云端數(shù)據(jù)中心驹毁,算力超過(guò)除新款Nvidia Volta之外的所有GPU选癣,時(shí)延僅為Volta V100的1/10,功耗為75W廊席,且獨(dú)具冗余備份和數(shù)據(jù)安全保障杰刽。
按照龍加智的開發(fā)計(jì)劃,公司計(jì)劃于 2018 年底完成第一款芯片的流片堆生。
2专缠、美國(guó)創(chuàng)企:Wave 7nm芯片推出在即,Cerebras仍處于秘密模式
在大洋彼岸淑仆,美國(guó)多家AI芯片創(chuàng)企也瞄準(zhǔn)了云與計(jì)算中心市場(chǎng)。
一家去年存在感較強(qiáng)的企業(yè)是Wave Computing哥力。這家創(chuàng)企去年收購(gòu)了老芯片IP供應(yīng)商MIPS蔗怠,還推出MIPS開放計(jì)劃。它的累計(jì)融資達(dá)到1.17億美元吩跋。
它的核心產(chǎn)品叫其數(shù)據(jù)流處理器單元(DPU)寞射,采用非馮諾依曼(von Neumann)架構(gòu)的軟件可動(dòng)態(tài)重構(gòu)處理器CGRA(Coarse grain reconfigurable array/accelerator)技術(shù),適用于大規(guī)模異步并行計(jì)算問(wèn)題锌钮。
其主要優(yōu)勢(shì)是使得硬件更加靈活地適配于軟件桥温,在可編程性(或通用性)和性能方面達(dá)到很好的綜合平衡,降低AI芯片開發(fā)門檻梁丘,不會(huì)受到GPU等加速器中存在的內(nèi)存瓶頸的影響侵浸。
Wave的第一代DPU采用16nm制程工藝,以6 GHz以上的速度運(yùn)行到趴,已經(jīng)落地商用林乍。據(jù)其高級(jí)副總裁兼CTO Chris Nicol介紹宙锡,新一代7nm DPU將引入MIPS技術(shù),并采用高帶寬內(nèi)存HBM(High Band Memory)戒腔,預(yù)計(jì)在明年發(fā)布狐昆。
還有一家十分神秘的創(chuàng)企Cerebras System,它于2016年在美國(guó)加利福尼亞創(chuàng)辦掸枉。即便它至今未發(fā)布任何產(chǎn)品八领,這并不妨礙它常常被與芯片巨頭們相提并論。
Cerebras的創(chuàng)始團(tuán)隊(duì)大多來(lái)自芯片巨頭AMD磷妻。其聯(lián)合創(chuàng)始人兼首席CEO安德魯·費(fèi)爾德曼(Andrew Feldman)此前曾創(chuàng)辦SeaMicro鼠灼,這是一家低功耗服務(wù)器制造商,在2012年被AMD以3.34億美元收購(gòu)掷雪。此后将遮,費(fèi)爾德曼花了兩年半的時(shí)間爬上了AMD的副總裁之位。
在三輪融資中肌坑,Cerebras籌集了1.12億美元近弟,其估值已飆升至高達(dá)8.6億美元。如今挺智,Cerebras仍處于秘密模式祷愉,據(jù)相關(guān)人士透露,其硬件將為“訓(xùn)練”深度學(xué)習(xí)算法量身定制赦颇。
▲Cerebras使用深度學(xué)習(xí)加速器進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練和推理專利
2017年4月成立的Groq創(chuàng)始團(tuán)隊(duì)更是搶眼二鳄,來(lái)自谷歌TPU十人核心團(tuán)隊(duì)中的8人。這家創(chuàng)企一出場(chǎng)就雄心勃勃媒怯,顯示器芯片算力將能達(dá)到400 TOPS订讼。
SambaNova Systems比Groq晚7個(gè)月成立,總部位于加州Palo Alto扇苞,創(chuàng)始人包括兩位斯坦福大學(xué)教授Kunle Olukotun和ChrisRé和一位老牌芯片公司(Sun前任開發(fā)高級(jí)副總裁)高管欺殿。
其A輪融資由谷歌母公司Alphabet的風(fēng)險(xiǎn)投資部門Google Venture(GV)領(lǐng)投,這是GV首次對(duì)人工智能芯片公司進(jìn)行投資鳖敷。今年4月脖苏,英特爾投資宣布向14家科技創(chuàng)業(yè)公司新投資總計(jì)1.17億美元,SambaNova Systems也在名單中定踱。
3盼掘、其他創(chuàng)企:英國(guó)獨(dú)角獸Graphcore受青睞,多數(shù)芯片尚未推出
除了中美外耸颁,其他地域的AI芯片創(chuàng)企也在蓄勢(shì)待發(fā)彰巫。
被看好的是一家資金雄厚的英國(guó)獨(dú)角獸Graphcore,成立于2016年韭赡,估值達(dá)到17億美元挟晒,累計(jì)融資3.12億美元残神。這家創(chuàng)企堪稱巨頭收割機(jī),投資陣容很強(qiáng)大寸快,包括紅杉資本新浦、寶馬、微軟汞阔、博世和戴爾科技笋条。
這家公司打造了一款專為機(jī)器智能工作負(fù)載而設(shè)計(jì)的智能處理單元(IPU),采用支持片上互連和片上存儲(chǔ)企舌,從邊緣設(shè)備擴(kuò)展到用于數(shù)據(jù)中心訓(xùn)練和推理的“Colossus”雙芯片封裝执执。
Graphcore在上如是寫道:我們的IPU系統(tǒng)旨在降低在云和企業(yè)數(shù)據(jù)中心加速AI應(yīng)用程序的成本,與目前最快的系統(tǒng)相比晌姚,將訓(xùn)練和推理的性能提高多達(dá)100倍粤剧。
在去年年底的NeurIPS活動(dòng)中,Graphcore展示了一個(gè)示例配置RackScale IPU-Pod挥唠,包括32個(gè)1U IPU-Machines抵恋,每個(gè)由4個(gè)Colossus GC2 IPU處理器組成,提供500 TFLOPS混合精度計(jì)算宝磨,超過(guò)1.2GB的處理器內(nèi)存以及超過(guò)200TB/s的內(nèi)存帶寬弧关。
另一家2016年成立的以色列創(chuàng)企Habana Labs,在去年9月的AI硬件峰會(huì)上宣布已經(jīng)準(zhǔn)備推出其首款用于推理的AI芯片Goya唤锉,它顯示了在Resnet50圖像分類數(shù)據(jù)庫(kù)中每秒分類15000張圖像的吞吐量世囊,比NVIDIA的T4設(shè)備高出約50%,延遲時(shí)間為1.3ms窿祥,功耗僅為100 W株憾。
其新7500萬(wàn)美元B輪融資(2018年12月)由英特爾風(fēng)險(xiǎn)投資公司領(lǐng)投,資金將部分用于研發(fā)第二款芯片Gaudi晒衩,該芯片將面向訓(xùn)練市場(chǎng)号胚,據(jù)稱訓(xùn)練性能可線性擴(kuò)展到1000多個(gè)處理器。
印度AlphaICs公司也是在2016年成立逊汤,正在設(shè)計(jì)AI芯片并致力于AI 2.0,希望通過(guò)該系列產(chǎn)品實(shí)現(xiàn)下一代AI湘胚。
AlphaICs的一位聯(lián)合創(chuàng)始人之一是有“奔騰芯片之父”稱號(hào)的Vinod Dham啥榜,他與一些年輕的芯片設(shè)計(jì)師們合作打造了可執(zhí)行基于代理的AI協(xié)處理芯片——RAP芯片。
Dham表示虑佳,AlphaICs芯片在處理速度上相較競(jìng)爭(zhēng)對(duì)手更有優(yōu)勢(shì)掏博,并稱當(dāng)前我們看到的大多屬于弱AI,而他們可以被稱之為“強(qiáng)AI”檬鞠。
按照Dham的說(shuō)法伊肿,RAP芯片有望在2019年年中推出肆鸿,“希望為真正的AI創(chuàng)造一個(gè)大爆炸”。
Tenstorrent是位于加拿大多倫多的創(chuàng)企炒耀,由兩位AMD前工程師Ljubisa Bajic和Milos Trajkovic創(chuàng)辦瞳聊,核心團(tuán)隊(duì)大多來(lái)自NVIDIA和AMD,研發(fā)專為深度學(xué)習(xí)和智能硬件而設(shè)計(jì)的高性能處理器名密。
去年早些時(shí)候藏估,這家公司獲得來(lái)自Real Ventures的種子輪投資,不過(guò)至今仍處于秘密模式失驶。
4土居、獨(dú)特戰(zhàn)隊(duì):光子AI芯片
在面向云和數(shù)據(jù)中心領(lǐng)域的硬件勢(shì)力中,一支特別的戰(zhàn)隊(duì)正受到國(guó)內(nèi)外科技巨頭的青睞嬉探,它就是光子AI芯片擦耀。
和常規(guī)芯片不同,這些芯片采用光子電路來(lái)代替電子傳輸信號(hào)涩堤,他們比電子電路擁有更高的傳輸速度眷蜓、更低的延遲和更高的吞吐量。
2016年定躏,MIT研究團(tuán)隊(duì)打造了首個(gè)光學(xué)計(jì)算系統(tǒng)账磺,該成果于2017年以封面文章的形式發(fā)表在頂級(jí)期刊Nature Photonics雜志。正是這篇論文痊远,在全球范圍內(nèi)啟發(fā)更多人投入到光子AI芯片的研發(fā)之中垮抗。
僅是這一MIT團(tuán)隊(duì),就在2017年孵化出Lightelligence和LightMatter兩家美國(guó)公司碧聪。
Lightelligence在2018年2月拿到百度風(fēng)投和和美國(guó)半導(dǎo)體行業(yè)高管1000萬(wàn)美元種子輪融資冒版,LightMatter在2019年2月拿到由谷歌母公司Alphabet旗下的風(fēng)險(xiǎn)投資部門Google Ventures領(lǐng)投的2200萬(wàn)美元B輪融資。
Lightelligence稱光子電路(Photonic Circuits)不僅能在云計(jì)算領(lǐng)域作為CPU的協(xié)處理器加速深度學(xué)習(xí)訓(xùn)練和推理伐页,還能用于要求高效低能耗的網(wǎng)絡(luò)邊緣設(shè)備侈敏。
今年4月,Lightelligence宣布成功開發(fā)出世界第一款光子芯片原型板卡(Prototype)养砾,其光子芯片已與谷歌嫩视、Facebook、AWS质教、BAT級(jí)別的客戶接洽豪荧。
LightMatter同樣重點(diǎn)面向大型云計(jì)算數(shù)據(jù)中心和高性能計(jì)算集群,他們?cè)蛟斐?個(gè)早期的芯片瓦陡,其中一個(gè)芯片包含超過(guò)十一個(gè)晶體管筑陡。
受MIT那篇論文的啟發(fā),2017年,國(guó)內(nèi)第一家光子AI芯片創(chuàng)企光子算數(shù)由來(lái)自由清華大學(xué)辱矮、北京大學(xué)喝爽、北京交通大學(xué)等10所高校的博士生創(chuàng)立。
這家公司在2018年9月獲得天使輪融資愿瘫,據(jù)稱其光子芯片的性能是電子芯片的1000倍年堆,而功耗只有電子芯片的1%。
就在本月罢屈,比爾蓋茨也開始投資AI芯片嘀韧,而且投資的是同樣研發(fā)硅光技術(shù)的Luminous。其他投資者還包括Uber聯(lián)合創(chuàng)始人Travis Kalanick的10100基金缠捌,以及現(xiàn)任Uber CEO Dara Khosrowshahi锄贷。
Luminous目前僅有7位成員,但它的胃口可不小曼月,目標(biāo)是為包含谷歌新的Tensor Processing Unit AI芯片的3000塊電路板創(chuàng)建一個(gè)替代品谊却。它們采用的方法借鑒了其聯(lián)合創(chuàng)始人Mitchell Nahmias在普林斯頓大學(xué)的早期神經(jīng)形態(tài)光子學(xué)工作。
現(xiàn)在這幾家創(chuàng)企共同存在的問(wèn)題是哑芹,不清楚多久能發(fā)布量產(chǎn)的光子AI芯片炎辨,以及這些芯片的實(shí)際應(yīng)用效果能否真正取代電子芯片的位置。
五聪姿、當(dāng)前云端AI芯片主要挑戰(zhàn)
如今切入云AI芯片市場(chǎng)的玩家已經(jīng)有數(shù)十家碴萧,不過(guò)由NVIDIA主導(dǎo)、多家半導(dǎo)體巨頭分食的軟硬件和服務(wù)市場(chǎng)大體格局依然比較穩(wěn)定末购,產(chǎn)生新的格局變動(dòng)絕非一件易事勤消。
1、粥多僧少壕俱,聚攏效應(yīng)明顯
對(duì)于芯片行業(yè)來(lái)說(shuō)源糖,足量的產(chǎn)能至關(guān)重要。
半導(dǎo)體巨頭可以實(shí)現(xiàn)十倍障浅、百倍的產(chǎn)能师晨,而創(chuàng)企很難在創(chuàng)業(yè)初期就做到這一點(diǎn)。現(xiàn)在的創(chuàng)企多為IC設(shè)計(jì)廠商支你,如果他們想要成為像英特爾研神、三星那樣“自給自足”的公司,可能需要花數(shù)十億美元不止旷动。
經(jīng)過(guò)2015-2016年的半導(dǎo)體行業(yè)整合浪潮后囊像,近兩年半導(dǎo)體并購(gòu)潮正在逐漸“退燒”,大公司對(duì)芯片創(chuàng)企的投資或收購(gòu)行動(dòng)會(huì)更加謹(jǐn)慎卡竣。
2、人才爭(zhēng)奪愈演愈烈
云端AI芯片的核心競(jìng)爭(zhēng)力在于人才。
從當(dāng)前市場(chǎng)上較受關(guān)注的云AI芯片公司來(lái)看蝴韭,它們的研究團(tuán)隊(duì)多是在芯片巨頭有超過(guò)十年從業(yè)經(jīng)歷的行業(yè)老兵够颠,而且往往有帶頭研發(fā)出相關(guān)成功產(chǎn)品的經(jīng)驗(yàn)。
無(wú)論是半導(dǎo)體巨頭還是跨界造芯的科技巨頭榄鉴,基本上都在走兩種路徑履磨,一是投資并購(gòu)成熟的芯片公司,另一種就是從挖走其他大公司的芯片高管庆尘。
3剃诅、創(chuàng)新難+落地難
英特爾研究院院長(zhǎng)宋繼強(qiáng)曾經(jīng)向智東西表示,AI芯片的未來(lái)一定是多樣化驶忌,不同種類的產(chǎn)品滿足不同功耗矛辕、尺寸、價(jià)錢的要求付魔,AI一場(chǎng)馬拉松聊品,現(xiàn)在這場(chǎng)比賽才剛剛開始。
現(xiàn)階段几苍,入局云AI芯片領(lǐng)域的絕大多數(shù)巨頭和創(chuàng)企都在打創(chuàng)新的招牌翻屈,包括創(chuàng)新的架構(gòu)、存儲(chǔ)技術(shù)以及硅光技術(shù)等妻坝。
由于對(duì)推動(dòng)深度學(xué)習(xí)的新型計(jì)算資源的需求激增奋肄,許多人認(rèn)為這是初創(chuàng)企業(yè)從巨頭和投資機(jī)構(gòu)手中爭(zhēng)取資金的難得機(jī)會(huì)。
盡管玩家正在增多折扮,打出的旗幟也趨于多樣化逃口,但就目前而言,真正落地量產(chǎn)的創(chuàng)新硬件還很有限夏坝。云端AI芯片面臨的困境仍有很多畴贵,比如計(jì)算機(jī)體系結(jié)構(gòu)普遍存在的摩爾定律難以維系和半導(dǎo)體器件方面的瓶頸。
研發(fā)芯片的過(guò)程可能需要數(shù)年時(shí)間花脐,目前大部分硬件仍在開發(fā)中或在早期試驗(yàn)計(jì)劃中進(jìn)行幅秉。因此,很難預(yù)測(cè)哪些企業(yè)會(huì)實(shí)現(xiàn)承諾的性能戚吕。
結(jié)語(yǔ):三股勢(shì)力渠跷,決戰(zhàn)云端AI芯片之巔
總體來(lái)看,云端AI芯片市場(chǎng)正逐漸分成三股勢(shì)力员漩,以英偉達(dá)收罢、英特爾等為代表的半導(dǎo)體巨頭,以谷歌逝淹、華為等為代表的中美科技巨頭耕姊,和以寒武紀(jì)、Groq等為代表的芯片創(chuàng)企。其中茉兰,半導(dǎo)體巨頭和芯片創(chuàng)企面向主攻通用芯片尤泽,而跨界造芯的科技巨頭以及AI創(chuàng)企依圖暫時(shí)不對(duì)外直接銷售。
從應(yīng)用領(lǐng)域來(lái)看规脸,盡管GPU的高能耗遭到業(yè)界越來(lái)越多的吐槽坯约,但因其并行運(yùn)算能力,使得云端AI訓(xùn)練領(lǐng)域至今尚未出現(xiàn)能與NVIDIA GPU分庭抗禮的玩家莫鸭。挑戰(zhàn)這一領(lǐng)域的玩家主要是傳統(tǒng)芯片巨頭和創(chuàng)企闹丐,跨界的科技巨頭有谷歌、百度和華為被因,主要采用的架構(gòu)是通用GPU和ASIC卿拴。
在更注重能耗、時(shí)延氏身、成本巍棱、性價(jià)比等綜合能力的云端AI推理領(lǐng)域,入局的玩家相對(duì)更多爱亡,F(xiàn)PGA和ASIC的優(yōu)勢(shì)相對(duì)高于GPU穴你。擁有全面AI芯片布局的英特爾勢(shì)頭正猛,其他玩家也不遑多讓泊铸,中美幾大互聯(lián)網(wǎng)巨頭基本上全部加入戰(zhàn)局乓收,但部分巨頭的芯片研發(fā)進(jìn)展尚未可知。
關(guān)于提升造芯實(shí)力者侄,多數(shù)半導(dǎo)體巨頭和科技巨頭均選擇了投資愧棋、并購(gòu)和挖芯片大牛的捷徑,從而直接得到成熟芯片團(tuán)隊(duì)的輔助亮哑,快速補(bǔ)足人才和業(yè)務(wù)的空缺罗和。而對(duì)于創(chuàng)企來(lái)說(shuō),獲得投資界青睞的基本都具備兩大因素——富有經(jīng)驗(yàn)的創(chuàng)始團(tuán)隊(duì)和擁有創(chuàng)新技術(shù)的產(chǎn)品核狰,從落地進(jìn)程來(lái)看功哮,我國(guó)芯片創(chuàng)企的步伐可以排在世界前列。
就目前來(lái)看潦擅,絕大多數(shù)AI應(yīng)用仍然依賴于在云端的訓(xùn)練和推理援奢,在訓(xùn)練領(lǐng)域,NVIDIA穩(wěn)固的生態(tài)體系依然是難以撼動(dòng)的一座高山忍捡,在推理領(lǐng)域集漾,更是群雄逐鹿能者勝。隨著AI更加廣泛地落地到各行各業(yè)砸脊,云端AI芯片市場(chǎng)也會(huì)獲得更大的增長(zhǎng)空間具篇,但這篇市場(chǎng)未必容得下這么多的玩家纬霞,資金、器件瓶頸栽连、架構(gòu)創(chuàng)新险领、適配快速改變的AI算法以及構(gòu)建生態(tài)系統(tǒng)都是擺在這些企業(yè)面前的難題。什么是完全適合云端訓(xùn)練和推理的AI芯片形態(tài)秒紧,也尚未出現(xiàn)統(tǒng)一的結(jié)論。