AI芯片:一塊價(jià)值146億美元的蛋糕,被三大門派四大場(chǎng)景瓜分
2017-12-08 09:20:57 來(lái)源:智東西(zhidxcom) 作者:十四 熱度:

AI芯片也被稱為AI加速器或計(jì)算卡,即專門用于處理人工智能應(yīng)用中的大量計(jì)算任務(wù)的模塊(其他非計(jì)算任務(wù)仍由CPU負(fù)責(zé))。當(dāng)前,AI芯片主要分為GPU、FPGA、ASIC。
人工智能大勢(shì)之下,芯片市場(chǎng)的蛋糕越做越大。有分析認(rèn)為,到2020年AI芯片市場(chǎng)規(guī)模將達(dá)到146.16億美元,約占全球人工智能市場(chǎng)規(guī)模12.18%。
本期的智能內(nèi)參,我們推薦來(lái)自天風(fēng)證券的AI芯片市場(chǎng)報(bào)告,結(jié)合市場(chǎng)觀察,從市場(chǎng)和流派出發(fā)盤點(diǎn)AI芯片的發(fā)展現(xiàn)狀,分析四大藍(lán)海的未來(lái)格局。
以下為智能內(nèi)參整理呈現(xiàn)的干貨:
一、AI"腦力"之源

▲深度學(xué)習(xí)在神經(jīng)網(wǎng)絡(luò)模型的應(yīng)用中主要分為上游訓(xùn)練端和下游推理端
互聯(lián)網(wǎng)大數(shù)據(jù)的興起對(duì)超算芯片提出了新的需求,人工智能(AI)亦如是。AI的“腦力”核心在于芯片和算法。
其中,AI算法的目前的主流方案是深度學(xué)習(xí)/強(qiáng)化學(xué)習(xí),并已經(jīng)被AlphaGo Master和Zero成功驗(yàn)證可行性。深度學(xué)習(xí)即通過構(gòu)建一種深層非線性網(wǎng)絡(luò)結(jié)構(gòu),來(lái)實(shí)現(xiàn)復(fù)雜函數(shù)逼近及自動(dòng)特征提取,具有強(qiáng)大的從少數(shù)樣本集中挖掘數(shù)據(jù)統(tǒng)計(jì)規(guī)律的能力。

▲典型AI芯片商一覽
另一方面,芯片,則為復(fù)雜的計(jì)算任務(wù)提供支撐(隨著模型的逐漸復(fù)雜化,浮點(diǎn)運(yùn)算的數(shù)量也呈指數(shù)級(jí)增長(zhǎng)至ExaFLOPS)。
2015年微軟ResNet含有6000萬(wàn)個(gè)參數(shù),運(yùn)算量為7 ExaFLOPS(百億億次浮點(diǎn)運(yùn)算)。2016年百度語(yǔ)音識(shí)別系統(tǒng)Deep Speech 2的參數(shù)量上升到3億個(gè),運(yùn)算量提升至20 ExaFLOPS。而今年Google的NMT神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng),參數(shù)量達(dá)87億個(gè),需要105 ExaFLOPS的運(yùn)算量。
因此,本質(zhì)上,是摩爾定律的突破和并行計(jì)算以及云計(jì)算的發(fā)展,讓人工智能開始得以普及。沒有GPU,人們就無(wú)法快速的處理海量數(shù)據(jù),而數(shù)據(jù)訓(xùn)練的匱乏,會(huì)讓深度學(xué)習(xí)的效率還不如人類工程算法(human engineering algorithm)。
二、GPU稱雄ASIC割據(jù)

▲四大芯片的“通用性和功耗的平衡”

▲目前深度學(xué)習(xí)領(lǐng)域常用的四大芯片類型
2011年,吳恩達(dá)率先將GPU用于谷歌大腦,發(fā)現(xiàn)12顆GPU可提供約2000顆CPU的深度學(xué)習(xí)性能,之后紐約大學(xué)、多倫多大學(xué)及瑞士人工智能實(shí)驗(yàn)室紛紛在GPU上加速其深度神經(jīng)網(wǎng)絡(luò)。
可以說(shuō),在過去的幾年,尤其是2015年以來(lái),人工智能大爆發(fā)就是由于英偉達(dá)公司的GPU得到廣泛應(yīng)用,使得并行計(jì)算變得更快、更便宜、更有效。

▲GPU和CPU結(jié)構(gòu)上的區(qū)別
GPU比CPU擁有更多的運(yùn)算器(Arithmetic Logical Unit),只需要進(jìn)行高速運(yùn)算而不需要邏輯判斷,其海量數(shù)據(jù)并行運(yùn)算的能力與深度學(xué)習(xí)需求不謀而合。因此,在深度學(xué)習(xí)上游訓(xùn)練端(主要用在云計(jì)算數(shù)據(jù)中心里),GPU是當(dāng)仁不讓的第一選擇。目前GPU的市場(chǎng)格局以英偉達(dá)為主(超過70%),AMD為輔,預(yù)計(jì)3-5年內(nèi)GPU仍然是深度學(xué)習(xí)市場(chǎng)的第一選擇。
下游推理端更接近終端應(yīng)用,更關(guān)注響應(yīng)時(shí)間而不是吞吐率,需求更加細(xì)分,除了主流的GPU芯片之外,還包括CPU、FPGA(Xilinx、英特爾Altera、Lattice及Microsemi等)、ASIC(英特爾Nervana Engine、Wave Computing的數(shù)據(jù)流處理單元、英偉達(dá)的DLA、谷歌TPU、寒武紀(jì)NPU等)也會(huì)在這個(gè)領(lǐng)域發(fā)揮各自的優(yōu)勢(shì)特點(diǎn)。

▲FPGA:現(xiàn)場(chǎng)可編程門陣列
目前來(lái)看,下游推理端雖可容納CPU、FPGA、ASIC等芯片,競(jìng)爭(zhēng)態(tài)勢(shì)中英偉達(dá)依然占大頭,但隨著AI的發(fā)展,F(xiàn)PGA的低延遲、低功耗、可編程性(適用于傳感器數(shù)據(jù)預(yù)處理工作以及小型開發(fā)試錯(cuò)升級(jí)迭代階段)和ASIC的特定優(yōu)化和效能優(yōu)勢(shì)(適用于在確定性執(zhí)行模型)將凸顯出來(lái)。

▲賽靈思提供的FPGA與CPU性能對(duì)比優(yōu)勢(shì)
Grand View Research分析,2015年全球FPGA總市場(chǎng)規(guī)模達(dá)63.6億美元,預(yù)計(jì)到2024年FPGA市場(chǎng)規(guī)模將達(dá)到142億美元。
其中,Xilinx的市場(chǎng)份額為49%,主要應(yīng)用到工業(yè)和通訊領(lǐng)域,但近年亦致力于在云計(jì)算數(shù)據(jù)中心的服務(wù)器以及無(wú)人駕駛的應(yīng)用;Altera(已被英特爾收購(gòu))的市場(chǎng)份額約為40%,定位跟Xilinx類似;萊迪斯半導(dǎo)體(Lattice Semiconductor)的市場(chǎng)份額約為6%,主要市場(chǎng)為消費(fèi)電子產(chǎn)品和移動(dòng)傳輸,以降低耗電量、縮小體積及縮減成本為主;Microsemi(Actel)的市場(chǎng)份額約為4%,瞄準(zhǔn)通信、國(guó)防與安全、航天與工業(yè)等市場(chǎng)。目前Altera的FPGA產(chǎn)品被用于微軟Azure云服務(wù)中包括必應(yīng)搜索、機(jī)器翻譯等應(yīng)用中。
各家芯片商打法上,除了力推自家芯片,還會(huì)在整個(gè)AI生態(tài)上進(jìn)行布局:

▲英偉達(dá)人工智能布局平臺(tái)
英偉達(dá)擁有目前最為成熟的開發(fā)生態(tài)環(huán)境(CUDA因統(tǒng)一而完整的開發(fā)套件,豐富的庫(kù)以及對(duì)英偉達(dá)GPU的原生支持而成為開發(fā)主流,目前已開發(fā)至第9代,開發(fā)者人數(shù)超過51萬(wàn));

▲皮查伊在2016 I/O大會(huì)上介紹TensorFlow
Google的TPU也結(jié)合TensorFlow開源開發(fā)環(huán)境,并公布了TensorFlow Research Cloud云開發(fā)平臺(tái);

▲AMD GPU規(guī)劃路進(jìn)
AMD通過CPU(EPYC)+GPU(Vega)+ROCm的開源生態(tài),打造GPU計(jì)算最通用開源平臺(tái),并合作谷歌云進(jìn)軍云計(jì)算打開高端市場(chǎng),合作THATIC(天津海光先進(jìn)技術(shù)投資有限公司,是中科曙光的控股子公司)打開國(guó)內(nèi)數(shù)據(jù)中心CPU服務(wù)器市場(chǎng)。
開源時(shí)代生態(tài)為天,硬件廠商以開源之態(tài),本質(zhì)上是搶奪業(yè)界事實(shí)標(biāo)準(zhǔn)的控制權(quán),但隨之而來(lái)的也是整個(gè)芯片行業(yè)設(shè)計(jì)門檻和研發(fā)成本的不斷降低。
三、四大場(chǎng)景的芯片賽道
數(shù)據(jù)中心藍(lán)海正當(dāng)時(shí)

▲當(dāng)前英偉達(dá)GPU在數(shù)據(jù)中心的使用情況
在數(shù)據(jù)中心搶灘戰(zhàn)中,英偉達(dá)可謂拔得頭籌:2016年公司數(shù)據(jù)中心業(yè)務(wù)帶來(lái)8.3億美元收入,同比增長(zhǎng)145%;今年的增長(zhǎng)的動(dòng)力落在了Volta架構(gòu)V100(訓(xùn)練吞吐量提高至上代Pascal的12倍)的身上,前9個(gè)月收入已達(dá)13.26億美元,同比增長(zhǎng)148%。

▲英偉達(dá)基本壟斷數(shù)據(jù)中心GPU
從市場(chǎng)占有率來(lái)看,目前全球云計(jì)算巨頭基本使用英偉達(dá)GPU進(jìn)行深度學(xué)習(xí)與算法加速,且相對(duì)于AMD,英偉達(dá)先發(fā)的構(gòu)架升級(jí)以及廣泛成熟的開發(fā)生態(tài)環(huán)境優(yōu)勢(shì)明顯。不過,AMD或?qū)⒔又献靼俣?、中科曙光的機(jī)會(huì)依靠GPU的捆綁銷售,加速切入國(guó)內(nèi)數(shù)據(jù)中心和AI發(fā)展快車道。

▲英特爾計(jì)劃在數(shù)據(jù)中心里提供FPGA加速
值得注意的是,自2015年6月167億美元收購(gòu)FPGA芯片廠Altera后,英特爾也宣布計(jì)劃在數(shù)據(jù)中心里提供FPGA加速;與此同時(shí),TensorFlow團(tuán)隊(duì)公布了TensorFlow Research Cloud云開發(fā)平臺(tái),向研究人員提供一個(gè)具有1000個(gè)云TPU的服務(wù)器集群,用來(lái)服務(wù)各種計(jì)算密集的研究項(xiàng)目,第二代TPU也可用于深度學(xué)習(xí)上游訓(xùn)練環(huán)節(jié),并將部署在谷歌云計(jì)算引擎平臺(tái)上,真正帶入云端。

▲TPU Pod,由64臺(tái)二代TPU組成,算力達(dá)11.5 petaflops
從市場(chǎng)容量/前景來(lái)看,云計(jì)算數(shù)據(jù)中心成為不可逆轉(zhuǎn)的趨勢(shì),超級(jí)數(shù)據(jù)中心也越來(lái)越依賴GPU來(lái)更快地處理高要求的工作負(fù)載。目前,全球服務(wù)器中GPU的滲透率僅有0.24%并基本被英偉達(dá)壟斷,天風(fēng)證券預(yù)計(jì)英偉達(dá)數(shù)據(jù)中心業(yè)務(wù)在2020年前將達(dá)40億美元,對(duì)應(yīng)全球服務(wù)器GPU滲透率也將達(dá)4倍以上增長(zhǎng)。

▲全球服務(wù)器GPU市場(chǎng)估計(jì)
自動(dòng)駕駛開啟黃金十年

▲全球自動(dòng)駕駛L1-L5滲透率預(yù)測(cè)
天風(fēng)證券認(rèn)為,以2020年為界,全球?qū)㈤_啟無(wú)人駕駛“黃金十年”。L3半自動(dòng)駕駛水平以上的行業(yè)發(fā)展,需要整個(gè)汽車行業(yè)供應(yīng)商關(guān)系的重組和整合。包括:

▲“車企+供應(yīng)商+芯片巨頭+打車軟件+物流公司”新格局
1、形成“車企+供應(yīng)商+芯片巨頭+打車軟件+物流公司”的格局;
2、共享經(jīng)濟(jì)下的租車、打車以及商業(yè)貨運(yùn)物流領(lǐng)域會(huì)最快落地得到應(yīng)用;
3、L4相對(duì)比L1、L2,單車系統(tǒng)零部件支出會(huì)增長(zhǎng)470%,從545美元升至3100美元/車。

▲L1到L4單車零部件成本變化
英偉達(dá)指出,從ADAS提升到L3半自動(dòng)駕駛所需的計(jì)算難度會(huì)提升5倍,而關(guān)鍵的L3向L4提升需要50倍,從L4提升到L5則需要2倍。因此,汽車電子化和智能化的方向?qū)⒊掷m(xù)提高科技類公司在汽車產(chǎn)業(yè)鏈內(nèi)的重要程度(三星收購(gòu)哈曼,高通收購(gòu)NXP,英特爾收購(gòu)Mobileye),營(yíng)造了“車企+供應(yīng)商+芯片巨頭+打車軟件+物流公司”的新格局。
目前,無(wú)人駕駛上游系統(tǒng)解決方案逐漸形成英偉達(dá)與英特爾-Mobileye聯(lián)盟兩大競(jìng)爭(zhēng)者。

▲英偉達(dá)Drive PX車載計(jì)算平臺(tái)情況

▲英偉達(dá)三代自動(dòng)駕駛平臺(tái)性能比較
英偉達(dá)在硬件層面算力和研發(fā)節(jié)奏上成為當(dāng)仁不讓的先行軍:此前,公司的汽車業(yè)務(wù)主要集中在汽車顯示屏和影音系統(tǒng)(Drive PX),今年1月的CES大會(huì)上發(fā)布無(wú)人駕駛的整體布局(從車載超級(jí)電腦平臺(tái)以及人工智能駕駛系統(tǒng),Xavier),10月英偉達(dá)在德國(guó)慕尼黑的GTC Europe大會(huì)上,發(fā)布了面向完全自動(dòng)駕駛L5級(jí)別的新一代Drive PX人工智能車載計(jì)算平臺(tái)Pegasus。英偉達(dá)智能汽車合作方有大眾(優(yōu)化城市交通)、奧迪(聯(lián)合Mobileye、Delphi等設(shè)計(jì)的全球首款搭載L3級(jí)自動(dòng)駕駛的量產(chǎn)車,新一代A8)等。

▲英特爾給出的市場(chǎng)空間指引:汽車電子化和智能化整個(gè)市場(chǎng)空間,包括廣告系統(tǒng)、數(shù)據(jù)和服務(wù)將從2020年的200億美元提升到2030年的700億美元。

▲EyeQ系列芯片參數(shù)介紹
英偉達(dá)的競(jìng)爭(zhēng)對(duì)手,也就是被英特爾以每股63.54美元價(jià)格收購(gòu)的Mobileye。天風(fēng)證券指出,Mobileye的機(jī)器視覺算法將與英特爾的芯片、數(shù)據(jù)中心、AI、傳感器融合,以及地圖服務(wù)等方面產(chǎn)生強(qiáng)大的協(xié)同合作效應(yīng),聯(lián)手打造“軟硬兼施”的全新無(wú)人駕駛供應(yīng)商。目前,英特爾-Mobileye聯(lián)盟擁有全行業(yè)最廣泛的車企合作關(guān)系,且商業(yè)路徑十分明晰:從ADAS出發(fā),逐步完善功能模塊,提高自動(dòng)化程度,進(jìn)化到EyeQ5(預(yù)計(jì)2020年推出,算力15萬(wàn)億次)將會(huì)成為一個(gè)開源性、定制化、可升級(jí)的標(biāo)準(zhǔn)解決方案,打造成為無(wú)人駕駛界的Android。
除了上述兩大主力汽車芯片競(jìng)爭(zhēng)方,百度雖然與英偉達(dá)合作密切(Apollo開放平臺(tái)從數(shù)據(jù)中心到自動(dòng)駕駛都將使用英偉達(dá)技術(shù),包括Tesla GPU和DRIVE PX 2,以及CUDA和TensorRT在內(nèi)的英偉達(dá)軟件),卻也采用Xilinx的FPGA芯片加速機(jī)器學(xué)習(xí),用于語(yǔ)音識(shí)別和汽車自動(dòng)駕駛。
虛擬貨幣小蛋糕

▲GPU礦機(jī)盈利估計(jì)
2017年以來(lái),數(shù)字虛擬貨幣連創(chuàng)新高,以太坊(Ethereum)技術(shù)下的以太幣(ETH)漲逾30倍,比特幣(BTC)也漲逾7倍突破8000美元。全球數(shù)字貨幣市值也從180億美元增長(zhǎng)至逾2300億美元。受益于數(shù)字貨幣的持續(xù)高度關(guān)注,通過顯卡“挖礦”而獲取貨幣的熱潮,也發(fā)掘了對(duì)AMD和英偉達(dá)顯卡的需求。
根據(jù)cryptocompare網(wǎng)站數(shù)據(jù),AMD RX 470 GPU的礦機(jī)有明顯優(yōu)于英偉達(dá)GTX 970 GPU的經(jīng)濟(jì)回報(bào),為了有效消弭挖礦和游戲需求沖突,并避免二手卡問題,英偉達(dá)針對(duì)虛擬數(shù)字貨幣挖礦熱潮推出專門挖礦顯卡(基于GTX 1060 6GB產(chǎn)品,完全取消顯示輸出接口,僅提供90天的質(zhì)保);AMD則發(fā)布了專門的挖礦驅(qū)動(dòng)Radeon Software Crimson ReLive Edition Beta for BlockchainCompute,為區(qū)塊鏈計(jì)算工作負(fù)荷優(yōu)化性能。
英偉達(dá)CEO Jensen在Q3季報(bào)會(huì)議上屢次被問及數(shù)字貨幣挖礦對(duì)公司業(yè)務(wù)的影響,他5次強(qiáng)調(diào):挖礦市場(chǎng)對(duì)英偉達(dá)長(zhǎng)期來(lái)說(shuō)將會(huì)是“微小但不是零的”。數(shù)字貨幣挖礦對(duì)GPU巨頭的影響整體空間有限,目前挖礦對(duì)顯卡需求的驅(qū)動(dòng)雖會(huì)持續(xù)存在但將進(jìn)一步趨平。這主要是因?yàn)椋?/span>
1、遵循比特幣挖礦路徑,挖礦需求會(huì)向?qū)iT芯片礦機(jī)轉(zhuǎn)移;
2、以太幣正在進(jìn)行“工作量證明”向“權(quán)益證明”的升級(jí),算力需求將會(huì)下降;
3、挖礦市場(chǎng)的狂熱需求也會(huì)影響正常游戲顯卡市場(chǎng)的需求并帶來(lái)二手卡問題,也不是英偉達(dá)和AMD所想見。
終端AI的抬頭
AI芯片的計(jì)算場(chǎng)景可分為云端AI和終端AI。NVIDIA首席科學(xué)家William Dally將深度學(xué)習(xí)的計(jì)算場(chǎng)景分為三類,分別是數(shù)據(jù)中心的訓(xùn)練、數(shù)據(jù)中心的推斷和嵌入式設(shè)備的推斷。前兩者可以總結(jié)為云端的應(yīng)用,后者可以概括為終端的應(yīng)用。
終端設(shè)備的模型推斷方面,由于低功耗、便攜等要求,F(xiàn)PGA和ASIC的機(jī)會(huì)優(yōu)于GPU。而提到終端智能,不得不談蘋果的A11神經(jīng)引擎和華為的麒麟970 NPU。

▲蘋果A11搭載神經(jīng)處理引擎,采用雙核設(shè)計(jì),每秒運(yùn)算次數(shù)最高可達(dá)6000億次
2017年9月,蘋果發(fā)布了iPhone X,搭載64位架構(gòu)A11神經(jīng)處理引擎。為實(shí)現(xiàn)基于深度學(xué)習(xí)的高準(zhǔn)確性面部識(shí)別解鎖方式(Face ID),并解決云接口(Cloud-Based API)帶來(lái)的延時(shí)和隱私問題,以及龐大的訓(xùn)練數(shù)據(jù)和計(jì)算量與終端硬件限制的矛盾,iPhone X采用了“師生”培訓(xùn)、中間層、聯(lián)合圖、分割GPU工作項(xiàng)、匹配框架的神經(jīng)引擎等方案解決(詳細(xì)方案參見第206期智能內(nèi)參)。

▲華為海思麒麟970架構(gòu)搭載寒武紀(jì)IP的NPU
另一個(gè)吃螃蟹的企業(yè)就是咱們的華為——麒麟970。麒麟970采用10nm制程,搭載Cortex-A73(CPU)、Mali-G72(GPU)和麒麟NPU(神經(jīng)網(wǎng)絡(luò)處理單元)。其中,麒麟NPU采用了寒武紀(jì)的IP(1A芯片),目的是解決端側(cè)AI(On-Device AI)。

▲寒武紀(jì)產(chǎn)品研發(fā)發(fā)展
寒武紀(jì)作為背靠中科院計(jì)算所和中科曙光的AI芯片獨(dú)家首公司,既具有開發(fā)實(shí)力,又能夠與中科曙光進(jìn)行產(chǎn)業(yè)鏈互補(bǔ),先后獲得中科院1000萬(wàn)元專項(xiàng)資金支持和1億美元的A輪融資,目前估值已接近10億美元。

▲寒武紀(jì)DianNao系列主要產(chǎn)品與性能
寒武紀(jì)自下而上的策略,從提供低功耗嵌入式終端的本地智能處理芯片解決方案入手,計(jì)劃逐步向服務(wù)器云端的訓(xùn)練處理芯片去布局,有望構(gòu)建強(qiáng)大的用戶生態(tài)圈。目前寒武紀(jì)主要有三條產(chǎn)品線:
1、IP授權(quán):智能IP指令集可授權(quán)集成到手機(jī)、安防、可穿戴設(shè)備等終端芯片中,2016年全年拿到1億元訂單;
2、在智能云服務(wù)器芯片領(lǐng)域:作為PCIe加速卡插在云服務(wù)器上,希望能布局進(jìn)入人工智能訓(xùn)練和推理市場(chǎng);
3、開發(fā)面向家用智能服務(wù)機(jī)器人、智能駕駛、智能安防等領(lǐng)域的應(yīng)用芯片。
筆者認(rèn)為,AI芯片,或者說(shuō)AI加速器目前有三個(gè)明確的技術(shù)路徑,更為通用的GPU(既能作為圖形處理器引爆游戲業(yè)務(wù),又能滲透數(shù)據(jù)中心橫掃訓(xùn)練端)、更可編程的FPGA(適用于迭代升級(jí),各類場(chǎng)景化應(yīng)用前景超大),以及更專業(yè)的ASIC(叩開終端AI的大門)。
其中,英偉達(dá)、英特爾兩大傳統(tǒng)芯片巨頭在三大路徑,特別是通用芯片和半定制芯片都有布局,掌握強(qiáng)大的先發(fā)優(yōu)勢(shì),在數(shù)據(jù)中心、汽車等重要藍(lán)海布局扎實(shí);AMD和Xilinx則各自找盟友,特別是中國(guó)盟友,求突圍;ASIC方面,谷歌從TPU出發(fā)開源生態(tài)進(jìn)行布局,且二代TPU展露了訓(xùn)練端芯片市場(chǎng)的野心,寒武紀(jì)則坐擁國(guó)內(nèi)半導(dǎo)體、芯片、智能終端等行業(yè)之勢(shì),且ASIC定制化的特點(diǎn)有效規(guī)避了傳統(tǒng)巨頭的壟斷局面,有著可靠健康的發(fā)展路線。
下一篇:谷歌AI工程師表示未來(lái)五年內(nèi)實(shí)現(xiàn)人機(jī)對(duì)話功能上一篇:創(chuàng)立僅兩年的特斯聯(lián)憑什么成為AIoT領(lǐng)域“獨(dú)角獸”?
責(zé)任編輯:徐明月