在近日舉行的騰訊研究院年會(huì)上,騰訊副總裁、AI Lab院長(zhǎng)姚星發(fā)表了《AI 真實(shí)的希望與喧嘩的隱憂》主題演講,介紹了騰訊人工智能部門的發(fā)展歷程,同時(shí)也對(duì)機(jī)器學(xué)習(xí)和人工智能的未來談了自己的看法。機(jī)器之心參與了本次會(huì)議,并對(duì)演講內(nèi)容進(jìn)行了整理。
姚星首先回顧騰訊與中國(guó)互聯(lián)網(wǎng)二十年的發(fā)展歷程,從最初的窄帶時(shí)代到現(xiàn)在的移動(dòng)互聯(lián)網(wǎng)時(shí)代,在每一個(gè)重要節(jié)點(diǎn)騰訊都有一款重量級(jí)產(chǎn)品出現(xiàn)。在最近進(jìn)入到 AI 爆發(fā)的階段,騰訊也順勢(shì)成立了自己的 AI Lab。演講中正式向外公布騰訊 AI Lab 所關(guān)注 AI 四個(gè)基礎(chǔ)研究領(lǐng)域和 4 個(gè)專屬研究方向。也談及在趨之若鶩的 AI 浪潮中,大家對(duì)人工智能的希望來自于深度學(xué)習(xí)的算法、模型和數(shù)學(xué)理論的突破,但同時(shí)深度學(xué)習(xí)自身的能力局限、計(jì)算能力的限制以及數(shù)學(xué)理論的不可解釋性為過高的期望降溫。
以下為演講內(nèi)容整理:
各位朋友大家下午好。今天我演講的題目——AI:真實(shí)的希望與喧嘩的隱憂。希望表明了大家對(duì) AI 的期待,而隱憂則說明大家期望過高。
騰訊與中國(guó)互聯(lián)網(wǎng)二十年的發(fā)展
回顧中國(guó)互聯(lián)網(wǎng)過去二十年的發(fā)展,這二十年是信息高速發(fā)展的二十年,大致經(jīng)歷了三個(gè)發(fā)展階段:上個(gè)世紀(jì)九十年代、21 世紀(jì)初期以及2010 年后。
在上世紀(jì)九十年代初期,中國(guó)第一次連上互聯(lián)網(wǎng)——「跨越長(zhǎng)城,連接世界」。隨著第一封 e-mail 的發(fā)出,中國(guó)正式進(jìn)入到互聯(lián)網(wǎng)大家庭中來。但是由于當(dāng)時(shí)網(wǎng)絡(luò)速度的問題,大部分互聯(lián)網(wǎng)應(yīng)用只限于溝通。溝通解決了當(dāng)時(shí)的很多問題,人們不再需要面對(duì)面才能進(jìn)行交流,或者通過傳統(tǒng)書信的方式進(jìn)行溝通。不論天涯海角,只要能連上互聯(lián)網(wǎng),人們總是可以接觸到信息。
隨著整個(gè)網(wǎng)絡(luò)設(shè)備和傳輸能力的發(fā)展,特別是 2000 年以來,網(wǎng)吧的大量涌現(xiàn)、網(wǎng)絡(luò)連接速度的大幅提升、網(wǎng)絡(luò)帶寬速度的快速提升,人們對(duì)互聯(lián)網(wǎng)的訴求不再僅僅是消息的傳遞和溝通,更多的是分享。當(dāng)時(shí)興起了很多基于分享的應(yīng)用,博客、MSN、 Facebook、QQ 空間等都是基于分享的。人人為我,我為人人——有很多內(nèi)容或者信息都是通過互聯(lián)網(wǎng)來分享的,比如跟朋友分享生活的喜悅和苦惱。
隨后移動(dòng)時(shí)代的發(fā)展,特別是以智能手機(jī)為代表的智能終端的發(fā)展,也即自 2010 年以來,移動(dòng)互聯(lián)網(wǎng)高速發(fā)展所帶來明顯的變革——人們不再受限于特定時(shí)間和特定空間的互聯(lián)網(wǎng)連接。以前大家都是在網(wǎng)吧或者工作的地方才能獲取互聯(lián)網(wǎng)信息,現(xiàn)在大家隨時(shí)隨地通過智能手機(jī)就可以與互聯(lián)網(wǎng)連接。可以看出,中國(guó)互聯(lián)網(wǎng)過往二十年的發(fā)展是隨著設(shè)備的發(fā)展、產(chǎn)業(yè)的發(fā)展、信息產(chǎn)業(yè)的發(fā)展而演進(jìn)的。
伴隨著互聯(lián)網(wǎng)過往二十年的發(fā)展,騰訊在過去二十年里做了些什么?實(shí)際上在每一個(gè)階段,騰訊都有一款重量級(jí)的產(chǎn)品出現(xiàn)。
在上世紀(jì)九十年代,也即中國(guó)互聯(lián)網(wǎng)的早期發(fā)展階段——窄帶時(shí)代,就如剛才所說,當(dāng)時(shí)的互聯(lián)網(wǎng)主要是用于溝通,在那個(gè)階段騰訊推出了 QQ。QQ 是目前世界上同時(shí)在線人數(shù)最多的應(yīng)用,已經(jīng)達(dá)到兩億人同時(shí)在線的體量。而到了寬帶時(shí)代,在 2000 年初的時(shí)候,QQ 空間誕生。QQ 空間目前日上傳照片數(shù)超過五億張,這個(gè)規(guī)模跟世界上最大的社交網(wǎng)絡(luò) Facebook 相比,幾乎是同一個(gè)量級(jí),在總照片數(shù)量上跟 Facebook 也幾乎是同一個(gè)量級(jí)(2013 年 Facebook 公開數(shù)據(jù)顯示其日上傳照片數(shù)大概是在 2.5 億張左右,總照片數(shù)大概 6000 億張)。
然后來到移動(dòng)互聯(lián)網(wǎng)時(shí)代,為大家所熟知的一個(gè)產(chǎn)品就是微信。這款產(chǎn)品不僅是一個(gè)簡(jiǎn)單的應(yīng)用,WeChat 是一個(gè)超級(jí) APP。微信不僅解決了溝通問題,還解決了社交、分享的問題,還支持線下支付、線下打車,甚至醫(yī)院掛號(hào)看病、交水電費(fèi)等一系列功能都可以在這一個(gè)軟件上實(shí)現(xiàn)。實(shí)際上,騰訊的這三款產(chǎn)品在整個(gè)世界范圍內(nèi)都是領(lǐng)先的。
從整個(gè)發(fā)展史來看,我們可以看出過往的發(fā)展史經(jīng)歷窄帶時(shí)代、寬帶時(shí)代,然后到現(xiàn)在的移動(dòng)互聯(lián)網(wǎng)時(shí)代,它猶如生物進(jìn)化一般,從原始的單細(xì)胞生物到多細(xì)胞生物到最后有智能的生物。那么今年來講「智能」,智能會(huì)更加的廣義,不僅僅是智能終端,大家討論更多的智能是 AI。
騰訊的 AI 布局
2016 年正好是 AI 發(fā)展六十周年,從去年開始 AI 迅速爆發(fā),可以說是家喻戶曉。這也是為什么我剛剛在跟很多嘉賓聊的時(shí)候說,大家覺得騰訊在 AI 上很低調(diào),沒有什么大動(dòng)作。甚至有很多人問我騰訊到底有沒有在做 AI?怎么從來沒有向外界宣布任何 AI 相關(guān)的布局規(guī)劃呢?實(shí)際上騰訊有自己的 AI 部門,從 2016 年 4 月份開始,騰訊成立了自己的 AI Lab,目前已經(jīng)有 30 多位的 Research Scientists,絕大多數(shù)擁有博士學(xué)歷及以上且都有海外研究經(jīng)歷。他們中業(yè)界的來自于微軟、IBM、Facebook 等公司,學(xué)術(shù)界是從世界最頂級(jí)學(xué)府引進(jìn)的人才,包括斯坦福、加州伯克利、康奈爾、麻省理工、哥倫比亞大學(xué)等頂級(jí)高校。
目前在騰訊,我們已經(jīng)組織了一個(gè) 30 人左右的 AI Lab,而且規(guī)模還在擴(kuò)張。騰訊的 AI 可能不像其它公司的 AI 為人所了解,比如說谷歌的 AI,很多人都知道 DeepMind 在做圍棋,他們用強(qiáng)化學(xué)習(xí)來實(shí)現(xiàn),而且他們用強(qiáng)化學(xué)習(xí)來完成很多任務(wù)。以及他們提出了很多的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(neural network),比如 WaveNet,deepNet,LipNet 等;而百度為大家所熟知的有無人車、度秘等一些產(chǎn)品。但騰訊的 AI 一直沒有對(duì)外宣傳,今天我也跟大家分享騰訊在 AI 上面的一些考慮。
實(shí)際上騰訊的 AI 主要基于四個(gè)垂直領(lǐng)域,計(jì)算機(jī)視覺(Computer Vision)、語音識(shí)別(Speech Recognition)、自然語言處理(NLP)和機(jī)器學(xué)習(xí)(Machine Learning),每一個(gè)領(lǐng)域都是代表了 AI 的一個(gè)基礎(chǔ)的研究方向,但是每個(gè)領(lǐng)域都可以更多深層次的研究拓展。比如在計(jì)算機(jī)視覺領(lǐng)域,除了傳統(tǒng)的圖像處理還會(huì)有增強(qiáng)現(xiàn)實(shí)(AR)的研究拓展,也會(huì)引入空間定位(Simultaneous Localization and Mapping)技術(shù);比如在語音識(shí)別領(lǐng)域,我們除了傳統(tǒng)的語音識(shí)別、語音合成以外,還會(huì)引入更多的跟語音相關(guān)的拓展研究比如說自動(dòng)翻譯(Translation)。另外在 NLP 里,除了傳統(tǒng)的自然語言處理的對(duì)人的認(rèn)知行為的一些研究,我們還會(huì)做聊天機(jī)器人的一些研究。在 ML 里,從監(jiān)督類的機(jī)器學(xué)習(xí)到無監(jiān)督的機(jī)器學(xué)習(xí),然后到增強(qiáng)學(xué)習(xí)的機(jī)器學(xué)習(xí),都會(huì)展開相關(guān)的研究。這四個(gè)領(lǐng)域基本上涵蓋了當(dāng)今整個(gè) AI 基礎(chǔ)研究領(lǐng)域的方方面面,也是騰訊 AI Lab 將會(huì)關(guān)注的四個(gè)基礎(chǔ)研究領(lǐng)域。
然后我們還提出了四個(gè)專屬的研究方向,這是結(jié)合整個(gè)騰訊公司的業(yè)務(wù)來進(jìn)行的。
我們提出了內(nèi)容 AI(Content AI),我們把基于內(nèi)容類的推薦和搜索類的應(yīng)用都?xì)w屬在內(nèi)容 AI 里。
另外還有我們的社交 AI(Social AI),騰訊是一個(gè)社交應(yīng)用上很強(qiáng)勢(shì)的公司,包括剛剛說的 QQ 空間、微信都是社交平臺(tái),所以在社交 AI 上面我們會(huì)基于社交考慮來研究相關(guān)的 AI 技術(shù),比如社交中的對(duì)話、聊天機(jī)器人、智能助手等,都會(huì)納入這個(gè)研究方向中來。
另外一個(gè)方向,我認(rèn)為是和全世界其他所有的公司都不太一樣的一個(gè) AI 方向,即我們的游戲 AI(Game AI)。大家可能會(huì)問我,DeepMind 也有做圍棋的 AI,但是它只是一個(gè)圍棋游戲,它不會(huì)涉及到太多的游戲。而對(duì)于騰訊來講,在整個(gè)騰訊集團(tuán)里面,游戲是騰訊一塊很大的業(yè)務(wù)。我們會(huì)在游戲里面引入更多 AI 能力,實(shí)際上這個(gè) AI 游戲的想像空間是非常大的。大家試想一下,會(huì)不會(huì)有一天 LOL 里 AI 也來參加世界電競(jìng)賽,與人類交戰(zhàn)。大家知道現(xiàn)在騰訊有一款很受歡迎的手游叫做「王者榮耀」,如果把這里面的能力提升,是不是可玩性、樂趣性就會(huì)更多,騰訊對(duì)這一塊也是很關(guān)注的。
除此之外我們還會(huì)提供很多工具類的 AI,會(huì)結(jié)合到騰訊的云服務(wù),我們需要研發(fā)相關(guān)技術(shù)從而加強(qiáng)相關(guān)能力來實(shí)現(xiàn)這些工具的開放。這些工具將包括基于圖像的人臉識(shí)別的能力、語音識(shí)別的能力、在自然語言處理里的輿情處理能力等,還包括我們?cè)谏疃葘W(xué)習(xí)上的開放深度學(xué)習(xí)平臺(tái)的能力。
所以說從目前來講,整個(gè)騰訊 AI 研究的基礎(chǔ)領(lǐng)域是四個(gè),我們的專屬研究方向也是四個(gè)。
深度學(xué)習(xí)喧囂之下的隱憂
AI 不是一個(gè)新的概念,它的發(fā)展經(jīng)歷了六十多年,在這六十年里,人工智能的發(fā)展之路并不平坦。在去年人工智能又突然爆發(fā)了,勢(shì)頭一直延續(xù)到了現(xiàn)在。1956 年的達(dá)特茅斯會(huì)議,AI 這個(gè)名詞被首次提出。人工智能比較有名的事件是九十年代 IBM 深藍(lán)打敗了卡斯帕羅夫,也就是那個(gè)時(shí)代的 AlphaGo 和李世乭。人們記憶中最清晰的一件事還是去年 AlphaGo 圍棋打敗圍棋世界冠軍李世乭,這表明在圍棋這個(gè)最古老、最復(fù)雜的游戲上面,AlphaGo 的智能已經(jīng)超越了人類。
當(dāng)然整個(gè)發(fā)展史里面也有很多技術(shù)方面的演進(jìn),比較有代表性的就是 2006 年,Geoffery Hinton 在深度學(xué)習(xí)上有了巨大的突破,帶領(lǐng) AI 的所有發(fā)展方向極速提升。我認(rèn)為這次人們期待 AI 最主要的原因是這一次 AI 的底層算法在深度學(xué)習(xí)上面有了實(shí)質(zhì)性的突破。
這次 AI 的發(fā)展是從 2012 年開始的,先在業(yè)界落地。可以看到整個(gè)深度學(xué)習(xí)的方法和傳統(tǒng)方法完全不一樣,不像以前的研究方法,是通過模仿來實(shí)現(xiàn)的。這一情形和早期人類想粘上羽毛學(xué)習(xí)飛翔比較類似,我們都知道真正的飛翔是通過空氣動(dòng)力學(xué)去完成的,這也是深度學(xué)習(xí)的一個(gè)思想之一。之所以現(xiàn)在能有很多應(yīng)用上的突破,是因?yàn)檠芯繂T們掌握了內(nèi)在的學(xué)習(xí)方法,而不是表面的模仿。所以從這一點(diǎn)來說,我們現(xiàn)在在深度學(xué)習(xí)的研究方法上是正確的。
第二個(gè)是模型上的提升,剛才我說了,AI 的發(fā)展有六十年,機(jī)器學(xué)習(xí)以及深度學(xué)習(xí)并不是最近才突然出現(xiàn)的。神經(jīng)網(wǎng)絡(luò)早在六十年代就有過——當(dāng)時(shí)提出來感知機(jī)(perceptron)。機(jī)器學(xué)習(xí)在八九十年代也非常火,當(dāng)時(shí)有一個(gè)叫 SVM(支持向量機(jī))的分類器,已經(jīng)是非常厲害的一種機(jī)器學(xué)習(xí)的算法。那么現(xiàn)在為什么又重新提出來?深度學(xué)習(xí)同原來的機(jī)器學(xué)習(xí)相比,在模型能力上有非常大的提升。大家都知道我們所有的機(jī)器學(xué)習(xí)的方法,都是從 A 到 B 去尋找一個(gè)擬合函數(shù),實(shí)現(xiàn)一個(gè)最佳的擬合過程。在這個(gè)過程中如果選取的特征越多,擬合的效果就會(huì)越好。但同時(shí)有一個(gè)問題,當(dāng)特征太多的時(shí)候,計(jì)算能力就會(huì)出現(xiàn)問題。在淺層模型中,如果要模擬出一個(gè)從 A 到 B 的完美擬合過程,它的數(shù)據(jù)能達(dá)到幾億甚至幾十億的規(guī)模,當(dāng)他達(dá)到這種規(guī)模的時(shí)候它的計(jì)算能力就會(huì)急劇下降,會(huì)通過一個(gè)非常復(fù)雜的復(fù)合函數(shù)去描述數(shù)據(jù)。但是深度學(xué)習(xí)的方式能夠很好的解決這個(gè)問題,它通過深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的多層連接,其特征表達(dá)是一個(gè)指數(shù)層倍的關(guān)系,如果說用一個(gè)全連接(fully connected)描述十億的特征,可能我們只需要三層一千個(gè)節(jié)點(diǎn)的連接,就能構(gòu)建十億個(gè)特征的權(quán)重出來。所以從本質(zhì)來講,模型上的提升也是深度學(xué)習(xí)的一個(gè)突破。
另外,針對(duì)反向傳播問題(BP),AI 界從 80 年代開始真正使用 BP 算法來訓(xùn)練多層神經(jīng)網(wǎng)絡(luò)。在神經(jīng)網(wǎng)絡(luò)里,當(dāng)輸入信息由多層網(wǎng)絡(luò)向前傳播之后,將網(wǎng)絡(luò)的輸出結(jié)果與實(shí)際結(jié)果的誤差,從輸出層向輸入層反向傳播。在整個(gè) BP 過程,都是需要通過隨機(jī)梯度下降的方式進(jìn)行求解,以逐漸逼近最優(yōu)值。今年來,隨著網(wǎng)絡(luò)結(jié)構(gòu)的不斷加深,使用傳統(tǒng)的 Sigmoid 激活函數(shù)使深層網(wǎng)絡(luò)的參數(shù)優(yōu)化過程中出現(xiàn)梯度消失的問題。通過一些數(shù)學(xué)的理論和技巧,可以很好解決這種梯度消失問題,以用于訓(xùn)練非常深層的神經(jīng)網(wǎng)絡(luò)。
正因?yàn)檫@三方面的優(yōu)勢(shì),使得在這次 AI 的浪潮里,深度學(xué)習(xí)才會(huì)如此之火。而且我堅(jiān)信這次的 AI 浪潮會(huì)持續(xù)很久。在 1993 年到 2000 年左右,整個(gè)傳統(tǒng)的淺層機(jī)器學(xué)習(xí)的研究進(jìn)展還是很不錯(cuò)的,圖中可以看到這段時(shí)期錯(cuò)誤率有明顯的下降,也即識(shí)別效果的提升很快。但是從 2000 年到 2010 年這十年,可以看出沒有明顯的下降變化??赡苁窃诜椒ㄉ厦?,在模型上面都沒有太大的研究進(jìn)展。在 2012 年左右有一個(gè)明顯的轉(zhuǎn)折點(diǎn),也就是微軟研究院第一個(gè)在業(yè)界把深度學(xué)習(xí)用于語音識(shí)別,取得了極大性的突破,隨后又進(jìn)行了一系列性能上的提升。在過往的五年當(dāng)中,深度學(xué)習(xí)的發(fā)展是非??斓?。
講了很多深度學(xué)習(xí)的內(nèi)容,剛才談到深度學(xué)習(xí)的快速發(fā)展,它的方法很好,模型也很好,數(shù)學(xué)算法也在突破,但是現(xiàn)狀是什么呢?今天我想談的話題是大家對(duì) AI 的期待很大,但期待有些過,為什么會(huì)這么講?作為一個(gè)從業(yè)者,我認(rèn)為目前 AI 上還是有很多局限的,可能需要提出來,與大家一起探討。
第一個(gè)是深度學(xué)習(xí)本身所具備的能力,即大家所說的將 AI 與人類相比,存在多大的差距。實(shí)際上如今所有的深度學(xué)習(xí)方法,不論這個(gè)方法有多么的新,其學(xué)習(xí)過程都是要從頭開始,需要經(jīng)歷數(shù)據(jù)重新訓(xùn)練的過程。這一點(diǎn)和人的學(xué)習(xí)能力相比確實(shí)有很大的差距,因?yàn)槿擞泻芏嗟闹悄苁桥c生俱來的,如小孩剛出生,他感知這個(gè)世界是三維的并不需要多長(zhǎng)時(shí)間,并且如果你將一個(gè)物體放在電視機(jī)后面,他會(huì)知道電視機(jī)后面有這樣一個(gè)物體,這些能力是與生俱來的,其與生物的進(jìn)化是相關(guān)的。所以靈長(zhǎng)類動(dòng)物和單細(xì)胞生物相比是有與生俱來的能力的,人類的小孩不需要再次經(jīng)歷單細(xì)胞演進(jìn)到靈長(zhǎng)類動(dòng)物這一過程。但在目前的深度學(xué)習(xí)方法下,不論我們提出了多么優(yōu)秀的模型,其都需要從最開始的數(shù)據(jù)開始學(xué)。這和人類的學(xué)習(xí)能力相比,是一個(gè)巨大的缺陷。
第二個(gè)是計(jì)算能力。不論是多么好的深度學(xué)習(xí)模型或者神經(jīng)網(wǎng)絡(luò)出現(xiàn),本質(zhì)上還是通過計(jì)算能力去解決大數(shù)據(jù)的問題,更好的計(jì)算能力去做更好的擬合。在這個(gè)計(jì)算力上面,過往的十年是整個(gè)硬件發(fā)展的十年,是符合摩爾定律的。但是在以后需要訓(xùn)練更多參數(shù)的情況下,我們能否有足夠的計(jì)算力以達(dá)到預(yù)期效果還有待商榷。
從 2012 年提出來的 AlexNet 網(wǎng)絡(luò)模型,這個(gè)模型在當(dāng)時(shí)的 ImageNet 挑戰(zhàn)賽中獲得冠軍,到劍橋大學(xué)提出的 VGGNet,谷歌提出的 GoogleNet,再到 2015 年 MSR 提出的殘差神經(jīng)網(wǎng)絡(luò) ResNet,每一次新模型的提出都伴隨著模型層級(jí)的增加、神經(jīng)單元復(fù)雜度的加強(qiáng)、訓(xùn)練過程的加長(zhǎng),當(dāng)然得出來的結(jié)果也更好。但是這種通過計(jì)算力去解決問題的方式是不是還能像以前一樣可持續(xù),有待商榷。
剛才所說的都是圖像方面的研究,談及人工智能來解決系統(tǒng)認(rèn)知問題,那么與人的差距就更大了。人類語言是一個(gè)序列問題,這個(gè)語言序列問題如果通過神經(jīng)網(wǎng)絡(luò)去訓(xùn)練的話,僅通過計(jì)算力是不可能解決這個(gè)問題的。人在對(duì)話當(dāng)中很容易回溯到長(zhǎng)時(shí)間語句的某個(gè)片段關(guān)鍵詞里。但在機(jī)器學(xué)習(xí)中卻不一定能做到這樣,雖然從最早的 RNN 模型中構(gòu)建了 LSTM(長(zhǎng)短期記憶單元)模式,后來又提出了帶注意力的模型。但總體上,這種模型的演進(jìn)和人類相比是遠(yuǎn)不如人類的。舉個(gè)自然語言處理(NLP)的例子,有三個(gè)人在對(duì)話,兩個(gè)人在聊湖人跟快船的比分是幾比幾,然后中間有大段話題轉(zhuǎn)到去哪里吃飯,突然插進(jìn)來第三個(gè)人問太陽(yáng)呢?機(jī)器這時(shí)候很難理解「太陽(yáng)」到底是哪個(gè)太陽(yáng),聊天者知道這是描述太陽(yáng)隊(duì),因?yàn)樵凇溉ツ某燥垺惯@個(gè)話題前有湖人和快船的話題。但是機(jī)器基本上沒辦法識(shí)別,又如「夏天能穿多少穿多少,冬天能穿多少穿多少」,這兩句基本一樣,但前面的描述突出少,后面的突出多。這種認(rèn)知行為到目前為止,深度學(xué)習(xí)上再先進(jìn)的方法也沒辦法處理。
第二個(gè)例子是語音識(shí)別,我看過一個(gè)笑話,語音識(shí)別很難處理,「您好,方便面試嗎?」我在重復(fù)這句話的時(shí)候,我都不知道自己在講方便面——是嗎,還是方便——面試嗎,這的確是一個(gè)非常難的問題。但是人的理念里有很多東西,是可以通過反問,多次獲取信息來最終理解。所以說目前人工智能情況,在圖像方面,例如人臉識(shí)別的精確率有多么高能達(dá)到 99% 的識(shí)別率,但實(shí)際上是在很多的約束條件下才能實(shí)現(xiàn),識(shí)別正臉的模型不能識(shí)別側(cè)臉,或者是把同一個(gè)人的側(cè)臉完全識(shí)別成另外一個(gè)人。在語音識(shí)別里也是如此,目前語音識(shí)別是在獲取的信息源很干凈的情況下才能有很好的效果,比如噪音比較小、沒有混響、沒有風(fēng)噪和車噪,在這樣的條件下,機(jī)器在聽語音識(shí)別的時(shí)候才可能會(huì)識(shí)別出比較好的效果。但對(duì)人來說,這完全不是問題,以及多人的面部識(shí)別,語音跟蹤,這些對(duì)人來說都不是很難。但是對(duì)機(jī)器而言,即便在我剛剛所說的感知領(lǐng)域——圖像識(shí)別和語音識(shí)別,它跟人基本的能力相比還有很大差距,更別提在認(rèn)知的任務(wù)處理上,比如 NLP 的語意理解。
對(duì)于整個(gè)人工智能領(lǐng)域來說,我認(rèn)為人們現(xiàn)在對(duì) AI 的期待過高。我們要回歸現(xiàn)實(shí),AI 現(xiàn)在方興未艾,這個(gè)趨勢(shì)是很好。但未來 AI 發(fā)展的方向是什么呢?我覺得 AI 跟人,也即深度學(xué)習(xí)跟人的能力相比還是有些差距的。
跟人相比第一個(gè)是創(chuàng)造力的不足。我們現(xiàn)在所有深度學(xué)習(xí)的模型都是基于大數(shù)據(jù)的,這些數(shù)據(jù)從何而來?目前的數(shù)據(jù)還是通過傳統(tǒng)的方法獲取到的,但能不能通過深度學(xué)習(xí)本身創(chuàng)造出更多的數(shù)據(jù)?AlphaGo 已經(jīng)在驗(yàn)證這樣的問題,通過增強(qiáng)學(xué)習(xí)產(chǎn)生了人類從未下過的棋局并以此來訓(xùn)練模型,這是一種創(chuàng)造數(shù)據(jù)的能力。我覺得未來在這方面發(fā)展,在增強(qiáng)學(xué)習(xí)上,我們要進(jìn)行更多的發(fā)展和突破。
第二個(gè)是舉一反三能力。AlphaGo 下圍棋能贏世界冠軍,但是它如果改下其他的棋,它的下棋方法就不行了,因?yàn)樗乃惴ㄖ皇菫閲宥O(shè)。人的很多能力是可以舉一反三的,比如小孩做數(shù)學(xué)題,當(dāng)他學(xué)會(huì)列二元一次方程之后,他會(huì)很快掌握二元一次方程的技巧去解決這一類的數(shù)學(xué)應(yīng)用。這種能力在機(jī)器學(xué)習(xí)里面也有一個(gè)同質(zhì)的算法——遷移學(xué)習(xí)。當(dāng)我們?cè)谝粋€(gè)全新的應(yīng)用場(chǎng)景里,在少量數(shù)據(jù)的情況下去測(cè)試一個(gè)在大數(shù)據(jù)集上表現(xiàn)非常好的模型,如何把原來的模型遷移過來并且能夠應(yīng)用在新場(chǎng)景里,這是一個(gè)非常重要的研究方向。
第三是歸納總結(jié)的能力。人的總結(jié)能力是很強(qiáng)的,比如牛頓第一定律、萬有引力定律等,都是總結(jié)出來的,還有很多公理也都是歸納總結(jié)出來的。但是目前機(jī)器學(xué)習(xí)是沒辦法進(jìn)行歸納總結(jié)的,機(jī)器學(xué)習(xí)的結(jié)果再好也只是一個(gè)擬合過程,并沒有能力去歸納提煉。未來我們要在模型歸納總結(jié)能力上提高,如何從海量的結(jié)構(gòu)化或者非結(jié)構(gòu)化的數(shù)據(jù)中,通過機(jī)器學(xué)習(xí)來完成知識(shí)的總結(jié)和提煉神經(jīng)網(wǎng)絡(luò)中的知識(shí)(distill knowledge)。
這三個(gè)能力,我認(rèn)為這是未來 AI 需要進(jìn)行提升的地方。
另外一個(gè)維度的缺陷是在數(shù)學(xué)理論的發(fā)展方向上,剛剛講過的很多機(jī)器學(xué)習(xí)適用的數(shù)學(xué)原理和方法,實(shí)際上是很脆弱的。跟過往淺層學(xué)習(xí)的數(shù)學(xué)理論相比,深度學(xué)習(xí)的數(shù)學(xué)原理還有很多不可解釋。在淺層學(xué)習(xí)里,有完備的統(tǒng)計(jì)學(xué)概率論理論提供支撐。比如求解凸函數(shù)的極值,有很多完善的數(shù)學(xué)理論能夠證明有最優(yōu)解的存在。但是在深度機(jī)器學(xué)習(xí)的研究中,雖然前面有提到可以用隨機(jī)梯度下降的方法去求解局部最優(yōu)值,但是它只是一個(gè)框架。我們?cè)诤芏喾矫孢€在使用啟發(fā)式的約束,比如初始化參數(shù)的設(shè)置、激活函數(shù)的設(shè)置、學(xué)習(xí)率是多少,這都是基于啟發(fā)式的,也即依賴于人的經(jīng)驗(yàn)。未來機(jī)器學(xué)習(xí)的繼續(xù)發(fā)展,在數(shù)學(xué)理論上面一定要有強(qiáng)大的支撐。此外,在交叉學(xué)科的研究上要繼續(xù)加強(qiáng),我們知道感知機(jī)以及神經(jīng)網(wǎng)絡(luò)的提出來源于腦神經(jīng)學(xué)科,未來 AI 發(fā)展肯定要引入更多學(xué)科,不僅是統(tǒng)計(jì)學(xué)科、數(shù)學(xué)學(xué)科、計(jì)算機(jī)學(xué)科,還要引入腦神經(jīng)學(xué)科。之前所提到的殘差神經(jīng)網(wǎng)絡(luò),這個(gè)網(wǎng)絡(luò)在設(shè)計(jì)上已經(jīng)有一點(diǎn)接近腦神經(jīng)的設(shè)計(jì)了。因此,未來 AI 能有更完備的發(fā)展,是需要將這些學(xué)科的研究都綜合起來的。
再有一點(diǎn),就是 AI 研究的開放與平等。我認(rèn)為對(duì)任何公司和任何人,AI 都應(yīng)該是平等的,這也是我們要做開放 AI 的立足點(diǎn)之一。在現(xiàn)在的 AI 領(lǐng)域里,所有的大公司都在做開源,騰訊當(dāng)然會(huì)開放自己的研究。各大公司在開源上都表現(xiàn)出很積極的一面,比如谷歌開源了自己的機(jī)器學(xué)習(xí)框架 TensorFlow,還有很多機(jī)器學(xué)習(xí)的先行者(DeepMind、OpenAI)在做開源,在開放開發(fā)框架和訓(xùn)練數(shù)據(jù)。騰訊未來也會(huì)進(jìn)行開源很多內(nèi)容,提供一個(gè)讓更多人參的平臺(tái),共同開發(fā)人工智能。
對(duì)于未來 AI 技術(shù)的發(fā)展,首先是能力的提升,在創(chuàng)造能力、舉一反三能力以及歸納總結(jié)能力上有長(zhǎng)足進(jìn)步;另一方面是機(jī)器學(xué)習(xí)的完備性,我們要在數(shù)學(xué)完備、學(xué)科完備上進(jìn)一步進(jìn)行探索;同時(shí),所有的科技公司,AI 的參與者都要以更加開放的心態(tài)去面對(duì)人工智能。
未來 AI 大有可為
說到這個(gè)話題,我又想再次強(qiáng)調(diào) AI 對(duì)騰訊來說是非常重要的,對(duì)整個(gè)中國(guó)互聯(lián)網(wǎng)都很重要?;仡櫿麄€(gè)互聯(lián)網(wǎng)浪潮,在互聯(lián)網(wǎng)時(shí)代的初始階段,中國(guó)的互聯(lián)網(wǎng)公司跟美國(guó)最強(qiáng)的互聯(lián)網(wǎng)公司相比有一定的差距。而當(dāng)下的 AI 時(shí)代,我堅(jiān)信中國(guó)的互聯(lián)網(wǎng)公司跟世界上一流的公司是處于同一位置的,為什么?第一點(diǎn)原因,我們數(shù)據(jù)足夠多,中國(guó)的互聯(lián)網(wǎng)人數(shù)是世界上其他國(guó)家的互聯(lián)網(wǎng)人數(shù)的總和。在騰訊的業(yè)務(wù)里面,微信、QQ、QQ 空間,已經(jīng)產(chǎn)生了海量數(shù)據(jù)。在中國(guó)的其他互聯(lián)網(wǎng)公司,比如電商和搜索的公司也會(huì)產(chǎn)生大量數(shù)據(jù),這些對(duì)中國(guó)公司來說,是一個(gè)非常好的優(yōu)勢(shì)。第二個(gè)原因是來自應(yīng)用場(chǎng)景,對(duì)于騰訊的業(yè)務(wù)來說,我們有很多種把 AI 這種聽起來似乎遙不可及的技術(shù)在微信、游戲、新聞、QQ 里通過 AI 產(chǎn)品去落地,哪怕只是一個(gè)小點(diǎn)上的應(yīng)用。第三點(diǎn)是人才,目前的數(shù)據(jù)表明從事深度學(xué)習(xí)的研究人員中相當(dāng)一部分人都是中國(guó)人。雖然國(guó)內(nèi)在機(jī)器學(xué)習(xí)上的專業(yè)還比較少、學(xué)科也比較少,但是在全球范圍內(nèi),研究深度學(xué)習(xí)和機(jī)器學(xué)習(xí)的華人是非常多的。我參加 16 年的 ICML 和 NIPS,ICML 有 3000 多人,NIPS 有 6000 多人,有 30-40% 的參會(huì)人員都是華人,40% 的會(huì)議 paper 都是華裔寫的,在人才結(jié)構(gòu)上,中國(guó)有很好的人才基礎(chǔ)。正是基于我們數(shù)據(jù)的優(yōu)勢(shì),場(chǎng)景落地的優(yōu)勢(shì),人才結(jié)構(gòu)的優(yōu)勢(shì),我覺得騰訊以及其他中國(guó)互聯(lián)網(wǎng)公司,未來在 AI 上大有可為。
最后,騰訊的 AI 使命: Make AI Everywhere——讓 AI 無所不在。