北京時間2018年11月28日,第六屆中國網(wǎng)絡(luò)視聽大會在成都盛大召開,此次大會為期4天,以“凝心聚力 創(chuàng)造美好新視界”為主題,其中,11月30日下午舉行的“AI賦能 俯瞰視界”人工智能應(yīng)用發(fā)展論壇上,由武漢大學(xué)教授、博士生導(dǎo)師唐存琛擔(dān)任主持,金山云CDN及視頻云產(chǎn)品中心總經(jīng)理宗劼、華數(shù)傳媒互聯(lián)網(wǎng)技術(shù)部副總經(jīng)理安竹勇、央視國際網(wǎng)絡(luò)有限公司技術(shù)事業(yè)群副總經(jīng)理韓嫕、聲網(wǎng) Agora首席產(chǎn)品架構(gòu)師侯希明、小米人工智能與云平臺語音總監(jiān)王育軍、金山云AI首席算法架構(gòu)師蘇馳擔(dān)任嘉賓,以AI賦能視聽視頻產(chǎn)業(yè)前沿技術(shù),云計算驅(qū)動視聽體驗(yàn)創(chuàng)新為主題的圓桌對話也如期展開。
Q:在網(wǎng)絡(luò)視聽領(lǐng)域方面,短視頻是一個很容易突破的點(diǎn),各位嘉賓認(rèn)為應(yīng)該從哪個方面入手更能提高效率?
宗劼:對于AI而言,最關(guān)鍵的核心是應(yīng)用場景,金山視頻云關(guān)注的是如何為客戶提供更好的服務(wù),在節(jié)省成本的基礎(chǔ)上,交出一份高品質(zhì)的服務(wù)。在AI技術(shù)上,金山云提倡運(yùn)用智能的壓縮算法,在保證圖像和視頻大幅度提高時,保證產(chǎn)品在有線網(wǎng)絡(luò)帶寬的正常傳輸,這對于金山云而言是最基礎(chǔ)的層面。同時,由于傳輸內(nèi)容的多樣性,金山云在對于內(nèi)容識別、內(nèi)容分辨和內(nèi)容理解上將多做一些識別,有助于提升客戶的體驗(yàn)度。
安竹勇:對于媒體宣傳而言,AI在應(yīng)用視頻方面還不夠成熟。目前,AI還處于初級階段,主要任務(wù)是輔助人們的工作。目前杭州的天眼系統(tǒng)就是利用圖像識別輔助交警實(shí)現(xiàn)智能抓拍。
侯希明:對于如何做好AI的問題,目前有兩個方式:一個是內(nèi)升,一個是外因。內(nèi)升是指質(zhì)量本身,金山在軟件視頻方面會在考慮成本因素的前提下,把視頻質(zhì)量做到極致。第二是外因,智能語音的實(shí)現(xiàn)還有很多難題需要解決,其中涉及語言不同領(lǐng)域的辨識度方面存在巨大瓶頸。
王育軍:隨著應(yīng)用場景逐漸多樣化,依然需要堅持做傳統(tǒng)的云業(yè)務(wù)。在傳統(tǒng)云業(yè)務(wù)里,其中識別和語音識別都屬于傳統(tǒng)問題。眾所周知,聲紋一直是市場上的弱需求,有關(guān)它的數(shù)據(jù)一直是一個瓶頸。同時,除了把傳統(tǒng)的語音識別的業(yè)務(wù)做好外,還應(yīng)該做好推廣的任務(wù),在更多的人接觸人工智能產(chǎn)品后,間接的會為人工智能造就更多的數(shù)據(jù)。
蘇馳:人工智能只處于初級階段,目前人工智能比較成熟的技術(shù)就是人臉識別。同時,人工智能識別的技術(shù)能幫助我們有效的對監(jiān)管內(nèi)容進(jìn)行審核。為了加速AI的落地,我們將通過算法和數(shù)據(jù)的搜集,達(dá)到AI替人做決策的目的。這將有助于線上的內(nèi)容監(jiān)管和娛樂內(nèi)容的理解,形成一個有效的人機(jī)互動環(huán)境。
Q:對未來人工智能的長期布局,各位嘉賓有什么高見?
蘇馳:人工智能對規(guī)則的掌握比較快,但是在變通方面還有待加強(qiáng)。未來AI發(fā)展的第一個方向是學(xué)習(xí)推理能力,其次是遷移學(xué)習(xí)能力,最后是試錯的能力。目前,對數(shù)據(jù)標(biāo)準(zhǔn)的好壞沒有明顯的界定,這需要阿法狗通過強(qiáng)化學(xué)習(xí)去試錯,這才會幫助AI具備強(qiáng)化學(xué)習(xí)的功能。
王育軍:未來人工智能還是解決剛需問題。眾所周知,剛需既來自用戶,也來自企業(yè)。從技術(shù)角度出發(fā),剛需是滿足大家愿意看到的需求。而從企業(yè)角度出發(fā),通過大規(guī)模的增加機(jī)器和大規(guī)模增加數(shù)據(jù)解決問題,是企業(yè)的剛需。
侯希明:目前就AI而言,很多的公司已經(jīng)在投入布局,包括自動駕駛、人機(jī)交互、自然語言處理、人臉識別。而金融行業(yè)做AI有很多細(xì)分的賽道,其中就包括企業(yè)的IPO,企業(yè)IPO會提供大量的數(shù)據(jù)上來,你怎么對它的數(shù)據(jù)做智能識別,在提交給證監(jiān)會之前把所有的內(nèi)容識別并糾正出來,這就是AI很好的應(yīng)用。
安竹勇:目前,人工智能的人臉識別可以說是非常成熟的技術(shù)。眾所周知,人臉建模是AI技術(shù)里相對容易的領(lǐng)域,但也還處在輔助人工的階段,并沒有做到人工決策的階段。而在語音識別問題上,應(yīng)用層面的需求比較迫切,對于解決中文語音識別的問題一直處于瓶頸期,其中包括識別中文中間很多的密碼語言和小語種的方言,甚至一些暗語,這都需要人工智能有更大的投入。
宗劼:從業(yè)務(wù)角度入手,人工智能分為兩大類。目前,人工智能叫自適應(yīng)機(jī)器學(xué)習(xí),它由數(shù)據(jù)、搜集和算法三部分組成。而另外一個觀點(diǎn)是常識智能,即小孩通過慢慢的學(xué)習(xí)積累形成的常識理論,這是人的智能,不是人工智能。值得注意的是,從問題的角度來看,金山云對整個人工智能做的做大的貢獻(xiàn)就是算率。金山云通過兩種方式把算率最大化,一個是組合起來最大化,還有一個則是使用最大化。
Q:目前,應(yīng)用當(dāng)中哪些技術(shù)是實(shí)踐中可以應(yīng)用的,哪些技術(shù)是行業(yè)短期內(nèi)迫切需要的?
安竹勇:我個人覺得圖像識別已經(jīng)相對成熟,在生活中已經(jīng)應(yīng)用得非常多。但是,目前規(guī)劃后一步要做的就是選一些輔助的工作,只是入手的角度不一樣。前面是對原數(shù)據(jù)的輔助,后面是輔助類似于內(nèi)容整合和內(nèi)容編排。2019年,新的探索項(xiàng)目會產(chǎn)生,類似智能編排?;谥安季至酥悄軜?biāo)簽,智能場景化的原數(shù)據(jù),人工智能就能有序完成推薦。
Q:圖像識別與圖像語義或者是行為識別之間是什么關(guān)系?
侯希明:圖像識別是一個非常廣的概念,剛剛提到的是指人臉的范疇。目前,雖然有很多人在做物體識別的研究,但是行為識別也逐漸受到關(guān)注。例如,微軟正在研究人走動的時候,根據(jù)人走動時的形狀來推測行人的行為。雖然人臉識別技術(shù)已經(jīng)相當(dāng)成熟,但是在物體識別和行為識別上的研究很早就開始了。關(guān)于物體識別和行為的技術(shù),由于物體識別的復(fù)雜性,落地到民用階段還有一定的距離。
Q:人工智能如何解決非規(guī)則變化的現(xiàn)實(shí)問題?
蘇馳:雖然計算機(jī)有吞并的能力,但是語音識別和語意的識別都屬于階段性層面的產(chǎn)物。當(dāng)計算機(jī)階段性的得到一個反饋,反饋有可能是指一個結(jié)果或者是一個過程,我們把這一系列反饋稱作為系列的輸入。值得注意的是,這跟視頻一樣可以把不規(guī)則的東西變成規(guī)則,相當(dāng)于微分進(jìn)行處理。
Q:隨著AI技術(shù)應(yīng)用領(lǐng)域不斷擴(kuò)展,一些有關(guān)法律方面的問題應(yīng)該怎么看待?
王育軍:從就業(yè)角度來看,人工智能在提高效率的同時,也會造就一些列問題。語音識別系統(tǒng)智能客服產(chǎn)生后,人們可以從繁重的工作中解放出來,客服人員可以做機(jī)器的老師,設(shè)計規(guī)則,標(biāo)注數(shù)據(jù)等。人工智能的長處是補(bǔ)足人類不足的新場景。從法律的角度講,目前人工智能引起關(guān)注最多的是用戶隱私的問題。雖然人臉檢測只應(yīng)用于輔助階段,但是對用戶的隱私窺探也存在著隱患。例如,小米在使用任何數(shù)據(jù)時,都要通過兩會的審核。