圓桌對(duì)話：AI賦能視聽(tīng)視頻產(chǎn)業(yè)前沿技術(shù)，云計(jì)算驅(qū)動(dòng)視聽(tīng)體驗(yàn)創(chuàng)新

5G寬帶 dvbcn編輯 2018-12-06 17:24 閱讀 5,528 來(lái)源：DVBCN 　

北京時(shí)間2018年11月28日，第六屆中國(guó)網(wǎng)絡(luò)視聽(tīng)大會(huì)在成都盛大召開(kāi)，此次大會(huì)為期4天，以“凝心聚力創(chuàng)造美好新視界”為主題，其中，11月30日下午舉行的“AI賦能俯瞰視界”人工智能應(yīng)用發(fā)展論壇上，由武漢大學(xué)教授、博士生導(dǎo)師唐存琛擔(dān)任主持,金山云CDN及視頻云產(chǎn)品中心總經(jīng)理宗劼、華數(shù)傳媒互聯(lián)網(wǎng)技術(shù)部副總經(jīng)理安竹勇、央視國(guó)際網(wǎng)絡(luò)有限公司技術(shù)事業(yè)群副總經(jīng)理韓嫕、聲網(wǎng) Agora首席產(chǎn)品架構(gòu)師侯希明、小米人工智能與云平臺(tái)語(yǔ)音總監(jiān)王育軍、金山云AI首席算法架構(gòu)師蘇馳擔(dān)任嘉賓，以AI賦能視聽(tīng)視頻產(chǎn)業(yè)前沿技術(shù)，云計(jì)算驅(qū)動(dòng)視聽(tīng)體驗(yàn)創(chuàng)新為主題的圓桌對(duì)話也如期展開(kāi)。

圓桌對(duì)話：AI賦能視聽(tīng)視頻產(chǎn)業(yè)前沿技術(shù)，云計(jì)算驅(qū)動(dòng)視聽(tīng)體驗(yàn)創(chuàng)新-DVBCN

Q：在網(wǎng)絡(luò)視聽(tīng)領(lǐng)域方面，短視頻是一個(gè)很容易突破的點(diǎn)，各位嘉賓認(rèn)為應(yīng)該從哪個(gè)方面入手更能提高效率?

宗劼：對(duì)于AI而言，最關(guān)鍵的核心是應(yīng)用場(chǎng)景，金山視頻云關(guān)注的是如何為客戶提供更好的服務(wù)，在節(jié)省成本的基礎(chǔ)上，交出一份高品質(zhì)的服務(wù)。在AI技術(shù)上，金山云提倡運(yùn)用智能的壓縮算法，在保證圖像和視頻大幅度提高時(shí)，保證產(chǎn)品在有線網(wǎng)絡(luò)帶寬的正常傳輸，這對(duì)于金山云而言是最基礎(chǔ)的層面。同時(shí)，由于傳輸內(nèi)容的多樣性，金山云在對(duì)于內(nèi)容識(shí)別、內(nèi)容分辨和內(nèi)容理解上將多做一些識(shí)別，有助于提升客戶的體驗(yàn)度。

安竹勇：對(duì)于媒體宣傳而言，AI在應(yīng)用視頻方面還不夠成熟。目前，AI還處于初級(jí)階段，主要任務(wù)是輔助人們的工作。目前杭州的天眼系統(tǒng)就是利用圖像識(shí)別輔助交警實(shí)現(xiàn)智能抓拍。

侯希明：對(duì)于如何做好AI的問(wèn)題，目前有兩個(gè)方式：一個(gè)是內(nèi)升，一個(gè)是外因。內(nèi)升是指質(zhì)量本身，金山在軟件視頻方面會(huì)在考慮成本因素的前提下，把視頻質(zhì)量做到極致。第二是外因，智能語(yǔ)音的實(shí)現(xiàn)還有很多難題需要解決，其中涉及語(yǔ)言不同領(lǐng)域的辨識(shí)度方面存在巨大瓶頸。

王育軍：隨著應(yīng)用場(chǎng)景逐漸多樣化，依然需要堅(jiān)持做傳統(tǒng)的云業(yè)務(wù)。在傳統(tǒng)云業(yè)務(wù)里，其中識(shí)別和語(yǔ)音識(shí)別都屬于傳統(tǒng)問(wèn)題。眾所周知，聲紋一直是市場(chǎng)上的弱需求，有關(guān)它的數(shù)據(jù)一直是一個(gè)瓶頸。同時(shí)，除了把傳統(tǒng)的語(yǔ)音識(shí)別的業(yè)務(wù)做好外，還應(yīng)該做好推廣的任務(wù)，在更多的人接觸人工智能產(chǎn)品后，間接的會(huì)為人工智能造就更多的數(shù)據(jù)。

蘇馳：人工智能只處于初級(jí)階段，目前人工智能比較成熟的技術(shù)就是人臉識(shí)別。同時(shí)，人工智能識(shí)別的技術(shù)能幫助我們有效的對(duì)監(jiān)管內(nèi)容進(jìn)行審核。為了加速AI的落地，我們將通過(guò)算法和數(shù)據(jù)的搜集，達(dá)到AI替人做決策的目的。這將有助于線上的內(nèi)容監(jiān)管和娛樂(lè)內(nèi)容的理解，形成一個(gè)有效的人機(jī)互動(dòng)環(huán)境。

Q:對(duì)未來(lái)人工智能的長(zhǎng)期布局，各位嘉賓有什么高見(jiàn)?

蘇馳：人工智能對(duì)規(guī)則的掌握比較快，但是在變通方面還有待加強(qiáng)。未來(lái)AI發(fā)展的第一個(gè)方向是學(xué)習(xí)推理能力，其次是遷移學(xué)習(xí)能力，最后是試錯(cuò)的能力。目前，對(duì)數(shù)據(jù)標(biāo)準(zhǔn)的好壞沒(méi)有明顯的界定，這需要阿法狗通過(guò)強(qiáng)化學(xué)習(xí)去試錯(cuò)，這才會(huì)幫助AI具備強(qiáng)化學(xué)習(xí)的功能。

王育軍：未來(lái)人工智能還是解決剛需問(wèn)題。眾所周知，剛需既來(lái)自用戶，也來(lái)自企業(yè)。從技術(shù)角度出發(fā)，剛需是滿足大家愿意看到的需求。而從企業(yè)角度出發(fā)，通過(guò)大規(guī)模的增加機(jī)器和大規(guī)模增加數(shù)據(jù)解決問(wèn)題，是企業(yè)的剛需。

侯希明：目前就AI而言，很多的公司已經(jīng)在投入布局，包括自動(dòng)駕駛、人機(jī)交互、自然語(yǔ)言處理、人臉識(shí)別。而金融行業(yè)做AI有很多細(xì)分的賽道，其中就包括企業(yè)的IPO，企業(yè)IPO會(huì)提供大量的數(shù)據(jù)上來(lái)，你怎么對(duì)它的數(shù)據(jù)做智能識(shí)別，在提交給證監(jiān)會(huì)之前把所有的內(nèi)容識(shí)別并糾正出來(lái)，這就是AI很好的應(yīng)用。

安竹勇：目前，人工智能的人臉識(shí)別可以說(shuō)是非常成熟的技術(shù)。眾所周知，人臉建模是AI技術(shù)里相對(duì)容易的領(lǐng)域，但也還處在輔助人工的階段，并沒(méi)有做到人工決策的階段。而在語(yǔ)音識(shí)別問(wèn)題上，應(yīng)用層面的需求比較迫切，對(duì)于解決中文語(yǔ)音識(shí)別的問(wèn)題一直處于瓶頸期，其中包括識(shí)別中文中間很多的密碼語(yǔ)言和小語(yǔ)種的方言，甚至一些暗語(yǔ)，這都需要人工智能有更大的投入。

宗劼：從業(yè)務(wù)角度入手，人工智能分為兩大類。目前，人工智能叫自適應(yīng)機(jī)器學(xué)習(xí)，它由數(shù)據(jù)、搜集和算法三部分組成。而另外一個(gè)觀點(diǎn)是常識(shí)智能，即小孩通過(guò)慢慢的學(xué)習(xí)積累形成的常識(shí)理論，這是人的智能，不是人工智能。值得注意的是，從問(wèn)題的角度來(lái)看，金山云對(duì)整個(gè)人工智能做的做大的貢獻(xiàn)就是算率。金山云通過(guò)兩種方式把算率最大化，一個(gè)是組合起來(lái)最大化，還有一個(gè)則是使用最大化。

Q：目前，應(yīng)用當(dāng)中哪些技術(shù)是實(shí)踐中可以應(yīng)用的，哪些技術(shù)是行業(yè)短期內(nèi)迫切需要的?

安竹勇：我個(gè)人覺(jué)得圖像識(shí)別已經(jīng)相對(duì)成熟，在生活中已經(jīng)應(yīng)用得非常多。但是，目前規(guī)劃后一步要做的就是選一些輔助的工作，只是入手的角度不一樣。前面是對(duì)原數(shù)據(jù)的輔助，后面是輔助類似于內(nèi)容整合和內(nèi)容編排。2019年，新的探索項(xiàng)目會(huì)產(chǎn)生，類似智能編排?；谥安季至酥悄軜?biāo)簽，智能場(chǎng)景化的原數(shù)據(jù)，人工智能就能有序完成推薦。

Q：圖像識(shí)別與圖像語(yǔ)義或者是行為識(shí)別之間是什么關(guān)系?

侯希明：圖像識(shí)別是一個(gè)非常廣的概念，剛剛提到的是指人臉的范疇。目前，雖然有很多人在做物體識(shí)別的研究，但是行為識(shí)別也逐漸受到關(guān)注。例如，微軟正在研究人走動(dòng)的時(shí)候，根據(jù)人走動(dòng)時(shí)的形狀來(lái)推測(cè)行人的行為。雖然人臉識(shí)別技術(shù)已經(jīng)相當(dāng)成熟，但是在物體識(shí)別和行為識(shí)別上的研究很早就開(kāi)始了。關(guān)于物體識(shí)別和行為的技術(shù)，由于物體識(shí)別的復(fù)雜性，落地到民用階段還有一定的距離。

Q：人工智能如何解決非規(guī)則變化的現(xiàn)實(shí)問(wèn)題?

蘇馳：雖然計(jì)算機(jī)有吞并的能力，但是語(yǔ)音識(shí)別和語(yǔ)意的識(shí)別都屬于階段性層面的產(chǎn)物。當(dāng)計(jì)算機(jī)階段性的得到一個(gè)反饋，反饋有可能是指一個(gè)結(jié)果或者是一個(gè)過(guò)程，我們把這一系列反饋稱作為系列的輸入。值得注意的是，這跟視頻一樣可以把不規(guī)則的東西變成規(guī)則，相當(dāng)于微分進(jìn)行處理。

Q：隨著AI技術(shù)應(yīng)用領(lǐng)域不斷擴(kuò)展，一些有關(guān)法律方面的問(wèn)題應(yīng)該怎么看待?

王育軍：從就業(yè)角度來(lái)看，人工智能在提高效率的同時(shí)，也會(huì)造就一些列問(wèn)題。語(yǔ)音識(shí)別系統(tǒng)智能客服產(chǎn)生后，人們可以從繁重的工作中解放出來(lái),客服人員可以做機(jī)器的老師，設(shè)計(jì)規(guī)則，標(biāo)注數(shù)據(jù)等。人工智能的長(zhǎng)處是補(bǔ)足人類不足的新場(chǎng)景。從法律的角度講，目前人工智能引起關(guān)注最多的是用戶隱私的問(wèn)題。雖然人臉檢測(cè)只應(yīng)用于輔助階段，但是對(duì)用戶的隱私窺探也存在著隱患。例如，小米在使用任何數(shù)據(jù)時(shí)，都要通過(guò)兩會(huì)的審核。