迪士尼黑科技！讓虛擬人物自動(dòng)“對(duì)口型”

OTT dvbcn編輯 2017-08-21 09:44 閱讀 7,972 來(lái)源：DVBCN 　

迪士尼研究所和幾所大學(xué)的研究員們撰寫了一份新報(bào)告，報(bào)告稱能通過(guò)深度學(xué)習(xí)來(lái)程序化制作語(yǔ)音動(dòng)畫。這種系統(tǒng)從人類演講的音頻材料中抽樣，再自動(dòng)產(chǎn)生搭配的口型動(dòng)畫。這種方法應(yīng)用方面很廣，能提高語(yǔ)音動(dòng)畫制作的效率，能在社交VR設(shè)置中通過(guò)實(shí)時(shí)模仿演講做出更像的社交vr交互，不勝枚舉。

研究者們來(lái)自于迪士尼研究中心，東安格利亞大學(xué)，加利福尼亞大學(xué)，加州理工學(xué)院和卡內(nèi)基梅隆大學(xué)，一起撰寫了一篇名為“深度學(xué)習(xí)方法產(chǎn)生語(yǔ)音動(dòng)畫”的文章。這篇文章寫到有一種系統(tǒng)能通過(guò)“深度學(xué)習(xí)/神經(jīng)網(wǎng)絡(luò)”的訓(xùn)練，用八個(gè)小時(shí)讀取某一位說(shuō)話人的參考畫面（2543個(gè)句子），最后通過(guò)各種演講中的音素和音素的組合教會(huì)系統(tǒng)口型。

如下：右臉是參考畫面。視頻訓(xùn)練后，只基于音頻輸入，左臉上的嘴根據(jù)系統(tǒng)產(chǎn)生口型。

訓(xùn)練過(guò)的系統(tǒng)之后能分析任何一位說(shuō)話人的音頻，自動(dòng)產(chǎn)生相應(yīng)的嘴型，再應(yīng)用到產(chǎn)生自動(dòng)語(yǔ)音動(dòng)畫的臉部模型中。研究者們說(shuō)這個(gè)系統(tǒng)是與說(shuō)話人獨(dú)立的，而且能去模仿別的語(yǔ)言。

“通過(guò)一種簡(jiǎn)單而有效的學(xué)習(xí)方法，系統(tǒng)能自動(dòng)產(chǎn)生看起來(lái)自然的語(yǔ)音動(dòng)畫，并且是與語(yǔ)音輸入同步的。我們的方法是：使用變化的的窗口預(yù)測(cè)，通過(guò)精確地捕捉自然動(dòng)作和可視的協(xié)同發(fā)音效應(yīng)，學(xué)習(xí)任意非線性映像，從音素輸入序列到口型動(dòng)作。這種方法有幾大優(yōu)勢(shì)特質(zhì)：實(shí)時(shí)運(yùn)作，要求最小參數(shù)調(diào)音，概括產(chǎn)生新的輸入語(yǔ)音序列，易于編輯產(chǎn)生程式化的感情豐沛的演講，并且與現(xiàn)有的動(dòng)畫重新定向方法兼容。

以前，與動(dòng)畫角色錄音配套的動(dòng)畫都是由熟練的動(dòng)畫設(shè)計(jì)師純手工制作的。雖然這種系統(tǒng)沒(méi)法做到你所期待的，像制成動(dòng)畫里一樣高還原度的語(yǔ)音動(dòng)畫，但它可以用來(lái)制作動(dòng)畫的初稿，或者制作人為無(wú)法模擬的語(yǔ)音動(dòng)畫，比如說(shuō)大型角色扮演游戲中非玩家角色的對(duì)話，或是預(yù)算低而雇不起動(dòng)畫設(shè)計(jì)師的項(xiàng)目（教學(xué)視頻，培訓(xùn)視頻，學(xué)術(shù)項(xiàng)目等等）。

至于VR，這種系統(tǒng)能通過(guò)實(shí)時(shí)模擬用戶嘴型，使社交VR更真實(shí)。真實(shí)的口型軌跡（光學(xué)的或其它方式）可能是最精確的模擬演講方式，但是像這樣程序化產(chǎn)生語(yǔ)音動(dòng)畫的系統(tǒng)才是目前實(shí)用的方法，除非有一天口型軌跡硬件已經(jīng)廣泛使用了。

一些社交VR應(yīng)用已經(jīng)使用了各種系統(tǒng)來(lái)模擬口型；Oculus（歐酷來(lái)）也提供了一款唇同步插件給Unity,用來(lái)通過(guò)語(yǔ)音輸入模擬口型。但是上文的這種系統(tǒng)，基于新的深度學(xué)習(xí)，它似乎給語(yǔ)音動(dòng)畫帶來(lái)前所未有的細(xì)節(jié)和準(zhǔn)確性，意義重大。

對(duì)口型