迪士尼研究所和幾所大學(xué)的研究員們撰寫了一份新報(bào)告,報(bào)告稱能通過(guò)深度學(xué)習(xí)來(lái)程序化制作語(yǔ)音動(dòng)畫。這種系統(tǒng)從人類演講的音頻材料中抽樣,再自動(dòng)產(chǎn)生搭配的口型動(dòng)畫。這種方法應(yīng)用方面很廣,能提高語(yǔ)音動(dòng)畫制作的效率,能在社交VR設(shè)置中通過(guò)實(shí)時(shí)模仿演講做出更像的社交vr交互,不勝枚舉。
研究者們來(lái)自于迪士尼研究中心,東安格利亞大學(xué),加利福尼亞大學(xué),加州理工學(xué)院和卡內(nèi)基梅隆大學(xué),一起撰寫了一篇名為“深度學(xué)習(xí)方法產(chǎn)生語(yǔ)音動(dòng)畫”的文章。這篇文章寫到有一種系統(tǒng)能通過(guò)“深度學(xué)習(xí)/神經(jīng)網(wǎng)絡(luò)”的訓(xùn)練,用八個(gè)小時(shí)讀取某一位說(shuō)話人的參考畫面(2543個(gè)句子),最后通過(guò)各種演講中的音素和音素的組合教會(huì)系統(tǒng)口型。
如下:右臉是參考畫面。視頻訓(xùn)練后,只基于音頻輸入,左臉上的嘴根據(jù)系統(tǒng)產(chǎn)生口型。
訓(xùn)練過(guò)的系統(tǒng)之后能分析任何一位說(shuō)話人的音頻,自動(dòng)產(chǎn)生相應(yīng)的嘴型,再應(yīng)用到產(chǎn)生自動(dòng)語(yǔ)音動(dòng)畫的臉部模型中。研究者們說(shuō)這個(gè)系統(tǒng)是與說(shuō)話人獨(dú)立的,而且能去模仿別的語(yǔ)言。
“通過(guò)一種簡(jiǎn)單而有效的學(xué)習(xí)方法,系統(tǒng)能自動(dòng)產(chǎn)生看起來(lái)自然的語(yǔ)音動(dòng)畫,并且是與語(yǔ)音輸入同步的。我們的方法是:使用變化的的窗口預(yù)測(cè),通過(guò)精確地捕捉自然動(dòng)作和可視的協(xié)同發(fā)音效應(yīng),學(xué)習(xí)任意非線性映像,從音素輸入序列到口型動(dòng)作。這種方法有幾大優(yōu)勢(shì)特質(zhì):實(shí)時(shí)運(yùn)作,要求最小參數(shù)調(diào)音,概括產(chǎn)生新的輸入語(yǔ)音序列,易于編輯產(chǎn)生程式化的感情豐沛的演講,并且與現(xiàn)有的動(dòng)畫重新定向方法兼容。
以前,與動(dòng)畫角色錄音配套的動(dòng)畫都是由熟練的動(dòng)畫設(shè)計(jì)師純手工制作的。雖然這種系統(tǒng)沒(méi)法做到你所期待的,像制成動(dòng)畫里一樣高還原度的語(yǔ)音動(dòng)畫,但它可以用來(lái)制作動(dòng)畫的初稿,或者制作人為無(wú)法模擬的語(yǔ)音動(dòng)畫,比如說(shuō)大型角色扮演游戲中非玩家角色的對(duì)話,或是預(yù)算低而雇不起動(dòng)畫設(shè)計(jì)師的項(xiàng)目(教學(xué)視頻,培訓(xùn)視頻,學(xué)術(shù)項(xiàng)目等等)。
至于VR,這種系統(tǒng)能通過(guò)實(shí)時(shí)模擬用戶嘴型,使社交VR更真實(shí)。真實(shí)的口型軌跡(光學(xué)的或其它方式)可能是最精確的模擬演講方式,但是像這樣程序化產(chǎn)生語(yǔ)音動(dòng)畫的系統(tǒng)才是目前實(shí)用的方法,除非有一天口型軌跡硬件已經(jīng)廣泛使用了。
一些社交VR應(yīng)用已經(jīng)使用了各種系統(tǒng)來(lái)模擬口型;Oculus(歐酷來(lái))也提供了一款唇同步插件給Unity,用來(lái)通過(guò)語(yǔ)音輸入模擬口型。但是上文的這種系統(tǒng),基于新的深度學(xué)習(xí),它似乎給語(yǔ)音動(dòng)畫帶來(lái)前所未有的細(xì)節(jié)和準(zhǔn)確性,意義重大。