近日,一篇由迪士尼研究所和幾所大學(xué)的研究人員撰寫的論文發(fā)布,文章介紹了一種基于深度學(xué)習(xí)的程序語言動畫新方法。
該系統(tǒng)對人類說話錄音進(jìn)行采樣,并使它自動生成匹配的嘴型動畫。該方法可以應(yīng)用到從提高管道動畫的效率到使VR社交更有說服力,它可以在VR社交中實(shí)時(shí)化地呈現(xiàn)角色的演講內(nèi)容。
迪士尼研究所、加拿大東加利福尼亞理工大學(xué)和卡內(nèi)基梅隆大學(xué)的研究人員撰寫了這篇題為《廣義語音動畫深度學(xué)習(xí)方法》的論文。論文描述了一種已經(jīng)用“深度學(xué)習(xí)/神經(jīng)網(wǎng)絡(luò)”方法訓(xùn)練的系統(tǒng),利用單個(gè)揚(yáng)聲器8小時(shí)的參考畫面(2543句),教導(dǎo)系統(tǒng)根據(jù)不同的語音單元(稱為音素)配合生成不同嘴型及其組合。
經(jīng)過訓(xùn)練的系統(tǒng)可以自主分析來自任何揚(yáng)聲器的音頻,并自動產(chǎn)生相應(yīng)的嘴型,然后將其用于動畫模型的自動語音生成。
在VR中,該系統(tǒng)可以通過用戶語音實(shí)時(shí)對應(yīng)虛擬角色的嘴型,使其更加逼真。
一些社交應(yīng)用已經(jīng)在使用各種系統(tǒng)進(jìn)行嘴形跟蹤。Oculus為Unity提供了一個(gè)嘴型同步插件,其原理是基于音頻輸入來確定角色說話嘴型。然而與迪士尼提供的新系統(tǒng)相比,細(xì)節(jié)性和準(zhǔn)確性都差了些。