Runway前腳剛發(fā)布Gen-3 Alpha,Google后腳就跟了個(gè)王炸。

北京時(shí)間6月18日凌晨,Google Deepmind發(fā)布了視頻生成音頻(Video-to-Audio,V2A)技術(shù)的進(jìn)展,可以為視頻創(chuàng)建戲劇性的背景音樂(lè),逼真的音效,甚至是人物之間的對(duì)話。
V2A技術(shù)支持為AI生成視頻“配樂(lè)”,Google還特別強(qiáng)調(diào)了官網(wǎng)發(fā)布的Demo視頻都是由自家在五月份發(fā)布的生成視頻模型“Veo”和V2A技術(shù)合作打造。
有不少網(wǎng)友表示,這下終于可以給用Luma生成的meme視頻配上聲音了!

從Google Deepmind官網(wǎng)發(fā)布的Blog上看,V2A技術(shù)會(huì)采用視頻像素和文本提示來(lái)生成與底層視頻同步的音頻波形。
首先,V2A會(huì)對(duì)視頻和文本提示進(jìn)行編碼,并通過(guò)擴(kuò)散模型迭代運(yùn)行,將隨機(jī)噪聲細(xì)化為與視頻和所提供的文本提示相匹配的真實(shí)音頻,最后再對(duì)音頻進(jìn)行解碼并與視頻數(shù)據(jù)相結(jié)合。

X網(wǎng)友紛紛表示太贊了,但就是有一個(gè)小小小小的問(wèn)題,和同樣是凌晨發(fā)布的Runway的視頻生成模型Gen-3 Alpha一樣,這
又是一個(gè)大家都用不上的超贊模型,到底啥時(shí)候開(kāi)源讓咱們?cè)囋囁?/p>
