Runway前腳剛發布Gen-3 Alpha,Google后腳就跟了個王炸。

北京時間6月18日凌晨,Google Deepmind發布了視頻生成音頻(Video-to-Audio,V2A)技術的進展,可以為視頻創建戲劇性的背景音樂,逼真的音效,甚至是人物之間的對話。
V2A技術支持為AI生成視頻“配樂”,Google還特別強調了官網發布的Demo視頻都是由自家在五月份發布的生成視頻模型“Veo”和V2A技術合作打造。
有不少網友表示,這下終于可以給用Luma生成的meme視頻配上聲音了!

從Google Deepmind官網發布的Blog上看,V2A技術會采用視頻像素和文本提示來生成與底層視頻同步的音頻波形。
首先,V2A會對視頻和文本提示進行編碼,并通過擴散模型迭代運行,將隨機噪聲細化為與視頻和所提供的文本提示相匹配的真實音頻,最后再對音頻進行解碼并與視頻數據相結合。

X網友紛紛表示太贊了,但就是有一個小小小小的問題,和同樣是凌晨發布的Runway的視頻生成模型Gen-3 Alpha一樣,這
又是一個大家都用不上的超贊模型,到底啥時候開源讓咱們試試水!
