OpenAI文生視頻大模型Sora發布后,國內企業爭相入局,國產文生視頻大模型邁入加速階段。36kr獲悉,近日又一國產視頻大模型加入戰局,快手“可靈”視頻生成大模型官網目前已正式上線。相較此前各家放出的視頻大模型以展示視頻為主,本次亮相的可靈大模型不但效果對標Sora,且已在快手旗下的快影App開放邀測體驗。
可靈大模型官網
作為短視頻領域頭部玩家,快手在短視頻視頻技術方面有多年的深入積累,其視頻生成大模型也有天然、廣泛的應用場景。可靈大模型為快手AI團隊自研,采用類Sora的技術路線并結合多項自研創新技術,具備諸多優勢:1、能夠生成大幅度的合理運動;2、能夠模擬物理世界特性;3、具備強大的概念組合能力和想象力;4、生成的視頻分辨率高達1080p,時長高達2分鐘(幀率30fps),且支持自由的寬高比。
具體而言:可靈大模型能夠生成大幅度的合理運動。可靈采用了3D時空聯合注意力機制,能夠更好地建模視頻中的復雜時空運動。因此,可靈大模型不僅能夠生成較大幅度的運動,且更符合客觀運動規律,能夠真正做到讓想象力動起來。下面宇航員在月球上奔跑的例子中,隨著鏡頭慢慢抬升,我們可以看到宇航員跑步的動作流暢輕盈,步態和影子的運動合理恰當。
prompt:一名宇航員在月球表面奔跑,低角度鏡頭展現了月球的廣闊背景,動作流暢且顯得輕盈
能夠模擬真實物理世界的特性。得益于自研模型架構及Scaling Law激發出的強大建模能力,可靈大模型為我們構建起了一個無限逼近現實的想象空間,無論是真實世界的光影反射,重力影響下的流體運動,還是與物理世界的交互,可靈大模型都能夠生成符合物理規律的視頻。下面是小男孩吃漢堡的生成視頻,一口咬下去,漢堡被咬掉一個大大的缺口,并在視頻中一直保持。可以看到小孩咀嚼漢堡的享受表情,臉部的肌肉動態非常逼真。
prompt:一個戴眼鏡的中國男孩在快餐店內閉眼享受美味的芝士漢堡
具備強大的概念組合能力和想象力。憑借模型對文本-視頻語義的深刻理解和基于 Diffusion Transformer 架構學到的強大概念組合能力,可靈大模型能夠將用戶豐富的想象力轉化為具體的畫面,讓創意觸手可及。下面的視頻展示了熊貓吉他手坐在湖邊彈著吉唱著歌的想象場景。
prompt:一只大熊貓在湖邊彈吉他
可靈大模型生成的視頻分辨率高達1080p、時長高達2分鐘(幀率30fps),且支持自由的輸出視頻寬高比。可靈大模型的自研3D VAE能夠將視頻編碼到緊湊的隱空間并解碼成帶有豐富細節的視頻,可以生成高達1080p分辨率30fps的視頻。得益于高效的訓練基礎設施、極致的推理優化和可擴展的基礎架構,可靈大模型能夠生成長達2分鐘的視頻。在推理過程中,還可以做到同樣內容輸出多種視頻寬高比。同時,可靈官網還展示了分鐘級的視頻生成效果,可以跟隨鏡頭看到,小男孩騎自行車游覽花園,在一鏡到底中穿越春夏秋冬四季的風景。
