快手的視頻生成大模型“可靈”自面世以來,引發了國內外的廣泛關注。
6月21日,可靈再度進化,正式推出圖生視頻功能,支持用任意靜態圖像生成5s視頻,并且可搭配不同的文本內容,實現豐富的視覺敘事 。同時,可靈還發布了業內領先的視頻續寫功能,可為已生成的視頻(含文生視頻及圖生視頻)提供便捷的一鍵續寫和連續多次續寫,將視頻最長可延伸至約3分鐘,充分顯示了可靈強大的想象力與精細的可控性,極大地拓展了視頻大模型的創作邊界。
化靜為動 按需定制視覺敘事
此前,“可靈”在文生視頻方面已經展現出了創造逼真運動場景、精確模擬物理特性的強大能力,以及將復雜概念巧妙融合的高超技藝,其輸出堪比電影級畫質,并允許用戶自由調節視頻的縱橫比。而這些卓越特性,如今都被完美融入到了圖生視頻模型。用戶只需上傳一張圖片,“可靈”即能基于對圖像的深度解析,變靜為動,賦予其5秒的鮮活生命力。
上傳經典的蒙娜麗莎,可靈能夠讓蒙娜麗莎戴上墨鏡,并賦予她靈動的眼神交流。讓名畫中的人物活靈活現。
得益于其基礎模型架構中的3D時空聯合注意力機制,可靈在構建復雜時空運動方面也展現了卓越能力。這使得模型在轉換靜態圖像為動態視頻時,能夠細膩而準確地實現大幅度運動場景。例如,只需上傳一張牧羊犬追球的靜止照片,模型就能生成一段生動的視頻:牧羊犬活靈活現地奔跑追逐網球,其耳朵輕輕晃動,毛發隨風飄揚,而網球則在空中彈跳,視頻整體自然而流暢。
再以一張汽車飛馳的圖片為素材,可靈能創造出身臨其境的駕駛場景。在這段視頻中,汽車不僅在公路上展現出疾速前行的姿態,而且巧妙地融入了對向車道上連續不斷的車流。同時,道路兩旁的樹木快速向后掠去,模擬出強烈的行駛速度感,而虛化處理的隔離帶進一步增強了視覺上的動態效果與速度印象,整體畫面宛如出自精心策劃的廣告大片。
可靈圖生視頻模型還融入了強大的提示詞融合技術,深化了對圖像語義與用戶指令的理解整合。這意味著,模型能夠根據用戶提供的不同文本指令,精妙地變換視頻中的動態表現。舉例來說,當使用一張女孩的照片生成視頻,模型默認生成的效果可能是輕風中她發絲輕輕飄動,周遭花朵搖曳,水面閃爍著細膩的波紋。而如果用戶具體輸入“女孩轉身背對鏡頭”,視頻便會智能添加女孩優雅轉身的動作,并細膩捕捉到轉身瞬間的微笑和眨眼,展現了自然而生動的細節處理能力。