关闭广告

边打字边出片,交互式生成长视频!英伟达联合MIT开源新SOTA

新智元2014人阅读


新智元报道

编辑:LRST

【新智元导读】AI拍长视频不再是难事!LongLive通过实时交互生成流畅画面,解决了传统方法的卡顿、不连贯等痛点,让普通人都能轻松拍大片。无论是15秒短片还是240秒长片,画面连贯、节奏流畅,让创作变得像打字一样简单。

你还在为拍视频头疼吗?

想象一下你正在写一个故事,主角从城市街头一路打到未来太空,剧情越来越精彩,突然你灵光一闪——

「如果他这时候变身成反派,故事会不会更炸?」

以前,你得重新写剧本、找素材、剪辑、渲染……

现在,你只需要打一句话,AI实时生成新剧情,而且画面连贯、节奏流畅,边想边出片,像电影一样!

近日,NVIDIA联合MIT等机构重磅推出LongLive,把交互式视频生成性能干到SOTA,最长实现4分钟,可以实时交互式长视频生成。


项目地址:https://nvlabs.github.io/LongLive/

论文链接:https://arxiv.org/abs/2509.22622

项目主页:https://nvlabs.github.io/LongLive/

视频1:交互式视频生成结果展示

LongLive的惊艳不止于实时交互,别家模型「跑长跑就掉鞋」,我们把终点线直接拉到4分钟——240秒一镜到底,人物不崩、剧情不跳、镜头不晃。

视频2:和其他模型在长视频生成上的视觉对比。LongLive生成速度快的同时,还保持了视觉一致性和语义上的连贯

对比Sora2,由于Sora2每次只能生成10秒视频,Sora2借助GPT-5对输入进行了优化,尽可能地增加背景和上下文信息,来提示Sora2生成的连贯性。

视频3:Sora2与LongLive在长视频生成上的对比。Sora2在视频质感、运镜以及物理规律模拟等方面非常强大,但难免会出现突变和不一致。LongLive连续性好且生成速度快

VBench-Long权威测评显示,LongLive在长视频赛道拿下84.87总分,领先同量级选手近4分;背景一致性94.8、主角一致性94.0,全程零闪变,比SkyReels-V2快了41倍。


表1:LongLive和其他模型在长视频生成上的User Study对比

回到日常短视频(15-30秒)场景,一样「稳又快」:20.7帧/秒生成速度,比播放速度还快;VBench短片段评分86.97,视觉效果依旧SOTA。


表2:LongLive在VBench 短视频评测榜单上的性能比较

一句话,无论15秒爆款还是240分钟大片,LongLive都给你影院级稳感和丝滑产出

现在,很多扩散模型的做法由于双向注意力机制导致长时域生成过慢。而另一些则是「把一段视频一段视频分别生成然后拼起来」,所以越长越崩,人物形象完全错误,还有一些方法由于训练阶段使用短视频,推理阶段则推长视频导致训推不一致。

总结为:

  • 不用KV-cache,时间太慢并且形象错乱。

  • 使用KV-cache,实时交互困难。

  • 训不动长视频,推理则错误累计。


而LongLive完美解决这些痛点,一个真正面向长视频生成交互式的训练和推理算法。滚动式窗口支持长视频训练,单张GPU实现240s实时交互生成。

视频4:240s长视频生成效果

LongLive三板斧

LongLive的核心秘诀是「三把钥匙」,专门解决「长、顺、快」不可能三角:

长跑钥匙——Streaming Long Tuning

专为「长度」而生:训练时就让模型自己跑完240秒,边生成边学习,像陪练一样陪它冲过终点,从此不再「train-short-test-long」,越长越稳。


图2:流式长视频微调流程图。

剧情钥匙——KV-Recache

换剧情时,旧画面不丢,新指令立刻生效。就像导演现场改剧本,演员自然接戏,不会「出戏」或「重来」。


图3:不同策略对比来看,LongLive提出的KV re-cahce完美解决所有痛点

时间锚点和聚光灯注意力——Frame Sink和Short-Window

把开头几帧永久「钉」在记忆里,后面无论怎么拍,人物长相、场景风格都不会跑。相当于给整部片上了「定妆锁」。


图4:LongLive提出的sink策略保持风格一致

只看最近关键几帧,算力减半,画面反而更稳。就像摄影师只追焦主角,背景再乱也不影响镜头清晰度。


图5:LongLive提出的Shift Window策略极致的加速生成和降低算力消耗

三招齐下,才能让你「边聊边拍」240 秒依旧不崩、不跳、不重来,这才是 LongLive敢把「交互式长视频」做成「打字速度」的大秘诀。

LongLive把「写一句话」变成「拍一部大片」,长视频一镜到底、随时改戏、立等可取——从此,长视频不再是专业团队的专利,而是每个人随手可得的创意游乐场。

真正的交互式视觉时代已悄然开启,AI的每个灵感都值得被实时看见,被长久记住。

参考资料:

https://arxiv.org/abs/2509.22622

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

巴黎小将博利首次代表一线队出场却上半场就伤退,含泪离场

懂球帝 浏览 1287

50岁女子当入殓师:有家属为抢房产要掀棺抬老人遗体

新京报 浏览 7548

9个月出口571万辆车 中国汽车远征军杀出新血路

科学知识点秀 浏览 1710

为了考公上岸,我花2万元在郊区封闭备考

豹变 浏览 559

终结3连败!骑士大胜双杀步行者 米切尔43分末节16分

醉卧浮生 浏览 1373

淘宝闪购参战、AI化改造加速,第17个双11,天猫有了新方向

电商在线 浏览 1787

泡椒凤爪“塌房”,有友食品躺枪

斑马消费 浏览 267

首款中国超跑,比亚迪仰望 U9 将入驻《GT 赛车 7》

IT之家 浏览 1817

汪涵老婆自曝独自住院,素颜憔悴没人陪

大龄女一晓彤 浏览 2018

牛弹琴:中国的两个邻国大打出手了 战况很惨烈

大象新闻 浏览 8828

美媒:以总理计划说服特朗普帮忙打伊朗

北京日报 浏览 1244

神奇少帅诞生!陈涛2战6分上岸,媒体人狂赞:比不靠谱洋帅强多了

奥拜尔 浏览 1752

ESPN:若卡塞米罗接受大幅降薪,曼联不排除留下他

懂球帝 浏览 1947

曾随海港4次夺冠!33岁名将告别中超 不舍离开将屈尊B队+征战中乙

我爱英超 浏览 1082

媒体:中东欧三国欲组队 在欧盟内部对援乌政策"掀桌"

上观新闻 浏览 6907

小号普拉多 丰田兰德酷路泽FJ全球首发亮相

车质网 浏览 1625

日本汽车业面临停产风险!

电动知家 浏览 1773

郭爸曝郭碧婷家庭花销全靠她,嫁入"假豪门"?

代军哥哥谈娱乐 浏览 1907

消息称小鹏今年将推G01等4款新车,冲击55万-60万销量目标

IT之家 浏览 930

美CPI降温别高兴太早:经济学家怀疑政府关门导致数据失真,有人指明显出错

华尔街见闻官方 浏览 1251

“史上最长”春节点燃旅游热情 已有心急旅客下单

新京报 浏览 6496
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
Copyright © 2020-2022,版权所有 qukanredian.com
沪ICP备20002587号-1