关闭广告

Utopai联手LG、中东主权基金加码韩娱,新模型颠覆AI视频格局!

机器之心Pro1568人阅读

机器之心发布

机器之心编辑部

当 Sora 2、Google Veo 3 还在卷短视频逼真度,AI 影视的下一站该是长片叙事了?

在 AI 视频生成技术日新月异的今天,主流模型如 Sora 2、Google Veo 3 等已能生成视觉惊艳的短视频片段,但想要创作长视频甚至是影视作品时,AI 模型似乎开始变得力不从心。

然而,在好莱坞,一家 AI 影视公司却已经拔地而起,开始将 AI 影视生成技术从模型验证推向大规模产业化。

11 月 3 日,据 Deadline 报道,AI 原生影视工作室 Utopai Studios 与全球创新投资平台 Stock Farm Road(SFR)宣布成立资本规模达数十亿美元的合资公司 Utopai East,以加速韩国影视的国际化进程。

SFR 背后,一面是 LG 集团继承人 Brian Koo,另一面是阿联酋主权基金推动者 Amin Badr-El-Din。



报道显示,此次合作中 Utopai Studios 将成为 SFR 在娱乐领域的独家 AI 技术合作伙伴,依托 SFR 在韩国规划的 350 亿美元 AI 数据中心枢纽,构建下一代影视制作基础设施。



在这场以韩娱为核心的产业协同背后,隐藏着 Utopai 希望系统性攻克的关键命题:如何让 AI 真正理解并驾驭影视长片的叙事逻辑,进而实现从「短片生成」到 「长片制作」的工业级跨越?



视频链接:https://mp.weixin.qq.com/s/ACTi_DYghRP2rFKSungTeQ

核心问题:为何传统视频模型难以驾驭长片制作?

目前主流视频生成模型(如 Diffusion)的本质还是概率性生成器,它们逐帧或短片段独立生成视频,缺乏对长叙事逻辑的全局规划能力。

当视频生成目标从「生成片段」升级为「制作长片」时,Diffusion 模型的短板开始凸显:

  • 长程一致性崩塌:角色外貌、场景元素在跨镜头时容易出现「漂移」,例如服装颜色突变、人物外貌畸变等。
  • 叙事可控性不足:模型难以理解剧本中的因果链条(如情绪的递进转换),生成的内容往往与导演意图偏离。
  • 物理合理性缺失:模型仅学习 2D 像素统计规律,缺乏对三维空间遮挡、碰撞等规则的认知,易产生反物理的「幻觉」。

Utopai 带来的解决方案则是直击痛点 ——不再追求单一模型的极致优化,而是通过架构重组,让不同模型各司其职。

技术架构:规划与渲染解耦的协同范式

Utopai 在技术上的重要创新是构建了分层协同架构,其中自回归模型(AR)负责「规划」,扩散模型(Diffusion)负责「渲染」,二者通过统一状态空间耦合。

1.规划层:自回归模型作为「导演大脑」

  • 序列预测机制:AR 模型以剧本为输入,通过前帧预测后帧的机制,生成涵盖角色 ID 向量、摄像机轨迹、光影变化等要素的时空计划。该计划本质是一个机器可执行的「拍摄蓝图」,确保长达数十分钟的片长中元素演进逻辑保持一致。
  • 状态记忆与因果推理:模型能够维护可回放的长程状态记忆,例如追踪角色从第 1 镜到第 50 镜的动作轨迹,避免传统模型因局部生成导致的逻辑断裂。

2.渲染层:扩散模型作为「执行引擎」

  • 条件化生成:扩散模型不再随机「抽卡」,而是严格依据规划层输出的结构化指令(如深度图、光流信号)生成画面。例如,当规划层指定「摄像机以俯角拍摄雨夜小巷」 时,扩散模型就会据此渲染细节。
  • 物理规律注入:通过训练时引入带精确标注的 3D 合成数据,模型学习空间遮挡、材质反射等规则,避免生成内容违反重力或碰撞逻辑。

3.协同接口:统一状态空间

  • 规划层与渲染层通过统一状态空间交换信息:规划器输出未来帧的几何与语义约束,渲染器据此生成像素,并反馈生成结果供规划器优化后续计划。这一闭环解决了扩散模型「生成即遗忘」的缺陷。

简单来说,Utopai 的突破就在于构建了一种融合自回归模型与扩散模型的协同架构,通过「规划 — 渲染」解耦的协同范式,将 AI 从「画面生成工具」升级为「叙事协作伙伴」。

训练方法论:从 2D 统计到 3D 物理规律的跃迁

Utopai 模型能力的基石是其独特的训练策略,训练的核心是用 3D 物理规律替代 2D 像素统计。

1.预训练阶段:几何与语义对齐

通过使用高质量 3D 合成数据(如虚拟城市、动态物体),训练模型去理解场景的深度信息,如材质属性、运动轨迹等,而非仅学习网络视频的像素分布;通过构建「下一状态预测」「掩码重建」等任务,强制模型推理物体遮挡关系(如角色绕过桌椅而非穿模)。

2.微调阶段:多模态指令遵循

在这一阶段,引入剧本、分镜等专业数据,训练模型将抽象指令(如「史诗感」)转化为具体视觉元素(如低角度镜头、暖色调光影)。

这样的训练方式使模型能处理复杂指令,例如当要求角色「由怀疑转为恍然大悟」时,模型能够协调人物角色的面部微表情、肢体语言、镜头焦距的同步变化,而非简单替换表情贴图。

可量化的技术优势:定义 AI 电影叙事的新指标

当前 AI 视频领域的通用指标(如 FVD、CLIP Score)主要衡量视觉逼真度和文本符合度,但无法有效评估「叙事质量」。

Utopai 的核心优势之一,正是建立一套基于专业影视标准的内部评估体系,其在三个维度超越传统方案:

1.一致性指标

相较于通用模型在几秒后可能出现角色特征「漂移」的现象,Utopai 的系统旨在跨越数十甚至上百个镜头,仍然稳定保持核心角色身份、场景布景和光影逻辑的连续性。这种一致性不是简单的「不变化」,而是按照叙事逻辑的「合理演进」。

2.剧本指令遵从度

Utopai 能够量化生成内容与复杂剧本指令的匹配程度。例如,当剧本要求「角色从犹豫转为决绝」时,AI 模型能通过姿态、视线、镜头语言与光影的协同变化,呈现出符合表演逻辑的情感转变,而非生硬的表情切换。

3.制作效率的跃升

这样的架构能极大优化专业影视制作的前期流程,导演可通过修改时空计划(如调整摄像机轨迹)精准控制生成结果,无需反复「抽卡」,将创意迭代周期从数周缩短至几天。

Utopai 的实践揭示了一条代表范式转变的技术路径:影视级 AI 模型的未来不是替代 Diffusion 或 AR,而是通过架构创新实现专业化分工。

在这里,AI 不再是辅助工具,而是能够理解导演愿景、具备电影级思维的真实创作伙伴。

正如 Utopai 创始人兼 CEO Cecilia Shen 所言:「AI 可以生成无穷选项,但定义品味的永远是会讲故事和有艺术审美的人。」

而此次合作也不仅是资本层面的联手,更是以韩国为战略枢纽,整合 AI 技术、算力基建与内容生态的系统性布局。

当技术的成本壁垒被 AI 击穿,电影制作的未来将更多地取决于想象力的边界,而非预算的多少。那些曾因「拍不起」而被搁置的宏大叙事,或许正奔跑着拥抱 AI 影视,阔步走向好莱坞大荧幕。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

A股年内近160股易主

北京商报 浏览 1486

强调优势的吉利星愿,能否改写A0级市场的“野蛮迭代”

观察者网 浏览 1976

美媒:美军紧急出动F-16战机飞越叙中部城市上空"展示武力"

环球网资讯 浏览 1279

伊朗前总统内贾德亲信称其平安

界面新闻 浏览 1383

从夸克眼镜,到豆包手机,为什么巨头扎堆端侧AI?

华尔街见闻官方 浏览 1432

金价跌破3900美元 大学女生下跌时补仓结果亏得更多

每日经济新闻 浏览 7142

一战再战、王家卫、郑智化风波、杨振宁逝世、白百何等

电影最TOP 浏览 1643

中国“智”造闪耀国际舞台,“维度I型”无人机成功出海

红星新闻 浏览 1861

比利亚雷亚尔下赛季预算达到2.15亿欧,创下俱乐部纪录

懂球帝 浏览 1224

合资巨头挥起价格屠刀,2026年车市谁主沉浮?

禾颜阅车 浏览 310

李婉华:但凡他跟我求婚,我都不会另嫁他人

艳儿说电影 浏览 2005

来搞笑的?超级杯花名册漏洞百出:照片古早且粗糙,译名叠词

懂球帝 浏览 487

央行连续增持黄金,10月我国外汇储备规模稳中有升

中国商报 浏览 1688

42岁刘翔近况曝光

姩姩有娱 浏览 1544

拜仁独撑门面,德甲遭遇欧冠至暗一周

体坛周报 浏览 957

网飞开年第一爆剧来了,快去看

独立鱼 浏览 852

《一路繁花2》首波口碑,一针见血!

崽下愚乐圈 浏览 1815

中国职业拳击手周润琪在澳乘公交遇袭 头部被刺伤昏迷

三湘都市报 浏览 8314

俄称对乌实施大规模打击

极目新闻 浏览 1145

普京:某国准备进行核试验

北京日报 浏览 1972

何超莲窦骁合体撒糖,赴澳洲旅游被偶遇,有说有笑力破婚变传闻

扒虾侃娱 浏览 1630
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
Copyright © 2020-2022,版权所有 qukanredian.com
沪ICP备20002587号-1