关闭广告

微信AI团队,悄悄干了件大事,算力消耗暴降44%!

智东西1593人阅读


智东西
作者 陈骏达
编辑 李水青

智东西11月5日报道,近日,腾讯微信AI团队发布的一篇论文在海外AI圈引发广泛关注。论文提出了一种名为“连续自回归语言模型(CALM)”的新颖架构。与传统Transformer相比,CALM直接将训练大模型所用的计算量减少了44%,推理时的计算量也减少了34%

CALM的核心逻辑是,将连续的K个token压缩成一个语义向量,并在生成时直接预测“下一个向量”而非“下一个token”。假设K=4,那么原本需要逐步生成4次的内容,现在只需1步即可完成,使其能在一次生成中输出更多信息,大幅提升效率。

这项研究的相关讨论在社交媒体平台X的阅读量累计已经超过100万次,在评论区引起热议。

提示词分享网站godofprompt.ai的联合创始人Robert Youssef认为,CALM或许就是AI领域下一次大的范式转变,彻底颠覆了所有大语言模型赖以构建的“下一个token预测”范式,让大模型不再逐字思考,而是以想法为单位进行思考,简直不可思议。这一方法如果能成功扩展,那么现有的LLM都将过时。


还有多位网友认为CALM提出的概念值得探讨,但关键是需要在更大规模的Scaling过程中获得验证。


然而,也有人质疑CALM的前景。这位网友称,CALM只是杨立昆的一个老旧想法,训练不稳定,基础很薄弱,且无法扩展,是一种“有缺陷的方案”。


CALM论文的作者均在微信AI团队任职,第一作者邵晨泽曾在中科院计算所智能信息处理实验室完成博士学业。这篇论文的其他作者包括Darren Li、Fandong Meng和Jie Zhou,其中,Darren Li是清华大学求真学院的在读学生。为方便后续研究,研究使用的预训练Autoencoder以及CALM的检查点均可供下载。


论文地址:

https://arxiv.org/abs/2510.27688

项目主页:

https://github.com/shaochenze/calm?tab=readme-ov-file

一、性能比肩同量级Transformer,训练计算量减少44%

那么,在与Transformer的对决中,CALM究竟表现出了何种优势?

在评估两者的性能前,CALM团队首先需要打造适合的评估工具。过去业内用来衡量语言模型预测质量的一个指标是困惑度(Perplexity),直观地说,它表示模型在面对真实语言数据时“有多困惑”——困惑度越低,说明模型越自信、预测越准确。

困惑度评估并不适用于CALM的架构。作者因此提出新的评价体系——BrierLM指标。这一指标源于经典的Brier Score,由气象学家Glenn W. Brier在1950年提出,用来评估天气预报的好坏。

BrierLM通过组合不同n-gram的Brier得分,提供了一个统一的、可比较的语言建模指标。它利用模型采样结果即可无偏估计预测质量,既能衡量准确性,又能惩罚过度确定性。

实验证明,BrierLM与交叉熵几乎线性相关,可作为困惑度的替代品,并适用于其他隐式生成模型。


CALM团队使用The Pile语料训练了多款CALM架构的模型,然后用WikiText-103数据集来测试模型的性能。

训练时,CALM团队分别打造了不同参数量的模型,分别为0.371B参数量的CALM-M、0.735B参数量的CALM-L和1.82B参数量的CALM-XL。

当K=4,也就是每个连续向量对应4个原始token时,CALM-M的性能略逊于0.281B参数量的Transformer-S模型,但CALM-M的训练计算量比Transformer-S少44%,推理计算量少34%,展现出更好的算力-性能平衡。随着模型变大,性能也稳定提升,就像普通Transformer一样。


CALM团队还研究了语义带宽K的作用。随着语义带宽K增大,计算需求线性下降,而但性能下降并不明显。

当K从1变为2时,模型所需的训练算力大幅减少50%左右;当K=4时,CALM实现了效率与性能的较好平衡;K=8时,其性能出现一定下滑。

CALM团队认为这是模型尺寸导致的。以后,随着模型尺寸的提升,CALM架构或许可以一次性预测更多token,从更大的语义带宽中受益。


CALM的作者们还比较了不同生成头的性能。能量模型单步生成性能最高,而且不需要迭代采样,一次就能生成结果。扩散与流匹配模型虽可行,但要么性能不佳,要么代价高昂。


二、从离散token到连续向量,语言模型如何驶入语义“高速公路”?

那么,CALM究竟为何要进行从“预测token”到“预测向量”的巨大转变呢?这一转变,又是如何让CALM以更低的算力需求,实现比肩Transformer的生成效果?

CALM的第一作者邵晨泽在其撰写的博客中,解释了打造CALM的原因。现代大语言模型好比一个“法拉利级”的引擎——它拥有数千亿参数,能够理解语义、执行复杂推理、生成高质量文本与代码。

然而,这一引擎却被限制在一条狭窄的乡间小路上,永远只能卡在第一档。这条小路就是自回归生成机制:模型一次只能预测一个离散token,无论引擎多强,吞吐量都会受到限制,这导致了模型推理速度慢、计算成本高等问题。

过去,人们试图通过扩大基本单位来“拓宽道路”。从字符级到子词级(subword token)的变化,确实提升了效率。

但如今,这条路径已触及“离散token的物理极限”:在一个典型的32K词表中,每个生成步骤的语义带宽约为15位,要想将带宽翻倍,词表规模必须指数级增长——这使得模型在计算上几乎不可行。换句话说,离散token的Scaling已经碰壁了。

如果离散token是瓶颈,那么我们就需要一种具有可扩展语义带宽的新型文本单元。CALM代表从离散到连续的变化,其核心思想就是让模型不再预测下一个token,而是预测下一个向量——一个压缩了连续K个token的语义信息。


这一改变相当于为大模型开辟了一条多车道的高速公路——每次生成能携带更多语义,显著减少自回归步数,从而大幅提升效率。

CALM的第一步是建立一个高保真自编码器(Autoencoder),在离散token与连续向量之间建立双向映射。

编码器的作用是将一段K个token压缩为一个连续向量,而解码器从该向量中重建出原始tokens。

通过交叉熵损失训练后,该模型能以99.9%的精度重构文本片段。论文指出,这是可行的:一个浮点向量的比特容量远高于一个离散token,足以存储多倍的信息。

然而,高精度重构并不代表模型的稳定性。若向量空间过于“脆弱”,轻微噪声就可能使解码器输出完全不同的文本。为此,作者引入了三项关键改进:

变分正则化(VAE):令编码器输出高斯分布,使潜空间更平滑;

KL裁剪(KL Clipping):防止潜变量塌缩到无效维度;

双重Dropout:对输入与潜向量加入噪声,迫使模型学习冗余且稳定的表征。

结果是一个既紧凑又稳健的连续语义表示:当K=4、潜向量维度为128时,模型在加入约0.3方差高斯噪声的情况下,仍能保持99.9%的重构精度。

这一语义压缩器为CALM奠定了坚实基础——让语言可以在一个可连续建模、可容错的向量空间中流动。

三、 怎么让模型预测下一个向量?靠“无似然建模”

有了向量化的语义序列,语言建模任务变成了预测下一个连续向量。然而,如何教会模型进行下一个向量预测,又成了新的挑战。

如今,几乎所有主流大模型都采用最大似然训练(Maximum Likelihood Estimation)——即通过softmax计算出“每个token出现的概率”,并最大化训练数据的似然值的做法。

这样的训练方式要求模型能在一个离散的词表中明确地为每个token给出概率分布,但在连续向量空间中,没有有限词表,softmax无法定义概率分布。

因此,CALM放弃了最大似然训练,转而采用无似然建模(likelihood-free modeling)。这种方法不再要求模型显式计算概率,改用间接目标函数,让模型学会生成与数据分布相似的样本。

简单来说,模型不再告诉你“这个词的概率是多少”,而是直接生成一个向量,让它尽可能接近真实的语义向量分布。

CALM的作者团队尝试了多种无似然方法(如 Diffusion、Flow Matching),但最终提出并验证了最优方案——基于能量评分(Energy Score)的生成头(generative head)。


▲CALM的模型架构

这一生成头接收Transformer的隐藏状态和一个随机噪声向量作为输入,在连续空间中预测下一个语义向量。通过优化能量得分,模型能够在不计算显式概率的情况下,学会生成既多样又符合语义规律的向量序列。

能量得分是一种严格正确的评分规则,不依赖概率密度,而以样本间距离衡量预测分布的好坏。它同时平衡两种目标:

(1)多样性项惩罚过度自信、鼓励多样化生成;

(2)保真项奖励预测与真实向量接近。

模型通过最大化能量得分,使其隐式分布逼近真实数据分布。为了实现高效训练,作者采用蒙特卡洛估计,仅需少量样本即可获得无偏梯度。

这种方法带来了两大优势。首先,不同于扩散模型需上百次采样,Energy Head一步即可生成下一个向量;其次,这一方法的通用性强,只需能采样即可训练,无需显式概率公式。

在推理时,CALM将预测向量传入预训练的解码器,还原出离散token,再经轻量MLP压缩输入到Transformer,实现完整的自回归循环。

在传统的LLM中,调整温度(temperature)是控制生成“创造力”的关键手段。模型在生成时会输出一组logits——也就是每个候选token的未归一化得分。通过将这些logits除以温度参数T,再经过softmax,就能得到新的概率分布。

然而,CALM没有logits。因此,其背后团队提出了基于拒绝采样与Bernoulli Factory理论的全新算法:

(1)当温度T=1/n时,只需抽取n个样本,若全相同则接受;

(2)对任意T,可分解为整数与小数部分并通过二阶段采样实现。

CALM团队还设计了批量近似算法,可显著提升效率且在理论上无偏差。这使得CALM及其他隐式模型能够像普通大语言模型一样实现可控生成。

结语:大模型探索Scaling新路径

未来,CALM的作者团队计划继续在架构和算法方面进行更多优化,包括设计更优的自编码器、开发更强大的架构以及提出更轻量级的采样技术。

他们还希望探索CALM的Scaling特性,验证一大关键假设:更大模型是否具备支撑更高语义带宽的必需容量。CALM的作者们认为,“语义带宽K”已成为继参数规模与数据量之后,大模型性能的第三个可扩展维度。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

美媒破大防:越南假想美国入侵 却不忌惮中国

澎湃新闻 浏览 2795

华硕推出《崩坏 3》限定礼盒,内含爱莉希雅主题 ROG Phone 配件

IT之家 浏览 1753

春季躁动,AI软件应用迎来“奇点时刻”

懂财帝 浏览 1002

阿里研究:视频制作迎来"遥控器"时代,想让画面怎么动就怎么动

科技行者 浏览 1051

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者 浏览 1683

"不要国王"抗议席卷全美 特朗普发布AI视频回应

看看新闻Knews 浏览 7960

NVIDIA团队发明超高效视频生成黑科技:让4K视频制作速度提升15倍

科技行者 浏览 1795

美总统威胁对尼日利亚动武 尼方回应

环球网资讯 浏览 1605

四年减少771万!稳出生人口,要加力了

西部城市 浏览 968

以色列总理称将召集内阁批准停火协议

央视新闻客户端 浏览 1876

或成新公路之王! 极氪8X预售37.68万起

网易汽车 浏览 248

51岁周迅又穿成人间香奈儿,这个搭配思路确实好用

黎贝卡的异想世界 浏览 1988

董卿母子现身看电影,13岁儿子身高超160

娱乐圈圈圆 浏览 1391

欧洲提交修改版和平计划 涵盖乌克兰安全保障方式

上观新闻 浏览 1470

香港五级大火令人揪心 一众明星发声

天启大世界 浏览 1464

新东方员工再出新歌"骂"公司 俞敏洪曾奖励12万

界面新闻 浏览 6437

特朗普对中国加征100%关税意欲何为 专家:捞谈判筹码

红星新闻 浏览 8608

谭松韵扛剧能力被质疑 赵丽颖成女主?

楚楚号 浏览 1224

开局2026,企业家的坚守与求变|封面故事

中国企业家杂志 浏览 1075

商务部公告附件首次改为wps格式,金山办公的信创未来该咋看?

江瀚视野 浏览 1914

摆烂太难?篮网45分狂胜雄鹿 战绩仍优于快艇国王

体坛周报 浏览 1159
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
Copyright © 2020-2022,版权所有 qukanredian.com
沪ICP备20002587号-1