趣看热点

这项由越南国家大学理学院和新加坡Knovel工程实验室联合开展的研究发表于2026年1月的arXiv预印本平台，论文编号为arXiv:2601.19375v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当我们训练一个AI助手时，就像教育一个孩子一样——我们希望它既聪明能干，又知道什么事不能做。但现实往往事与愿违，即使是经过精心训练的AI模型，仍然可能被"坏人"诱导做出有害行为，这就像一个平时很乖的孩子突然被陌生人用糖果骗走一样。

传统的解决方案就像给整个学校换校长一样，需要重新训练整个AI模型，不仅费时费力，还可能影响AI的其他能力。研究团队想到了一个更巧妙的办法：既然不能改变AI的"大脑结构"，那能不能像做精密手术一样，只在关键部位进行调整呢？

这种想法并非天方夜谭。AI模型的工作原理有点像人脑的神经网络，信息在不同层次间传递和处理。之前的研究者已经发现，可以在AI运行时实时调整这些信息流，就像在流水线上临时改变某个环节的工作方式。然而，这些早期方法就像用锤子修手表一样粗暴——要么完全删除某些功能，要么盲目地在所有地方都进行调整，结果往往是AI要么完全"失声"，要么说出一堆毫无意义的话。

研究团队深入分析了这个问题，发现了两个关键洞察。首先，AI大脑的不同层次就像工厂的不同车间，有些专门负责理解语言，有些负责推理，有些负责输出答案。如果在错误的车间进行调整，不仅不会达到预期效果，反而会破坏整个生产流程。其次，之前的调整方法在数学上存在缺陷，会破坏信息的"纯净度"，就像在清澈的水中加入了杂质，导致后续处理出现问题。

研究团队提出的"选择性引导"技术就像一位经验丰富的外科医生，能够精准定位需要"手术"的部位，并使用最温和的方式进行调整。

一、AI大脑的"地图绘制"：发现行为控制的关键区域

要实现精准控制，首先需要绘制一张AI大脑的详细地图。研究团队发现，AI在处理"有害"和"无害"请求时，大脑的激活模式截然不同，就像人在思考"帮助别人"和"伤害别人"时，大脑的活跃区域完全不同。

他们通过分析发现，AI的不同层次对这两类信息的反应呈现出明显的规律。在早期层次中，这两种信息几乎无法区分，就像两条河刚从山顶流下时都很相似。但随着信息在网络中传递，差异逐渐显现，到了中间层次，两种信息开始呈现出"正负相反"的特征——当处理有害请求时某个区域高度活跃，处理无害请求时同一区域则相对平静。

这个发现至关重要，因为它告诉我们哪些"车间"真正参与了道德判断的过程。研究团队将这些关键区域称为"判别层"，只有在这些层次进行调整，才能有效改变AI的行为，同时不影响其他功能。

更有趣的是，他们发现这种模式在不同大小、不同架构的AI模型中都存在，就像所有人类在思考道德问题时都会激活相似的大脑区域一样。这意味着这项技术具有广泛的适用性。

二、数学原理的修正：让调整过程"滴水不漏"

在确定了调整位置后，研究团队着手解决调整方法本身的问题。之前的技术在进行调整时，会无意中改变信息的"总量"，这就像调节水龙头时不仅改变了水流方向，还改变了水流大小，导致下游的所有设备都受到影响。

研究团队发现，这个问题源于之前方法在数学实现上的疏忽。虽然理论上这些方法应该保持信息总量不变，但在实际计算时却做不到这一点。他们通过严格的数学推导，证明了之前方法的缺陷，并提出了一个完美的解决方案。

新的调整方法基于"旋转"的概念，就像调整一个方向盘而不改变汽车的速度。在数学上，这种旋转操作能够严格保证信息的"总量"保持不变，同时精确改变其"方向"。这种方法的优雅之处在于，它能够在二维平面内进行任意角度的调整，提供了从轻微影响到完全改变的连续控制能力。

更重要的是，这种旋转操作天生具有"可逆性"，就像录音机的倒带功能一样，可以随时撤销之前的调整。这为安全性提供了额外保障。

三、精准定位与温和调整：选择性引导的核心技术

选择性引导技术的核心在于两个关键创新的结合：精准定位需要调整的层次，以及使用数学上完美的旋转方法进行调整。

在定位阶段，技术会自动分析每个层次中"有害"和"无害"信息的表现模式。当这两种信息在某个层次呈现出"背道而驰"的特征时——也就是说，一个向左倾斜，另一个向右倾斜——这个层次就被标记为"判别层"。这种自动识别过程就像有经验的医生能够通过X光片精准定位病灶位置一样。

一旦确定了目标层次，系统就会构建一个二维的"调整平面"，其中一个维度代表已识别的行为特征，另一个维度代表相关的辅助信息。通过在这个平面内进行精确的角度旋转，可以实现对AI行为的精细控制。

这种调整过程的温和性体现在多个方面。首先，它只影响被明确识别的判别层，其他层次完全不受干扰，就像只在需要的房间开灯，不会影响整栋楼的电力系统。其次，旋转操作本身是"保量"的，确保信息流的稳定性。最后，调整的强度可以通过旋转角度精确控制，从细微调节到显著改变都能实现。

四、广泛验证：九个AI模型的一致表现

为了验证这项技术的有效性和通用性，研究团队在九个不同的AI模型上进行了详尽测试。这些模型来自三个主要家族：Llama系列（包括3.1-8B、3.2-1B、3.2-3B版本）、Qwen系列（包括2.5-1.5B、2.5-3B、2.5-7B版本）以及Gemma系列（包括2-2B、2-9B版本），覆盖了从15亿到90亿参数的广泛范围。

实验结果令人鼓舞。在生成质量方面，选择性引导技术在所有测试模型上都实现了零困惑度违规，这意味着调整后的AI仍能保持流畅、连贯的表达能力。相比之下，传统方法经常出现生成崩溃，产出大量重复文字或混杂外语的无意义内容。

在行为控制效果方面，新技术的表现更加出色。在最具挑战性的小型模型上，选择性引导技术的成功率比传统方法高出5.5倍。例如，在Qwen2.5-1.5B模型上，传统方法的成功率仅为13.46%，而新技术达到了74.04%。在某些模型上，传统方法完全失效（成功率为0%），而新技术仍能达到82.69%的成功率。

更令人印象深刻的是能力保持方面的表现。在标准能力测试中，使用选择性引导技术的AI模型几乎保持了100%的原始能力，在数学推理、常识问答、事实判断等多个维度都没有显著下降。这说明技术的"手术刀"般的精准性确实有效，没有"误伤"到AI的其他功能。

五、深入分析：为什么精准定位如此重要

研究团队通过详细的对比实验揭示了精准定位的重要性。他们设计了多种层次选择策略：随机选择一半层次、只选择早期层次、只选择晚期层次、以及选择所有层次，然后与选择性引导的判别层选择策略进行对比。

结果显示，盲目的层次选择策略几乎都以失败告终。随机选择和早期层次选择的成功率接近零，这证明了"乱投医"的无效性。只选择晚期层次稍好一些，但仍然远不如精准的判别层选择。最有趣的是"选择所有层次"的策略——表面上看似乎效果不错，但仔细分析发现，这种方法虽然能改变AI的行为，但代价是严重破坏生成质量，产出大量无意义文本。

这些对比实验就像医学研究中的对照组试验，清楚地证明了选择性引导技术中每个组件的必要性。精准定位不是可有可无的优化，而是技术成功的关键前提。

六、数学完美性的重要意义

研究团队还专门验证了数学上完美的旋转操作的重要性。他们将自己的方法与之前的近似方法进行对比，两种方法都只在相同的判别层进行调整，唯一区别就是数学实现的精确性。

结果令人震惊：即使在最优的层次选择下，数学上有缺陷的旧方法仍然几乎完全失效。在Qwen2.5-3B模型上，旧方法的成功率为0%，而数学完美的新方法达到84.6%。这26倍到70倍的性能差异清楚地表明，数学精确性不是学术上的吹毛求疵，而是实用技术的基础要求。

这个发现对整个领域具有重要启示：在AI控制技术中，理论的严谨性和实现的精确性同样重要。一个在数学上有瑕疵的方法，无论其他方面多么优秀，都难以在实际应用中发挥作用。

七、技术应用前景与局限性

选择性引导技术为AI安全控制开辟了新的可能性。与需要重新训练整个模型的传统方法相比，这种技术可以在AI运行时实时应用，大大降低了部署成本和技术门槛。更重要的是，它提供了连续可调的控制精度，使得安全管理者可以根据具体情况灵活调整AI的行为边界。

然而，研究团队也坦诚地指出了技术的局限性。首先，特征方向的提取仍然依赖于相对简单的统计方法，可能无法捕捉到最优的控制方向。更复杂的机器学习方法可能会带来进一步的改进，但也会增加计算成本。

其次，二维调整平面的构建采用了启发式方法，虽然在实验中表现良好，但缺乏理论上的最优性保证。未来的研究可能会开发出更加精确的平面构建方法，进一步提升控制效果。

最后，虽然技术在多个模型家族上都表现出色，但不同架构的AI可能需要针对性的调整策略。研究团队观察到，某些模型显示出双峰控制模式，暗示其内部可能存在多个相关的行为控制机制。

八、对AI安全领域的深远影响

这项研究的意义远超技术本身。它证明了AI的行为控制可以通过精确的科学方法实现，而不需要依赖粗暴的重训练或简单的功能删除。这为构建更安全、更可控的AI系统提供了可行路径。

更重要的是，选择性引导技术展示了AI内部机制研究的实用价值。通过深入理解AI的"思考过程"，我们不仅能够发现问题所在，还能找到精确的解决方案。这种从基础研究到实际应用的完整链条，为AI安全研究树立了新的标杆。

技术的高效性也具有重要的实践意义。计算成本从原来的O(Ldmodel)降低到O(|Ldisc|dmodel)，其中判别层数量通常远小于总层数，这意味着在保持效果的同时显著降低了资源消耗。这种效率提升为技术的大规模应用扫除了障碍。

研究团队的开源承诺也值得称赞。他们承诺公开所有代码和方法细节，使得其他研究者可以复现结果、验证方法并进行改进。这种开放态度有助于整个领域的快速发展和技术的广泛应用。

说到底，这项研究向我们展示了一个令人振奋的可能性：我们不仅能够构建强大的AI系统，还能够精确地控制它们的行为。就像给汽车安装了精密的方向盘和刹车系统一样，选择性引导技术为AI的安全运行提供了可靠的保障。虽然技术仍有改进空间，但它已经为AI安全控制开启了一扇新的大门。

随着AI技术的快速发展和广泛应用，如何确保这些系统既强大又安全成为了关键挑战。选择性引导技术的成功表明，通过深入的科学研究和精确的工程实现，我们完全有能力迎接这一挑战。这不仅是技术进步的体现，更是人类智慧在AI时代的重要胜利。

Q&A

Q1：选择性引导技术是什么原理？

A：选择性引导技术就像给AI做精密手术，它能自动找到AI大脑中负责道德判断的关键区域（判别层），然后用数学上完美的旋转方法进行调整，既能改变AI的行为倾向，又不会破坏其他功能，避免了传统方法的粗暴和副作用。

Q2：这项技术比传统方法好在哪里？

A：传统方法就像用锤子修手表，要么完全删除功能，要么盲目调整所有部位，经常导致AI说话混乱或完全失效。选择性引导技术在九个AI模型上的成功率比传统方法高出5.5倍，同时保持了近100%的原始能力，生成的文本仍然流畅自然。

Q3：选择性引导技术有什么实际应用价值？

A：这项技术可以在AI运行时实时调整其行为，大大降低了AI安全控制的成本和门槛。它为构建更安全可控的AI助手、内容审核系统等提供了可行路径，让AI既保持智能又遵守安全边界，对AI安全领域具有重要推动作用。

VNU University of Science：精准调控技术提升机器人执行能力

和不扫兴的人...

曲婉婷近照疑...

CBA战报：...

千匹V8越野...

与美主持人激...

货拉拉等平台...

英媒：面对美国欧洲领导人＂必须学会反击＂

《逍遥》大结局：纪严下线订单终于到达，最终还是领导了结了他！

干货！拆解欧阳娜娜“美商开挂”的3个核心思路

当年最红的女明星，“孤苦伶仃”？

伊朗：将以“最强硬方式”回应美任何攻击

性价比最高的MacBook来了！苹果把iPhone处理器塞进笔记本里

刘晓庆严正否认男友及北京去世等不实传闻

美财长公然挑拨中阿关系:米莱承诺＂让中国退出阿根廷＂

尤文啃下硬骨头斯帕莱蒂拿到“最重要的胜利”

英国正为乌克兰研发新型导弹：可深入打击俄境内目标

曾毓群赴穗，小鹏与宁德双方能否“破冰复合”？

今年冬天最美搭配：大衣+裙子，谁穿谁好看！

聂卫平告别仪式：兰莉娅变化大

这一天，35岁李沁秒了28岁陈哲远，才知李少红当年的眼光有多绝

男子深夜抢走绍兴金店150多克黄金饰品逃了5分钟落网

英伟达发布新一代Rubin平台，推理成本较Blackwell降10倍，拟下半年发货

欧洲多国：美国赶紧“还钱”

特朗普签行政令征收25%新关税加密货币超24万人爆仓

中海成都谋变？曝开发公司连亏2年，桐梓林28亩项目寻合作

【现场】球场简陋无碍“贴脸开大”，巴列卡诺闷平皇马

马杜罗纽约＂首秀＂神态轻松比＂V字剪刀手＂遭多方解读

刚刚！利好，直线暴涨！

马筱梅罕谈大S过去，撕碎S家仅剩的“体面”？

协助拦截伊朗无人机乌克兰遭“敲打”