关闭广告

脚踏实地"的机器人导航新方法,让AI助手像人类一样边思考边行动

科技行者250人阅读


这项由上海AI实验室牵头,联合香港大学、浙江大学、清华大学等多家知名学府共同完成的重要研究,发表于2025年12月。研究团队提出了名为DualVLN的双系统视觉语言导航模型,这是该领域首个采用"快慢结合"架构的基础模型。有兴趣深入了解的读者可以通过论文编号arXiv:2512.08186v1查询完整论文。

机器人导航听起来很简单,就像我们日常走路一样自然。但实际上,让一个机器人理解"走到厨房拿杯水"这样的指令,并准确执行,比我们想象的要复杂得多。就好比让一个从未出过门的人,仅凭别人的口述描述就要找到一个陌生地方一样困难。

传统的机器人导航就像一个过分谨慎的新手司机,每走一步都要停下来仔细思考很久,动作既机械又缓慢。这种做法在实验室里也许还行,但在现实世界中就显得笨拙不堪。当有人突然从拐角走出来,或者路上临时出现障碍物时,这样的机器人往往来不及反应,要么撞上去,要么彻底卡住不知所措。

上海AI实验室的研究团队意识到这个问题的根源在于,现有的机器人导航系统把"思考"和"行动"硬生生绑在了一起。就像让一个人一边下棋思考复杂战略,一边还要快速精准地移动棋子一样,两个完全不同性质的任务被强行塞进了同一个"大脑"里。这样做的结果就是思考变慢了,行动也变僵硬了。

研究团队提出的解决方案相当巧妙,他们设计了一个双系统架构,就像人类大脑中的"理性思考"和"直觉反应"两套系统一样。第一套系统负责深度思考和规划,就像我们计划一次旅行时会仔细研究地图、考虑路线一样,工作节奏相对较慢但很全面。第二套系统则负责快速反应和精确执行,就像我们走路时自动避开路上的石头一样,动作迅速而流畅。

更具体地说,第一套系统是基于大型视觉语言模型构建的全局规划器。这个系统就像一位经验丰富的导游,能够理解复杂的语言指令,观察周围环境,然后在图像中指出下一步应该去的具体位置。它的工作频率是每秒2次,虽然不算快,但足够进行深度思考和准确规划。

第二套系统则是一个轻量级的扩散变换器策略网络。这个系统就像一位技艺精湛的车手,能够根据导游的指示,快速生成平滑的行进轨迹,同时灵活避开路上的各种障碍。它的工作频率高达每秒30次,确保机器人的动作始终保持流畅自然。

这种设计的精妙之处在于两个系统的协调配合。第一套系统不仅会指出具体的像素坐标作为目标点,还会提供丰富的隐含信息,帮助第二套系统更好地理解当前的任务环境。这就好比导游不仅会说"往那边走",还会补充一些背景信息,让车手能够做出更明智的驾驶决策。

为了验证这套系统的效果,研究团队进行了大规模的测试。他们不仅在仿真环境中进行了全面评估,还在真实世界中用不同类型的机器人进行了验证,包括轮式机器人、四足机器人和人形机器人。测试结果相当令人惊喜。

在标准的VLN-CE基准测试中,DualVLN的成功率达到了64.3%,比之前最好的方法提升了约8个百分点。更重要的是,在需要物理控制的VLN-PE测试中,这套系统表现出了很强的迁移能力,即使没有专门的训练,也能取得51.6%的成功率。

考虑到现实世界的复杂性,研究团队还特别设计了一个名为Social-VLN的新基准测试。这个测试模拟了机器人在人群中导航的场景,会有多个人形智能体在路径上活动,考验机器人的社交感知和动态避障能力。在这个更加困难的测试中,DualVLN依然保持了37.2%的成功率,同时将人体碰撞率控制在35.4%的较低水平。

真实世界的测试更是令人印象深刻。研究团队在办公室、食堂、街道、便利店等各种环境中测试了这套系统,机器人展现出了令人满意的适应能力。它能够准确选择目标点,规划安全的行进路线,在杂乱的环境中平稳穿行,甚至能够处理楼梯和动态行人等复杂情况。更值得注意的是,这套系统在不同类型的机器人平台上都表现出了良好的通用性,尽管相机高度、振动情况和运动特性各不相同。

研究团队还进行了详细的分析实验,探讨了系统各个组成部分的作用。他们发现,如果去掉分阶段训练,让两个系统同时学习,第一套系统的泛化能力会明显下降,第二套系统的学习速度也会变慢。如果只使用明确的像素目标而不加入隐含的语义信息,系统的整体表现也会有所下降。这些发现验证了设计选择的合理性。

特别有趣的是,研究团队还分析了系统对像素目标预测错误的容忍度。他们发现,第二套系统对于方向正确但位置略有偏差的目标点有很强的容错能力,能够自动调整生成合理的行进轨迹。但如果目标点的方向完全错误,或者指向了不可通行的区域,系统就会出现明显的性能下降。这说明了两个系统之间良好协调的重要性。

从数据使用效率的角度来看,这套双系统架构也展现出了很好的特性。第一套系统需要大量多样化的数据来训练其语言理解和视觉推理能力,这符合大型模型的特点。而第二套系统的任务相对简单,只需要少量的目标导向数据就能达到不错的效果。实验表明,即使只使用1%的数据,第二套系统就已经能够取得竞争性的表现。

这项研究的意义远不止于技术层面的突破。它为未来的智能导航系统提供了一个全新的设计思路。通过将复杂的导航任务分解为理解规划和执行控制两个相对独立的子任务,不仅提高了系统的性能和效率,也增强了整个系统的可解释性和可维护性。

在实际应用中,这种设计架构有着广阔的前景。比如在服务机器人领域,这样的系统能够让机器人更自然地理解和执行人类的指令,在家庭、医院、酒店等环境中提供更好的服务。在自动驾驶领域,类似的思路也可能带来性能上的突破,让车辆在复杂的交通环境中做出更智能的决策。

当然,这套系统也还有一些限制和改进空间。目前的第一套系统主要依赖视觉信息进行推理,在光线不佳或视野受限的情况下可能会受到影响。第二套系统虽然能够有效避障,但在面对完全未知的障碍类型时,其泛化能力仍有待提升。社交导航基准测试也显示,在复杂的人群环境中,系统的成功率还有较大的提升空间。

说到底,这项研究代表了机器人导航领域的一次重要进步。它不仅在技术上实现了突破,更重要的是提供了一种新的思考方式。通过模仿人类"边思考边行动"的自然模式,让机器人变得更加智能和灵活。这种进步意味着我们离真正实用的智能机器人又近了一步,未来的机器人助手将能够更好地理解我们的需求,更自然地融入我们的生活。

对于普通人来说,这项技术的发展可能会在不久的将来改变我们与机器人的互动方式。我们不再需要使用复杂的指令或者预设的路径点,而是可以像对待朋友一样,用自然语言告诉机器人我们的需求。机器人也将能够在各种复杂的环境中自如地活动,真正成为我们生活和工作中的得力助手。

Q&A

Q1:DualVLN双系统导航模型是如何工作的?

A:DualVLN采用两套协调工作的系统,第一套系统像导游一样负责理解指令和规划路线,每秒工作2次进行深度思考,第二套系统像车手一样负责快速执行和避障,每秒工作30次确保动作流畅。两个系统通过像素目标和隐含信息进行配合。

Q2:这个导航系统比传统方法有什么优势?

A:相比传统的一体化导航系统,DualVLN在VLN-CE测试中成功率达到64.3%,提升约8个百分点。更重要的是它能实时响应动态环境,避免了传统系统动作僵硬、反应迟钝的问题,在真实世界测试中表现出很强的适应性。

Q3:DualVLN导航系统能在哪些场景中使用?

A:系统已在办公室、食堂、街道、便利店等多种环境中验证有效,可适用于轮式、四足和人形等不同类型机器人。未来可应用于家庭服务机器人、医院导诊机器人、酒店服务机器人等场景,让机器人能够理解自然语言指令并自主导航。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

黄宗泽哭着拿双料视帝,10次提名终于熬出头

手工制作阿歼 浏览 283

王思聪带懒懒看演唱会,舞台前对美女猛拍照

鑫鑫说说 浏览 601

零跑汽车10月销量破7万台

三言科技 浏览 851

特朗普:对委内瑞拉发动军事袭击计划"泄密者"已被抓

环球时报国际 浏览 236

极氪12月交付超3万台,2025全年销量超22.4万台

大象新闻 浏览 286

石破茂讲话让高市早苗恼羞成怒:不知道他在说什么

上观新闻 浏览 5544

雷军回应YU7首拆:欢迎同行和专家指点

盖世汽车 浏览 789

女人过了40岁真该看看这些穿搭,不老气、不单薄,简单又耐看

静儿时尚达人 浏览 0

马斯克风光背后:9个孩子3个妈,5个退学

麦大人 浏览 15986

粉丝给艺人当辩护律师,还住一起了,这也行?

伊周潮流 浏览 190

孟菲斯·德佩,荷兰射手王+助攻王

体坛周报 浏览 1170

【现场】球场简陋无碍“贴脸开大”,巴列卡诺闷平皇马

体坛周报 浏览 847

星光伴我心,不朽迷影佳作今晚点亮大银幕!

幕味儿 浏览 446

比卢普斯律师声明:他是个正直的人,不会用自己的名誉冒险

懂球帝 浏览 947

搭上芯片“黑马”新凯来的光伏龙头,高管集体减持,股价大跌超7%

红星资本局 浏览 1057

郭磊:三季度经济数据——哪些线索需要关注

首席经济学家论坛 浏览 1034

香港“抢人”!内地9所大学毕业生可落户,放宽条件引进高端人才,7周内超万人申请

证券时报e公司 浏览 14717

江中药业:激励计划部分业绩考核指标或“开倒车” 子公司财务数据或现“不同版本”

金证研 浏览 936

Meta希望进军中国市场 据称正与腾讯就VR头显洽谈合作

财联社 浏览 14136

今年秋天最流行的风衣,“短一点”才时髦!

LinkFashion 浏览 1065

55岁港星宣萱自曝:放弃结婚,29岁最后一晚哭一天,黄金时代过去

温柔娱公子 浏览 956
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
Copyright © 2020-2022,版权所有 qukanredian.com
沪ICP备20002587号-1