机器人：你错过的真正人工智能革命？

Rifx.Online
Robotics , AI Applications , Technology Trends
23 Feb, 2025

真正的人工智能革命在于智能机器

虽然每个人仍然专注于人工智能写论文和生成艺术，但真正的革命正在表面之下发生——在机器人技术领域。人工智能驱动的机器已经开始进入工厂、杂货店、仓库、医院和家庭。

使机器人真正智能化是人工智能的下一个主要前沿。这不仅仅是将一个大语言模型交给一个人形或狗形的螺丝和废金属，而是涉及物理、感知、控制和决策，甚至在看不见或不确定的条件下。

运动是人类视为理所当然的事情，但对机器来说却极其复杂。与处理静态文本的人工智能模型不同，机器人必须实时运作，响应动态世界中的变化。多年来，我们已经有机器人在自己的房间或工厂里独自工作，但让机器人在与人类并肩工作或在不受控制的环境中工作要困难得多。它们必须首先通过传感器——激光雷达、摄像头和惯性测量单元——感知环境，然后准确解释这些数据，通常在信息不完整时进行推断。感知的困难延伸到基本任务，例如路线规划、物体检测和深度估计，其中即使是小的计算错误也可能是灾难性的。

来源: 多摄像头光场捕捉 (Elijs Dima)

更不用说图像根本没有深度所需的信息，因为它是一个三维世界的二维投影。没有足够的线索，如阴影、纹理梯度、遮挡或立体视觉，深度无法从单一图像中直接推断出来。让计算机以某种方式看待世界，与我们理解的方式有关系，是一项庞大的任务，研究人员花了数十年才揭示了这一点，伴随着深度神经网络的出现。

一旦机器人建立了其周围环境的模型，它面临的挑战是控制——如何与世界互动。无论机器人是在组装微芯片还是移动仓库库存，精确性和适应性都是至关重要的。然而，控制不仅仅是执行编程运动；它还需要对意外情况做出反应。物体会滑动、变形或不可预测地移动，迫使人工智能驱动的操控模型实时调整。在复杂环境中，运动规划变得指数级困难，机器人必须躲避移动障碍物或与人类工人协调。与人类不同，机器人在泛化方面存在困难；一个训练用于处理咖啡杯的模型在面对酒杯或香蕉时可能会失败。迁移学习仍然是一个重大障碍，而在机器人技术中，知道与做之间的差距仍然是最艰难的前沿之一。多年来，我们在某些特定领域开发了特别强大的模型，但仍面临整合和泛化的挑战。

除了抓取的困难——接下来会发生什么？人类可以快速看一眼刀子，立即知道它是用来切蔬菜、打开包装还是涂抹黄油，这取决于情况。然而，机器人需要明确的训练才能识别物体的功能以及如何在上下文中正确互动。目前，多模态人工智能正在尝试将物体识别与上下文相结合，以便它们能够动态调整其方法。然而，许多模型仍然在预编程或预训练的启发式规则上运作。机器人感知的另一个根本问题不仅在于识别物体，还在于语义理解——理解它们的目的和互动动态。

或者在与人类共同工作于不太受控的环境中使用该物体呢？如今，大多数人工智能驱动的机器人在孤立中运作。无论是在履行仓库还是在自动驾驶测试轨道上，它们都经过优化以适应人类不可预测性最小化的受控环境。但是，为了让机器人真正融入日常生活，它们不仅必须感知和行动，还必须实时解读人类意图。例如，想象一下一个在餐厅厨房工作的机器人。如果一个人类厨师伸手去拿一个机器人即将抓取的锅，机器人必须立即识别出优先级的变化并改变其路径。人工智能驱动的人形机器人将不得不处理隐含的社会等级、基于手势的线索和语音语调，在沟通并不总是口头或明确的环境中。这并不是一项简单的任务。传统的基于规则的方法在这里失败，因为它们缺乏适应性。相反，带有人类反馈的强化学习（RLHF）正在被探索，以帮助机器人更好地导航协作空间。

尽管面临这些挑战和更多挑战，人工智能正在推动机器人技术进入一个新时代，机器正在学习在非结构化环境中操作，以灵巧的方式操控物体，并在不可预测的条件下做出瞬间决策。在人形机器人技术中，强化学习正在帮助特斯拉的Optimus和Figure AI的机器人完善它们的运动和操控能力。这个想法是，机器人将被放置到世界中，自主学习物理、运动和控制，基于奖励和惩罚。换句话说，就像人类儿童学习与世界互动一样。

波士顿动力的人形机器人‘Atlas’: https://www.youtube.com/watch?v=F_7IPm7f1vI

谷歌DeepMind的RT-1展示了一个模型如何在多个机器人任务之间进行泛化，而OpenAI的Dactyl和谷歌的机器人变压器-2（RT-2）则显示出大型语言模型可以解释指令并将其转化为物理动作。自动驾驶车辆也在快速发展。像Waymo和特斯拉这样的公司正在从基于规则的自主性转向基于深度学习的决策，使自动驾驶车辆能够动态适应其环境。四足（狗形）机器人如Spot、Unitree和ANYmal正在用于工业检查、灾难响应，甚至军事应用，导航在人类无法进入的危险环境中。

换句话说，当前面临的问题之一是我们需要弥合弱泛化和刚性特异性之间的差距——这是机器学习中平衡过拟合和欠拟合的经典挑战。

如果你还记得一些第一批主流大语言模型在数学和时事方面的表现有多糟糕，那么我们所需的突破就是实施代码执行和搜索增强。当它们通过特定的子程序或任务获得足够的信息时，它们就能够更有效地泛化，从孤立的、预训练的测试案例转向更大的自主性。

人工智能正在发生重大转变——不仅是在机器人技术中，而是在所有智能系统中。根据需要调用专门功能或子程序的能力正成为下一个前沿。机器人应该能够识别何时任务需要强化学习，何时需要物理模拟，以及何时应该调用已经解决的专门功能。它应该能够确定对像玻璃这样的精细物体和像锤子这样的工具的正确抓握类型。许多这些单独的技能已经存在——挑战在于使它们在一个自我导向、上下文感知的系统中协同工作。就像人类将复杂任务分解为一系列较小的、可调用的功能一样，机器人需要能够动态规划多步骤的动作。从静态的、端到端的训练转向基于功能的可适应学习，我相信这将最终使人工智能驱动的机器人超越受控测试环境，进入真实的自主性。

直观地说，开始无缝整合多个专业领域的一种方式是使用大语言模型。实际上，OpenAI 似乎正在计划在未来进入人形机器人。不幸的是，然而，当前在机器人中的大语言模型的安全性仍然没有解决。来自宾夕法尼亚大学机器人技术的研究表明，基于大语言模型的机器人系统可以通过对抗性输入进行操控，引发了对安全漏洞的担忧。微妙的提示注入和未经

人工智能驱动的机器人技术的未来

随着机器人技术的不断进步，人们越来越担心人工智能驱动的致命自主武器和安全部队将成为人形机器的大规模首次部署。全球各国军队已经在无人机群、自主防御系统和人工智能辅助的战场策略上进行了大量投资（然而需要注意的是，在几乎所有情况下，人类操作的版本仍然显著优于自主版本，特别是在动态和复杂的交战中）。从遥控无人机到完全自主的机器人士兵的飞跃可能会从根本上重塑战争，带来严重的伦理和战略困境。正如教皇方济各所说，致命自主武器可能会“不可逆转地改变战争的性质，使其进一步脱离人类的主动性。”尽管存在这些担忧，美国政府的监督和反制措施仍然微不足道，没有任何约束性法规限制人工智能驱动的军事系统的部署。如果不加以控制，这一转变可能加速自主战争的军备竞赛，降低冲突的门槛，并增加意外升级的风险。

实施的挑战以及安全、治理和伦理部署的现实问题不容忽视，但它们不应掩盖人工智能驱动的机器人技术的巨大潜力。我们需要积极塑造自主的发展轨迹，而不是害怕自主——不仅要投资于监管，还要投资于允许机器人学习、适应和动态整合的基础突破。机器人技术的真正未来不仅仅是一个盲目执行预编程规则的机器——而是一个能够智能地调用子程序、将推理（和伦理）应用于复杂任务，并通过学习来完善自身行为以造福人类的系统。

目前，机器人技术在概括和自我纠正的能力上落后于其他人工智能领域，但这并不一定是必然的。一个真正智能的机器人系统不仅仅会执行任务——它会识别出其方法失败的时机并相应调整。无论是选择适合精细物体的抓取方式，还是在不可预测的环境中选择导航策略，或是完善与人类的协作方式，机器人都应该能够模块化地组装自己的解决方案，而不是依赖脆弱的、千篇一律的模型。

投资于有凝聚力的、模块化的人工智能架构——让机器人动态选择和优化自己的行动集——是我们超越当今僵化自动化的方式。这将把人形机器人从机械工具转变为真正智能的系统。目标不仅仅是消除人类劳动——而是扩展人类能力，解锁人类与机器之间的新形式的合作，并确保机器人技术在构建时兼顾韧性和责任。

成功后会发生什么？当人工智能驱动的机器能够处理一切——使人类摆脱经济必要性时，世界会是什么样子？如果虚拟和物理机器接管所有生产、所有服务工作，甚至智力劳动，那么我们还剩下什么可以做的？

即将推出：深入探讨后劳动世界及其对我们未来的意义。