科幻！谷歌放出Gemini Robotics-ER 1.5：机器人有了真正的思考力|关注

来源：AI寒武纪 2025-09-27 09:35:35

谷歌刚刚放出了其最先进的机器人具身推理模型——Gemini Robotics-ER 1.5。这是首个被广泛开放给所有开发者的Gemini机器人系列模型，它将作为机器人的高级推理大脑

【资料图】

Gemini Robotics-ER 1.5（简称 Gemini Robotics-Embodied Reasoning）是一种视觉-语言模型 (VLM)，可将 Gemini 的智能体功能引入机器人技术领域。Gemini Robotics-ER 1.5 是一款思考型模型，能够推理物理世界、原生调用工具，并规划逻辑步骤来完成任务

虽然 Gemini Robotics-ER 1.5 与其他 Gemini 模型类似，但它是专门为增强机器人感知能力和现实世界互动能力而构建的。它通过以下方式提供高级推理功能来解决物理问题：解读复杂的视觉数据、执行空间推理，以及根据自然语言命令规划行动

在操作方面，Gemini Robotics-ER 1.5 旨在与现有的机器人控制器和行为配合使用。它可以按顺序调用机器人的 API，使模型能够编排这些行为，以便机器人完成长时程任务

借助 Gemini Robotics-ER 1.5，可以构建以下机器人应用：

让人们能够使用自然语言分配复杂的任务，从而使机器人更易于使用

通过使机器人能够推理、适应和响应开放式环境中的变化，提高机器人的自主性

Gemini Robotics-ER 1.5 为各种机器人任务提供统一的模型：定位和识别对象

1.准确地指向并定义环境中各种项目的边界框。了解对象关系

2.推理空间布局和环境背景信息，以便做出明智的决策。规划抓取和轨迹

3.生成用于操纵物体的抓取点和轨迹。解读动态场景

4.分析视频帧，以跟踪对象并了解一段时间内的动作。编排长时程任务

5.将自然语言命令分解为一系列逻辑子任务，并对现有的机器人行为进行函数调用。人机交互

6.通过文本或语音理解以自然语言给出的指令

Gemini Robotics-ER 1.5预览版现已开放。可以通过以下方式开始体验：

启动 Google AI Studio 来实验该模型。阅读开发者文档获取完整的快速入门和API参考

https://ai.google.dev/gemini-api/docs/robotics-overview?utm_source=gemini-robotics-er-1.5&utm_medium=blog&utm_campaign=launch&hl=zh-cn

官方的 Colab notebook 查看实际应用案例

https://github.com/google-gemini/cookbook/blob/main/quickstarts/gemini-robotics-er.ipynb?utm_source=gemini-robotics-er-1.5&utm_medium=blog&utm_campaign=launch

完整技术报告：

https://storage.googleapis.com/deepmind-media/gemini-robotics/Gemini-Robotics-1-5-Tech-Report.pdf

这个模型专为那些对机器人来说极具挑战性的任务而设计。

想象一下，你对一个机器人说：“请把这些物品分类到正确的厨余、可回收和普通垃圾桶里。”

要完成这个任务，机器人需要：1.上网查找本地的垃圾分类指南。2.理解眼前的各种物品。3.根据本地规则规划出分类方法。4.执行所有步骤，完成投放。

像这样的日常任务，大多需要结合上下文信息并分多步才能完成。

Gemini Robotics-ER 1.5正是首个为这种具身推理（embodied reasoning）而优化的思考模型。它在学术基准和内部基准测试中都达到了业界顶尖水平

Gemini Robotics-ER 1.5有哪些新能力？

Gemini Robotics-ER 1.5专为机器人应用进行了目标性微调，并引入了多项新功能：

快速强大的空间推理：以Gemini Flash模型的低延迟，实现顶尖的空间理解能力。该模型擅长生成语义精确的2D坐标点，这些坐标点基于对物品尺寸、重量和功能可供性的推理，从而支持如“指出所有你能拿起的物体”这类指令，实现精确、快速的交互

协调高级智能体行为：利用先进的空间和时间推理、规划和成功检测能力，可靠地执行长周期任务循环（例如，“按照这张照片重新整理我的书桌”）。它还能原生调用谷歌搜索和任何第三方自定义函数（例如，“根据本地规定将垃圾分类”）

灵活的思考预算：开发者现在可以直接控制模型的延迟与准确性之间的权衡。这意味着，对于像规划多步组装这样的复杂任务，你可以让模型“思考更长时间”；而对于探测或指向物体等需要快速反应的任务，则可以要求更快的响应

改进的安全过滤器：模型在语义安全方面进行了改进，能更好地识别并拒绝生成违反物理约束的计划（例如，超出机器人的有效载荷能力），让开发者可以更自信地进行构建

智能大脑

你可以将Gemini Robotics-ER 1.5视为机器人的高级大脑。它能理解复杂的自然语言指令，对长周期任务进行推理，并协调复杂的行为。

当收到一个像“把桌子收拾干净”这样的复杂请求时，Gemini Robotics-ER 1.5能将其分解成一个计划，并调用正确的工具来执行，无论是机器人的硬件API、专门的抓取模型，还是用于运动控制的视觉-语言-行为模型（VLA）。

高级空间理解能力

为了与物理世界互动，机器人必须能够感知和理解其所处的环境。Gemini Robotics-ER 1.5经过微调，能够生成高质量的空间结果，为物体提供精确的2D坐标点

在指向精度方面，Gemini Robotics-ER 1.5是目前最精确的视觉语言模型

例如，在2D坐标点生成任务中，给定一张厨房场景的图片，模型可以提供每个物品的位置

提示：

值得注意的是，提示要求模型只标记图中出现的物品，这可以防止模型产生幻觉（比如为不存在的“独角兽”生成坐标），使其始终基于视觉现实

时间推理能力

真正的时空推理不仅要定位物体，还要理解物体与行为之间随时间展开的关系。

Gemini Robotics-ER 1.5通过处理视频来理解物理世界中的因果关系。

例如，在一个视频中，机械臂先将一支绿色记号笔放入木盘，再将蓝色和红色的笔放入笔筒。当我们要求模型按顺序描述任务步骤时，它给出了完全正确的答案

提示：

响应：

[ { "start_timestamp": "00:02", "end_timestamp": "00:13", "description": "左机械臂从桌上拿起绿色记号笔，并将其放入木盘中。" }, { "start_timestamp": "00:15", "end_timestamp": "00:22", "description": "左机械臂从桌上拿起蓝色笔，并将其放入黑色网状笔筒中。" }, { "start_timestamp": "00:23", "end_timestamp": "00:28", "description": "右机械臂从桌上拿起红色笔，并将其放入黑色网状笔筒中，完成了整理书写工具的任务。" } ]

模型甚至可以根据要求，对特定时间段（如第15秒到22秒）进行更细致的逐秒分解，输出结果在时间上非常精确

基于可操作性推理来协调长周期任务，

当启用思考功能时，模型可以对复杂的指向和边界框查询进行推理。下面是一个制作咖啡的例子，展示了模型如何理解完成任务所需的“如何做”和“在哪里做”