谷歌刚刚放出了其最先进的机器人具身推理模型——Gemini Robotics-ER 1.5。这是首个被广泛开放给所有开发者的Gemini机器人系列模型,它将作为机器人的高级推理大脑
【资料图】
Gemini Robotics-ER 1.5(简称 Gemini Robotics-Embodied Reasoning)是一种视觉-语言模型 (VLM),可将 Gemini 的智能体功能引入机器人技术领域。Gemini Robotics-ER 1.5 是一款思考型模型,能够推理物理世界、原生调用工具,并规划逻辑步骤来完成任务
虽然 Gemini Robotics-ER 1.5 与其他 Gemini 模型类似,但它是专门为增强机器人感知能力和现实世界互动能力而构建的。它通过以下方式提供高级推理功能来解决物理问题:解读复杂的视觉数据、执行空间推理,以及根据自然语言命令规划行动
在操作方面,Gemini Robotics-ER 1.5 旨在与现有的机器人控制器和行为配合使用。它可以按顺序调用机器人的 API,使模型能够编排这些行为,以便机器人完成长时程任务
借助 Gemini Robotics-ER 1.5,可以构建以下机器人应用:
让人们能够使用自然语言分配复杂的任务,从而使机器人更易于使用
通过使机器人能够推理、适应和响应开放式环境中的变化,提高机器人的自主性
Gemini Robotics-ER 1.5 为各种机器人任务提供统一的模型:定位和识别对象
1.准确地指向并定义环境中各种项目的边界框。了解对象关系
2.推理空间布局和环境背景信息,以便做出明智的决策。规划抓取和轨迹
3.生成用于操纵物体的抓取点和轨迹。解读动态场景
4.分析视频帧,以跟踪对象并了解一段时间内的动作。编排长时程任务
5.将自然语言命令分解为一系列逻辑子任务,并对现有的机器人行为进行函数调用。人机交互
6.通过文本或语音理解以自然语言给出的指令
Gemini Robotics-ER 1.5预览版现已开放。可以通过以下方式开始体验:
启动 Google AI Studio 来实验该模型。阅读开发者文档获取完整的快速入门和API参考
https://ai.google.dev/gemini-api/docs/robotics-overview?utm_source=gemini-robotics-er-1.5&utm_medium=blog&utm_campaign=launch&hl=zh-cn
官方的 Colab notebook 查看实际应用案例
https://github.com/google-gemini/cookbook/blob/main/quickstarts/gemini-robotics-er.ipynb?utm_source=gemini-robotics-er-1.5&utm_medium=blog&utm_campaign=launch
完整技术报告:
https://storage.googleapis.com/deepmind-media/gemini-robotics/Gemini-Robotics-1-5-Tech-Report.pdf
这个模型专为那些对机器人来说极具挑战性的任务而设计。
想象一下,你对一个机器人说:“请把这些物品分类到正确的厨余、可回收和普通垃圾桶里。”
要完成这个任务,机器人需要:1.上网查找本地的垃圾分类指南。2.理解眼前的各种物品。3.根据本地规则规划出分类方法。4.执行所有步骤,完成投放。
像这样的日常任务,大多需要结合上下文信息并分多步才能完成。
Gemini Robotics-ER 1.5正是首个为这种具身推理(embodied reasoning)而优化的思考模型。它在学术基准和内部基准测试中都达到了业界顶尖水平
Gemini Robotics-ER 1.5有哪些新能力?
Gemini Robotics-ER 1.5专为机器人应用进行了目标性微调,并引入了多项新功能:
快速强大的空间推理:以Gemini Flash模型的低延迟,实现顶尖的空间理解能力。该模型擅长生成语义精确的2D坐标点,这些坐标点基于对物品尺寸、重量和功能可供性的推理,从而支持如“指出所有你能拿起的物体”这类指令,实现精确、快速的交互
协调高级智能体行为:利用先进的空间和时间推理、规划和成功检测能力,可靠地执行长周期任务循环(例如,“按照这张照片重新整理我的书桌”)。它还能原生调用谷歌搜索和任何第三方自定义函数(例如,“根据本地规定将垃圾分类”)
灵活的思考预算:开发者现在可以直接控制模型的延迟与准确性之间的权衡。这意味着,对于像规划多步组装这样的复杂任务,你可以让模型“思考更长时间”;而对于探测或指向物体等需要快速反应的任务,则可以要求更快的响应
改进的安全过滤器:模型在语义安全方面进行了改进,能更好地识别并拒绝生成违反物理约束的计划(例如,超出机器人的有效载荷能力),让开发者可以更自信地进行构建
智能大脑
你可以将Gemini Robotics-ER 1.5视为机器人的高级大脑。它能理解复杂的自然语言指令,对长周期任务进行推理,并协调复杂的行为。
当收到一个像“把桌子收拾干净”这样的复杂请求时,Gemini Robotics-ER 1.5能将其分解成一个计划,并调用正确的工具来执行,无论是机器人的硬件API、专门的抓取模型,还是用于运动控制的视觉-语言-行为模型(VLA)。
高级空间理解能力
为了与物理世界互动,机器人必须能够感知和理解其所处的环境。Gemini Robotics-ER 1.5经过微调,能够生成高质量的空间结果,为物体提供精确的2D坐标点
在指向精度方面,Gemini Robotics-ER 1.5是目前最精确的视觉语言模型
例如,在2D坐标点生成任务中,给定一张厨房场景的图片,模型可以提供每个物品的位置
提示:
值得注意的是,提示要求模型只标记图中出现的物品,这可以防止模型产生幻觉(比如为不存在的“独角兽”生成坐标),使其始终基于视觉现实
时间推理能力
真正的时空推理不仅要定位物体,还要理解物体与行为之间随时间展开的关系。
Gemini Robotics-ER 1.5通过处理视频来理解物理世界中的因果关系。
例如,在一个视频中,机械臂先将一支绿色记号笔放入木盘,再将蓝色和红色的笔放入笔筒。当我们要求模型按顺序描述任务步骤时,它给出了完全正确的答案
提示:
响应:
[ { "start_timestamp": "00:02", "end_timestamp": "00:13", "description": "左机械臂从桌上拿起绿色记号笔,并将其放入木盘中。" }, { "start_timestamp": "00:15", "end_timestamp": "00:22", "description": "左机械臂从桌上拿起蓝色笔,并将其放入黑色网状笔筒中。" }, { "start_timestamp": "00:23", "end_timestamp": "00:28", "description": "右机械臂从桌上拿起红色笔,并将其放入黑色网状笔筒中,完成了整理书写工具的任务。" } ]
模型甚至可以根据要求,对特定时间段(如第15秒到22秒)进行更细致的逐秒分解,输出结果在时间上非常精确
基于可操作性推理来协调长周期任务,
当启用思考功能时,模型可以对复杂的指向和边界框查询进行推理。下面是一个制作咖啡的例子,展示了模型如何理解完成任务所需的“如何做”和“在哪里做”
1. 问: 我应该把杯子放在哪里来冲咖啡?答: 模型:在咖啡机下方标记出一个边界框
2. 问: 咖啡胶囊应该放在哪里?答: 模型:在咖啡机顶部的胶囊仓位置标记出边界框
3. 问: 现在,我需要关上咖啡机。请绘制一条由8个点组成的轨迹,指示盖子把手应如何移动以关闭它答: 模型:生成了一条从开启到关闭位置的精确路径
4. 问: 我喝完咖啡了。现在应该把杯子放在哪里清洗?答: 模型:在水槽中标记了一个点
通过结合规划和空间定位,模型可以生成“空间锚定”计划,将文本指令与物理世界中的具体位置和动作联系起来
灵活的思考预算
下图展示了调整Gemini Robotics-ER 1.5模型思考预算对延迟和性能的影响
模型的性能随着思考token预算的增加而提升。对于像物体检测这样的简单空间理解任务,很小的预算就能达到高性能;而更复杂的推理任务则需要更大的预算
这使得开发者可以在需要低延迟响应的任务和需要高精度结果的挑战性任务之间取得平衡。开发者可以通过请求中的thinking_config
选项来设置思考预算,甚至禁用它
参考:
https://developers.googleblog.com/en/building-the-next-generation-of-physical-agents-with-gemini-robotics-er-15/
新化月报网报料热线:886 2395@qq.com
相关文章
你可能会喜欢
最近更新
- 科幻!谷歌放出Gemini Robotics-ER 1.5:机器人有了真正的思考力|关注2025-09-27
- 岳阳VS永州,门票提前开售!2025-09-27
- 今晚10点 英超不败之师对决!利物浦冲6连胜 1.3亿标王首发2025-09-27
- 紫燕食品实际控制人一致行动人拟通过大宗交易减持股份|百事通2025-09-27
- 焦点要闻:大摩:将微软目标价上调至625美元2025-09-27
- 逆势增长、健康消费、资本回暖,快消品行业有这些趋势2025-09-27
- 西典新能:融资净偿还2051.45万元,创历史新高(09-26)-播资讯2025-09-27
- 下周36股面临解禁 4股解禁比例超50%2025-09-27
- 我国成功发射风云三号08星2025-09-27
- 对话|从"万人迷"到接地气,"爱家庭"也"爱自己",陈好:不被"完美妈妈"标签裹挟 每日焦点2025-09-27
- 55岁再创业!“榜一大哥”陈年竟能让雷军做免费「代言人」?_视讯2025-09-27
- 邯郸市知常珠宝首饰有限公司成立 注册资本10万人民币2025-09-27
- 张家口乡韵乡美饮品有限公司成立 注册资本100万人民币2025-09-27
- 国王铁心抢库明加!蒙克+首轮签作诱饵,勇士拒当冤大头陷僵局2025-09-26
- 第三届国际美丽健康产业合作交流活动成功举办2025-09-26
- 锦艺集团控股(00565.HK)盈喜:预期年度净利不少于3900万港元2025-09-26
- 道琼斯、标普、纳斯达克:9月26日开盘均上涨2025-09-26
- 焦点速讯:子公司拖欠362万元 零跑汽车成失信被执行人 同日下线第100万辆整车2025-09-26
- 精选!李霄鹏:这场对两队来说都非常困难,希望都能发挥出最高水平2025-09-26
- 新赛季前瞻掘金篇:有了新帮手的约老师,率队重返争冠行列-今日关注2025-09-26
- 今日讯!古宅活态传承,共赴一场跨越时空的文化浪漫之约2025-09-26
- 中关村科技租赁(01601)与新疆派特罗尔能源订立三份融资租赁协议_焦点消息2025-09-26
- 创联控股(02371)公布年度业绩 公司拥有人应占亏损7115.2万元 同比收窄55.07% 看点2025-09-26
- 中国建材(03323.HK):薛忠民辞任副总裁2025-09-26
- 每日观察!道氏技术董事荣继华减持605.5万股,减持金额1.52亿元2025-09-26
- 美股期货拉升 道琼斯指数期货涨0.46%2025-09-26
- 永创智能(603901.SH):拟推2025年第二期限制性股票激励计划 焦点滚动2025-09-26
- 大众口腔(02651.HK)拟选举及委任谢东为独立非执行董事|微头条2025-09-26
- 这只高纯工艺龙头上市公司(2025/9/26) 热点评2025-09-26
- 除尘机题材名单整理,查收一下!(2025/9/26)-天天资讯2025-09-26