谷歌DeepMind机器人成果三连发！两大能力全提升，数据收集系统可同时管理20个机器人

　　发布于2024-11-01　阅读（0）

扫一扫，手机访问

几乎是和斯坦福“炒虾洗碗”机器人同一时间，谷歌DeepMind也发布了最新具身智能成果。

并且是三连发：

先是一个主打提高决策速度的新模型，让机器人的操作速度（相比原来的Robotics Transformer）提高了14%——快的同时，质量也没有下滑，准确度还上升了10.6%。

谷歌DeepMind机器人成果三连发！两大能力全提升，数据收集系统可同时管理20个机器人

然后再来一个专攻泛化能力的新框架，可以给机器人创建运动轨迹提示，让它面对41项从未见过的任务，取得了63%的成功率。

谷歌DeepMind机器人成果三连发！两大能力全提升，数据收集系统可同时管理20个机器人

别小看这个数组，对比之前的29%，进步可谓相当大。

最后是一个机器人数据收集系统，可以一次管理20个机器人，目前已从它们的活动中收集了77000次实验数据，它们将帮助谷歌更好地完成后续训练工作。

谷歌DeepMind机器人成果三连发！两大能力全提升，数据收集系统可同时管理20个机器人

那么，这三个成果具体是什么样？我们一个一个来看。

机器人日常化第一步：没见过的任务也能直接做

谷歌指出，要实现真正可进入现实世界的机器人，需要解决两个基本挑战。

1、新任务推广能力

2、提高决策速度

本次三连发的前两项成果就主要在这两大领域作出改进，且都建立在谷歌的基础机器人模型Robotics Transformer（简称RT）之上。

首先来看第一个：帮助机器人泛化的RT-Trajectory。

对于人类来说，譬如完成擦桌子这种任务简直再好理解不过了，但机器人却不是很懂。

不过好在我们可以通过多种可能的方式将这一指令传达给它，让它作出实际的物理行动。

一般来说，传统的方式就是将任务映射为一个个特定的动作，然后让机械臂完成，例如对于擦桌子，就可以拆解为“合上夹具、向左移动、向右移动”。

很明显，这种方式的泛化能力很差。

在此，谷歌新提出的RT-Trajectory通过给机器人提供视觉提示的方法来教它完成任务。

谷歌DeepMind机器人成果三连发！两大能力全提升，数据收集系统可同时管理20个机器人

具体而言，由RT-Trajectory控制的机器人在训练时会加入2D轨迹增强的数据。

这些轨迹以RGB图像的形式呈现，包括路线和关键点，在机器人学习执行任务时提供低级但非常实用的提示。

有了这个模型，机器人执行从未见过的任务的成功率直接提高了1倍之多（相比谷歌的基础机器人模型RT-2，从29%=>63%）。

更值得一提的是，RT-Trajectory可以用多种方式来创建轨迹，包括：
通过观看人类演示、接受手绘草图，以及通过VLM（视觉语言模型）来生成。

谷歌DeepMind机器人成果三连发！两大能力全提升，数据收集系统可同时管理20个机器人

机器人日常化第二步：决策速度一定要快

泛化能力上来以后，我们再来关注决策速度。

谷歌的RT模型采用的是Transformer架构，虽然Transformer功能强大，但严重依赖于有着二次复杂度的注意力模块。

因此，一旦RT模型的输入加倍（例如给机器人配上更高分辨率的传感器），处理起来所需的计算资源就会增加为原来的四倍，这将严重减慢决策速度。

为了提高机器人的速度，谷歌在基础模型Robotics Transformer上开发了SARA-RT。

SARA-RT使用一种新的模型微调方法让原来的RT模型变得更为高效。

这种方法被谷歌称之为“向上训练”，它主要的功能就是将原来的二次复杂度转换为线性复杂度，同时保持处理质量。

将SARA-RT应用于具有数十亿参数的RT-2模型时，后者可以在各种任务上实现更快的操作速度以及更高的准确率。

同样值得一提的是，SARA-RT提供的是一种通用的加速Transformer的方法，且无需进行昂贵的预训练，因此可以很好地推广开来。

数据不够？自己创造

最后，为了帮助机器人更好地理解人类下达的任务，谷歌还从数据下手，直接搞了一个收集系统：AutoRT。

这个系统将大模型（包括LLM和VLM）与机器人控制模型（RT）相结合，不断地指挥机器人去执行现实世界中的各种任务，从而产生数据并收集。

具体流程如下：

让机器人“自由”接触环境，靠近目标。

然后通过摄像头以及VLM模型来描述眼前的场景，包括具体有哪些物品。

接着，LLM就通过这些信息来生成几项不同的任务。

注意了，生成以后机器人并不马上执行，而是利用LLM再过滤一下哪些任务可以独立搞定，哪些需要人类远程控制，以及哪些压根不能完成。

像不能完成的就是“打开薯片袋”这种，因为这需要两只机械臂（默认只有1只）。

谷歌DeepMind机器人成果三连发！两大能力全提升，数据收集系统可同时管理20个机器人

再然后，做完这个筛选任务以后，机器人就可以去实际执行了。

最后由AutoRT系统完成数据收集并进行多样性评估。

据介绍，AutoRT可一次同时协调多达20个机器人，在7个月的时间内，一共收集了包括6650个独特任务在内的77000次试验数据。

最后，对于此系统，谷歌还特别强调了安全性。

毕竟AutoRT的收集任务作用于现实世界，“安全护栏”不能少。

具体而言，基础安全守则由为机器人进行任务筛选的LLM提供，它的部分灵感来自艾萨克·阿西莫夫的机器人三定律——首先也是最重要的是“机器人不得伤害人类。

其次还包括要求机器人不得尝试涉及人类、动物、尖锐物体或电器的任务。

但这还远远不够。

因此AutoRT还配有常规机器人技术中的多层实用安全措施。

例如，机器人在其关节上的力超过给定阈值时自动停止、所有行动都可由保持在人类视线范围内的物理开关停止等等。

谷歌DeepMind机器人成果三连发！两大能力全提升，数据收集系统可同时管理20个机器人

还想进一步了解谷歌的这批最新成果？

好消息，除了RT-Trajectory只上线论文以外，其余都是代码和论文一并公布，欢迎大家进一步查阅～

One More Thing

说起谷歌机器人，就不得不提RT-2（本文的所有成果也都建立之上）。

这个模型由54位谷歌研究员耗时7个月打造，今年7月底问世。

嵌入了视觉-文本多模态大模型VLM的它，不仅能理解“人话”，还能对“人话”进行推理，执行一些并非一步就能到位的任务，例如从狮子、鲸鱼、恐龙这三个塑料玩具中准确捡起“已灭绝的动物”，非常惊艳。

谷歌DeepMind机器人成果三连发！两大能力全提升，数据收集系统可同时管理20个机器人

如今的它，在短短5个多月内便迎来了泛化能力和决策速度的迅速提升，不由地让我们感叹：不敢想象，机器人真正冲进千家万户，究竟会有多快？

本文转载于：https://www.51cto.com/article/778631.html 如有侵犯，请联系admin@zhengruan.com删除

上一篇：比尔·盖茨2024年预测：AI将从根本上改变就业、医疗保健和教育领域【附人工智能应用场景分析】

下一篇：win11自动亮度设置教程

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

微软再次发布修复Win11中Defender LSA误报问题的KB5007651更新

7月5日消息，微软在昨日对微软健康中心页面进行了更新，并宣布将于7月5日针对Win11Version21H2/22H2版本发布KB5007651(版本1.0.2306.10002)更新，旨在进一步解决LSA误报问题。根据我们从微软健康中心页面获得的信息，LSA误报问题的时间表如下：今年3月，微软发布了KB5007651更新(版本号1.0.2302.21002)，该更新要求用户强制安装。然而，一些用户报告称在安装该更新后，WindowsSecurity显示“LocalSecurityauthoritypro

6分钟前微软 0
正版软件

理想汽车 Mind GPT 大模型通过国家备案，训练数据规模达 3 万亿 Token

本网站3月28日消息，理想汽车宣布，全自研多模型认知大模型MindGPT正式通过国家《生成式人工智能服务管理暂行办法》备案，成为首个通过该备案的汽车厂商自研大模型。据介绍，MindGPT是在汽车智能座舱落地的全自研多模态认知大模型，训练数据规模达3万亿Token。理想汽车称：Mind+GPT是一个可以使用的大模型，也是行业唯一一个不需要任何指令词就可以使用的大模型，也是行业唯一一个真正围绕车载场景打造的大模型。它仍然拥有听觉和执行能力全面进化的理念同学，支持方言自由说、指令自由说、简洁模式以及全时全车免唤

21分钟前大数据理想 Mind 0
正版软件

华为三折屏手机即将面世，预计二季度亮相市场

近日，中国国家知识产权局披露了一项名为“折叠屏设备”的专利，这项专利引起了业界的广泛关注。有消息称，该专利为华为一项研发全新的“三折屏手机”，已经启动大规模的备货流程，预计最快在今年第二季度与广大消费者见面。据悉，该款产品具有独特的折叠屏设计，不仅能够折叠成小巧的手机尺寸，也能展开成为平板电脑，具有非常广阔的应用空间。该产品的推出必将引领手机行业的创新潮流，也将满足广大消费者对于科技产品的新需求。这项专利技术的研发工作已历经多年。华为作为这一领域的领先技术研发公司，早在几年前就开始布局这一领域，并在202

36分钟前华为 0
正版软件

智己汽车刘涛预热智己L6：四驱超强续航，固态电池更安全

智己汽车CEO刘涛今日在社交媒体上为即将推出的智己L6进行了预热，吸引了众多消费者的关注。刘涛透露，智己L6将采用行业首创的超快充固态电池，基于准900V超强性能平台开发。这一技术使得该车的续航里程超过了1000公里，为电动汽车市场树立了新的标杆，有效解决了消费者对续航能力的担忧。智己L6不仅在续航方面取得了重大突破，同时还将引入四驱版车型设计，这意味着驾驶者将能够体验到超长续航和强劲动力带来的卓越性能。这一成就得益于智己汽车在电池技术方面的创新进步。智己L6搭载的超快充固态电池采用了纳米级固态电解质等独

51分钟前智己汽车 0
正版软件

2024年2月中国大陆电竞显示器市场逆势增长，销量同比大涨36.4%

3月26日消息，洛图科技(RUNTO)最新报告揭示了一个令人振奋的趋势：2024年2月，尽管受到春节假期错位导致的整体显示器市场销量下滑影响，中国大陆电竞显示器线上市场却呈现出强劲的增长态势。数据显示，该月电竞显示器销量达到42万台，同比增长高达36.4%，其中，电竞市场的增长更是超过了30%，明显优于整体市场表现。2024年2月中国大陆电竞显示器线上市场TOP品牌销量及变化报告进一步分析了电竞显示器市场的品牌竞争格局。在这个月中，AOC、HKC和SANC三大品牌继续稳坐销量前三的宝座，显示出强大的市场影

1小时前 14:10 显示器 0