展现出口语、视觉和动作能力，OpenAI机器人绝对厉害

　　发布于2024-12-16　阅读（0）

扫一扫，手机访问

「借助 OpenAI 的能力，Figure 01 现在可以与人全面对话了！」

本周三，半个硅谷都在投的明星机器人创业公司 Figure，发布了全新 OpenAI 大模型加持的机器人 demo。

能说会看会行动，OpenAI机器人，一出手就是王炸

这家公司在 3 月 1 日刚刚宣布获得 OpenAI 等公司的投资，才十几天就直接用上了 OpenAI 的多模态大模型。

如你所见，得到 OpenAI 大模型能力加持的 Figure 01 现在是这个样子的。

能说会看会行动，OpenAI机器人，一出手就是王炸

它可以为听从人类的命令，递给人类苹果。

能说会看会行动，OpenAI机器人，一出手就是王炸

将黑色塑料袋收拾进框子里。

能说会看会行动，OpenAI机器人，一出手就是王炸

将杯子和盘子归置放在沥水架上。

能说会看会行动，OpenAI机器人，一出手就是王炸

需要强调的是：你看到的这一切，只用到了一个神经网络。

广大网友在看到如此惊艳的 demo 后，对机器人的发展速度感到震惊，我们似乎正处在这场汹涌的进化浪潮中。甚至有人感叹，已经准备好迎接更多的机器人了。

能说会看会行动，OpenAI机器人，一出手就是王炸

还有网友调侃道：「波士顿动力：好的，伙计们，这是一场真正的竞争。让我们回到实验室，设计更多舞蹈套路。」

能说会看会行动，OpenAI机器人，一出手就是王炸

所有这些，全是机器人自学的！

Figure创始人Brett Adcock表示，视频中Figure 01展示了端到端神经网络框架下与人类的对话，没有任何远程操作。并且，机器人的速度有了显著的提升，开始接近人类的速度。

能说会看会行动，OpenAI机器人，一出手就是王炸

Figure机器人操作高级AI工程师Corey Lynch介绍了此次Figure 01的技术原理。他表示，Figure 01现在可以做到以下这些：

描述其视觉体验
规划未来的行动
反思自己的记忆
口头解释推理过程

能说会看会行动，OpenAI机器人，一出手就是王炸

他接着解释道，视频中机器人的所有行为都是学到的（再次强调不是远程操作），并以正常速度（1.0x）运行。

在具体实现过程中，他们将机器人摄像头中的图像输入，并将机载麦克风捕获的语音文本转录到由 OpenAI训练的大型多模态模型中，该模型可以理解图像和文本。该模型对整个对话记录进行处理，包括过去的图像，从而获得语言响应，然后通过文本到语音的方式将其回复给人类。

此外，该模型负责决定在机器人上运行哪些学习到的闭环行为以完成给定的命令，从而将特定的神经网络权重加载到GPU上并执行策略。

能说会看会行动，OpenAI机器人，一出手就是王炸

将Figure 01 连接到大型预训练多模态模型为其提供了一些有趣的新功能。Figure 01 + OpenAI 现在可以：

描述其周围环境。
使用常识推理做出决定。例如，「桌子上的盘子和杯子等餐具接下来可能需要放进沥水架」。
将「我饿了」等模棱两可的高级请求转化为一些适合上下文的行为，例如「递给对方一个苹果」。
用简单的英语描述为什么它执行特定的操作。例如，「这是我可以从桌子上为您提供的唯一可食用物品」。

能说会看会行动，OpenAI机器人，一出手就是王炸

理解对话历史的大型预训练模型为Figure 01提供了强大的短期记忆。

考虑一个简单的问题：「你能把它们放在那里吗？」

其中「它们」指的是什么？「那里」又是哪里？正确回答这个问题需要反思记忆的能力。

通过预训练模型分析对话的图像和文本历史记录，Figure 01快速形成并执行计划：1）将杯子放在沥水架上，2）将盘子放在沥水架上。

能说会看会行动，OpenAI机器人，一出手就是王炸

关于学到的低级双手操作，所有行为均由神经网络视觉运动transformer策略驱动，将像素直接映射到动作。这些网络以10hz 的频率接收机载图像，并以200hz的频率生成 24-DOF 动作（手腕姿势和手指关节角度）。

这些动作充当高速「设定点」，以供更高速率的全身控制器跟踪。这是一个有用的关注点分离，其中：

互联网预训练模型对图像和文本进行常识推理，以得出高级规划。
学习到的视觉运动策略执行计划，执行难以手动指定的快速反应行为，例如在任何位置操纵可变形的袋子。
全身控制器确保安全、稳定的动力，例如保持平衡。

最后他表示，即使在几年前，自己还认为人形机器人规划和执行自身完全学得行为的同时与人类进行完整的对话是几十年后才能看到的事情。显然，现在已经发生了太多变化。

能说会看会行动，OpenAI机器人，一出手就是王炸

至于声音方面，大家都在猜机器人金属感十足的声音源自谁？有猜乔布斯的、Sam Altman的，也有猜演员 Rob Lowe 的，你认为呢？

能说会看会行动，OpenAI机器人，一出手就是王炸

Figure，具身智能时代最热创业公司

最近，生成式 AI 的竞争正在走向长文本、多模态，各家科技公司和机构也没有忘记投资下个热点——具身智能。

具身智能，对于计算机视觉、机器人等领域来说是一个很有挑战的目标：假设 AI 智能体（机器人）不仅能接收来自数据集的静态图像，还能在三维虚拟世界甚至真实环境中四处移动，并与周围环境交互，那我们就会迎来技术的一次重大突破，从识别图像等机器学习的简单能力，转变到学习如何通过多个步骤执行复杂的类人任务。

被生成式 AI 龙头 OpenAI 看好的具身智能，最有希望通向具身智能的公司，似乎就是这家 Figure。3月1日，Figure 宣布完成惊人的 6.75 亿美元 B 轮融资，公司估值达到 26 亿美元。一眼望去，感觉半个硅谷都投了它：微软、英特尔、OpenAI Startup Fund、Amazon Industrial Innovation Fund 、英伟达、贝索斯、「木头姐」的方舟投资、Parkway Venture Capital、Align Ventures 等。该公司的产品 Figure 01，据称是世界上第一个具有商业可行性的自主人形机器人，身高 1.5 米，体重 60 公斤，可承载 20 公斤货物，采用电机驱动。它的可工作时长是 5 小时，行走速度每秒 1.2 米，可以说很多指标已经接近人类。自 2023 年 1 月以来，人们对 Figure 的关注度一直在上升。虽然到目前为止，公司一共才发布过四个 demo 视频。

据Figure表示，机器人练习这些动作的方法是端到端的，神经网络的训练时间是10小时。

在 2 月 27 日的视频里，Figure 01 自主完成了一个典型的物流环节任务——搬运空箱。

当然，速度还是比人类慢了很多。不过在这些任务中，Figure 01 都是完全自主地执行任务。所谓「完全自主」，是指只需将机器人放在地面上（无论放在屋里什么地方），在没有其他用户输入的情况下，直接按开始就行。

在训练过的大型视觉语言模型( VLM )帮助下，人形机器人会先识别、定位目标箱子，然后推理合适的拿放姿势。接下来，Figure 01 会导航自己到目标跟前，检测抓取点和手部力量，尝试抓取成功并将箱子放到传送带上。

这些技术亮点也是 Figure 和一直希望回归机器人领域的 OpenAI 达成合作协议的重要原因之一——将 OpenAI 的研究与 Figure 的机器人经验结合起来，为人形机器人开发下一代 AI 模型。OpenAI 也希望将自己的高性能多模态大模型扩展到机器人领域。

除了接受大笔风投之外，Figure 也在积极拓展落地场景。目前，Figure 01 已经开始在宝马位于南卡罗来纳州斯帕坦堡的汽车工厂接受测试，人们计划让机器人替代人类从事一些危险度高的任务。

本文转载于：https://www.51cto.com/article/783702.html 如有侵犯，请联系admin@zhengruan.com删除

上一篇：AI在烹饪世界中的革新：为餐厅运营与客户体验带来全新改变

下一篇：岚图梦想家EV发布两款高续航车型，CLTC电动车纯电续航里程达到650公里

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

蔚来汽车换电网络进一步完善：2382座换电站已投入使用，第四代即将推出

3月14日消息，蔚来汽车在换电网络布局上再获新进展。截至3月13日的数据显示，蔚来已成功部署了2382座换电站，覆盖广泛的高速公路网络，其中778座专为高速公路服务。此外，蔚来还建立了3724座充电站，配备了21652根充电桩，并与超过100万根第三方充电桩实现了互联互通。在最近的一次沟通会上，蔚来汽车的创始人兼CEO李斌透露了公司部署速度放缓的原因。他指出，这是因为公司正在等待第四代换电站的推出，计划从4月份开始进行部署。这些新一代换电站预计将为用户带来更高效的换电体验和更广泛的服务覆盖。据小编了解，蔚

10分钟前蔚来汽车 0
正版软件

荣耀Magic6系列发布叠光绿洲护眼屏，领先行业创新

荣耀在最新的公告中宣布，旗下即将推出的全新产品系列荣耀Magic6将首次采用最新的叠光绿洲护眼屏技术。这一创新的屏幕技术标志着国产自主研发屏幕迈出了重要的一步，被业内誉为屏幕科技领域的明珠。据小编了解，荣耀终端公司姜海荣对叠光绿洲护眼屏赞誉有加。他解释道，该屏幕采用了行业首发的Tandem双栈串联OLED架构，这一架构不仅将屏幕寿命提升至惊人的600%，还能在能效比方面实现40%的提升。这意味着用户在使用荣耀Magic6系列新品时，将能够享受到更长久、更高效的屏幕使用体验。在深入研究Tandem双栈串联O

15分钟前荣耀 0
正版软件

台电最新推出T50 HD平板：具备11英寸高清屏和紫光展锐处理器

台电最近在国际市场推出了全新的T50HD平板电脑。这款产品以11英寸全贴合高清屏幕、紫光展锐T606处理器和7.8mm超薄的CNCUnibody铝合金机身等特点吸引了消费者的关注。台电T50HD平板电脑配备了一块11英寸的IPS全贴合屏幕，分辨率高达1920x1200，亮度达到300尼特，为用户带来清晰且色彩鲜艳的视觉体验。该屏幕还通过了莱茵TÜV低蓝光认证，有效减少长时间使用对眼睛的伤害。据小编了解，台电T50HD在机身设计方面同样表现出色。采用CNCUnibody铝合金材质，机身仅厚7.8m

30分钟前台电 0
正版软件

发布大众ID.3 GTX系列官方图，性能版车型为驾驶者带来独特驾驶感受

近日，大众汽车发布了ID.3GTX系列车型的官方图片。这款车型是ID.3的性能版，将推出普通版与Performance版，旨在为消费者提供与GTIClubsport相似的驾驶感受。从外观上看，新车在细节上进行了调整，前包围采用了全新的贯穿式与梯形散热开口设计，两侧配备了纵向布局的日间行车灯，使整体造型更具辨识度。侧面则保持了双拼色的车身设计，红色的车身增强了运动感。此外，新车在前车门处还粘贴了GTX字样，以彰显其特殊身份，并搭配了20英寸的五辐式轮圈。据小编了解，车尾部分，新车配备了一个大尺寸的车顶扰流板

45分钟前大众汽车 0
正版软件

魅族保持多元发展：AI升级并推出新中端手机

魅族科技在今年2月宣布暂停传统的“智能手机”新项目，而是决定全力投入AI领域的发展。尽管如此，这并不代表魅族会完全放弃手机市场。近日，有博主爆料称，魅族正在研发一款搭载骁龙中端处理器的AI终端产品，据称该产品的性能表现不俗。此外，该产品将采用直屏设计，并配备超大容量电池以及66W快充技术，为用户带来更出色的续航体验。据了解，尽管魅族目前致力于AI领域，但仍在继续布局手机市场。此前，魅族将魅族21Pro手机宣传为“魅族首款开放式AI终端”，暗示其手机产品中融入了AI技术。因此，可以推测这款正在研发的AI终端

1小时前 18:10 魅族 0