阿里北交大实习生开发的MobileAgent引发网友热议，能够模拟人类操作手机，被认为是剁手的加速器！

　　发布于2024-11-28　阅读（0）

扫一扫，手机访问

编辑 | 言征

出品 | 51CTO技术栈（微信号：blog51cto）

“太酷了，以后就靠AI帮我加速剁手吃土了。”近日一款名为MobileAgent的移动智能代理引起了圈内人的注意。

一个惊艳之处在于，这款Agent为“手机+GPT4”结合，做出了一个很好的应用示范，简直解锁了一种手机新形态。

MobileAgent与Siri、智能客服不同的是，规划和推理方面非常出色，能够自动完成各种复杂任务，比如——

在Alibaba上帮助用户找到帽子，并根据条件添加到购物车；

在Amazon Music中搜索歌手Jay Chou或播放关于“代理”的音乐；

在Chrome中搜索今日湖人队比赛结果或关于Taylor Swift的信息；

在Gmail中发送空邮件或具有特定内容的邮件；

在TikTok上为宠物猫视频点赞或评论等，还可以结合使用多个应用完成复杂任务。

阿里北交大实习生论文火了！MobileAgent 可模拟人类玩转手机，网友：加速剁手、吃土！在Chrome中搜索今日湖人队比赛结果或关于Taylor Swift的信息

阿里北交大实习生论文火了！MobileAgent 可模拟人类玩转手机，网友：加速剁手、吃土！在TikTok中滑动一段关于宠物猫的视频，然后点击“点赞”观看该视频。

据悉，MobileAgent是由阿里巴巴联合北京交通大学（一名在阿里实习的童鞋）开发的一个自主多模态AI代理，可以模拟人类操作手机，是一个纯视觉解决方案，不需要任何系统代码，完全通过分析图像来理解和操作手机。

阿里北交大实习生论文火了！MobileAgent 可模拟人类玩转手机，网友：加速剁手、吃土！图片

最重要的特性有四点：纯可视化解决方案，独立于XML 和系统元数据；操作范围不受限制，可进行多应用操作；多种视觉感知工具，用于操作定位；无需探索和培训，即插即用。

阿里北交大实习生论文火了！MobileAgent 可模拟人类玩转手机，网友：加速剁手、吃土！图片

现在代码已经放在github上，感兴趣的朋友不妨移步去实操一番：

https://github.com/X-PLUG/MobileAgent

1、多模态大模型的威力释放到手机上

阿里北交大实习生论文火了！MobileAgent 可模拟人类玩转手机，网友：加速剁手、吃土！图片

众所周知，GPT4的在端侧的本地能力是不足的，即便最先进的GPT-4V，仍然缺乏足够的视觉感知能力来作为有效的媒介，虽然可以产生有效的操作，但它很难在屏幕上准确定位这些操作的位置。这种限制阻碍了仅通过高级多模态大模型在移动设备上进行操作的能力。

为了解决这个问题，此前有人想到一个通过利用用户界面布局文件来帮助GPT-4V进行本地化的办法，但效果差强人意。

与以往依赖应用程序的XML文件或移动系统元数据的解决方案不同，Mobile-Agent以视觉为中心，在各种移动操作环境中具有更大的适应性，消除了对特定系统定制的必要性。

MobileAgent利用视觉感知工具准确识别和定位应用程序前端界面的视觉和文字元素，实现了自主规划和分解复杂操作任务，通过逐步操作导航移动应用程序。

2、如何评估多模态大模型作为手机Agent的能力

阿里团队为了评估该代理的准确率和性能，还搭建了一套适配不同场景的基准测试集，包括电商购物、音乐、浏览器、地图、应用商店、记事本、系统设置、视频、短视频、跨App等。每个场景设计了三个不同难度的指令，以评估 Mobile-Agent 在各种任务下的表现，

阿里北交大实习生论文火了！MobileAgent 可模拟人类玩转手机，网友：加速剁手、吃土！图片

总结来看，MobileAgent有三类使用场景：

（1）自动化移动设备操作：Mobile-Agent可用于自动化执行移动应用程序中的任务，提高效率。

（2）移动设备性能评估：利用Mobile-Agent进行移动设备操作评估，以提高性能。

（3）提高移动应用程序适应性：Mobile-Agent可帮助移动应用程序在不同环境中实现更大的适应性。

该代理的功能特色也可圈可点：

利用多模大语言模型技术；利用视觉感知工具准确识别和定位应用程序前端界面中的视觉和文字元素；自主规划和分解复杂操作任务；通过逐步操作来导航移动应用程序；具有更大的适应性，消除了对特定系统定制的必要性；引入了Mobile-Eval，用于评估移动设备操作的基准。

3、工作原理一览

MobileAgent工作原理包括三方面：视觉感知工具，自主任务规划和执行，自反思和提示格式。MobileAgent使用了视觉感知模块、文本和图标定位，自主规划和自反思方法来实现对手机应用的操作。

阿里北交大实习生论文火了！MobileAgent 可模拟人类玩转手机，网友：加速剁手、吃土！图片

观察、思考和行动是MobileAgent采用的提示格式，要求代理输出三个组成部分。

阿里北交大实习生论文火了！MobileAgent 可模拟人类玩转手机，网友：加速剁手、吃土！图片

本文转载于：https://www.51cto.com/article/780902.html 如有侵犯，请联系admin@zhengruan.com删除

上一篇：LLaVA-1.6超越了Gemini Pro，具备强大的推理和OCR能力

下一篇：同步特征创新：MM-Interleaved强大的开源多模态生成模型

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

谷歌安卓 15 将提供新功能：Auracast 页面，实现音频共享至附近设备

本站2月1日消息，根据国外科技媒体AndroidAuthority报道，谷歌计划在安卓15系统中，开辟专门的音频分享界面，凸显Auracast功能，方便用户向就近设备共享媒体音频。蓝牙特别兴趣小组于2022年宣布了Auracast功能，这是一种即将推出的蓝牙广播功能，旨在提升无线音频体验。Auracast将赋予用户与朋友和家人共享音频的能力，为他们带来更加丰富的互动体验。这一创新功能有望开启全新的无线音频时代，让人们更加轻松地分享和欣赏音乐、播客等内容。该功能以前被称为AudioSharing，随后更改为

12分钟前谷歌安卓 0
正版软件

思特威推出新品SC5000CS手机图像传感器，有效降低暗场噪声

2月1日，CMOS图像传感器供应商思特威发布了一款专为手机设计的5000万像素图像传感器SC5000CS。这一最新研发成果将为手机摄影带来更高质量的图像拍摄能力。这款新型的背照式(BSI)传感器采用了0.702μm像素尺寸设计，并集成了思特威独家的SFCPixel-SL技术。通过SFCPixel专利技术架构的进一步优化，该技术创新地在像素内实现了双转换增益设计，从而显著提升了传感器的动态范围，并在暗场环境下展现出更低的噪声表现。传感器尺寸为1/2.5英寸，非常适合用作智能手机的主摄像头，并且支持PDAF相

27分钟前思特威 0
正版软件

奇瑞推出全新政策：二手车官方认证可享受终身质保服务

奇瑞汽车宣布，自2024年2月1日起，符合条件的“官方认证二手车”也可享受终身质保。这一政策的推出为消费者带来了更多的利好。作为其“全系车型整车终身质保”政策实施一周年的庆祝活动，奇瑞汽车再次展示了对消费者的关注和承诺。这一举措将进一步提升二手车购买的信心，为消费者提供更加可靠和放心的选择。奇瑞汽车于2022年发布了“官方认证二手车”标准，要求车龄不超过8年，行驶里程不超过15万公里，且无重大事故、火烧、泡水等情况。符合标准的车辆可以被认定为“官方认证二手车”，享有原厂提供的1年或2万公里保修服务，以及免

42分钟前奇瑞 0
正版软件

揭秘英特尔最强大的处理器W9-3595X：60核心、120线程终极怪兽露面

英特尔旗舰型号工作站处理器至强W9-3595X最近在Geekbench基准测试数据库中曝光。据了解，这款处理器是SapphireRapids家族的一员。在公开的测试中，至强W9-3595X处理器都与华硕ProWSW790-ACE主板配对使用。这表明未来的至强W-3500系列处理器将与现有的W790主板平台保持兼容性。根据小编了解，至强W9-3595X处理器在规格上有了明显的提升。它的核心数从56增加到了60，线程数从112增加到了120。同时，新一代处理器配备了更大的缓存容量，L2缓存增加到了120MB，

57分钟前英特尔 0
正版软件

比亚迪元UP发布官方图片，预计3月份销售，续航里程超过400公里

2月1日消息，比亚迪近日揭晓了旗下全新小型纯电SUV——元UP的官图，并计划于3月份正式将其推向市场。元UP是比亚迪首款基于e平台3.0打造的小型纯电SUV，属于王朝网。车身尺寸为长4310mm、宽1830mm、高1675mm，轴距为2620mm，在同级车型中具有竞争优势。动力方面，元UP配备了一台最大功率为130kW的单电机，预计续航里程将超过400km，满足日常出行需求。据小编了解，此前有消息透露了元UP的预扣提车价。据悉，新车将推出三款配置车型，分别是401KM领先型、401KM超越型和401KM卓

1小时前 03:25 比亚迪 0