Open-AutoGLM实测:AI如何自动完成美团搜索火锅店任务
Open-AutoGLM实测AI如何自动完成美团搜索火锅店任务最近智谱AI开源的AutoGLM-Phone框架在开发者圈子里引起了不小的讨论。它号称能让AI像真人一样操作手机完成从“打开美团”到“搜索火锅店”这样一连串的任务。听起来很酷但实际效果到底怎么样会不会很复杂今天我就带大家亲手实测一下看看这个AI手机助理到底有多“智能”。1. 什么是Open-AutoGLM-Phone简单来说Open-AutoGLM-Phone是一个能“看懂”手机屏幕并“动手”操作的AI框架。它和我们熟悉的ChatGPT这类纯聊天机器人完全不同。你可以把它想象成一个坐在你手机里的“虚拟手指”和“虚拟眼睛”虚拟眼睛看懂屏幕它能通过截图理解屏幕上显示的是什么比如这是美团首页那个是搜索框。虚拟手指执行操作它能通过ADB安卓调试桥发送指令模拟点击、滑动、输入文字等操作。大脑规划任务你只需要用大白话说“帮我用美团搜一下附近的火锅店”它就能自己拆解任务先解锁手机→找到美团图标→点击打开→找到搜索框→输入“火锅店”→点击搜索→浏览结果。它的核心价值在于把复杂的多步骤操作简化成一句自然语言指令。这对于自动化测试、无障碍辅助或者单纯想“偷懒”的用户来说潜力巨大。2. 实测环境搭建手把手带你连接AI与手机要让AI控制你的手机需要搭建一个“桥梁”。这个桥梁一端连着云端或本地的AI模型大脑另一端连着你的安卓手机身体。我们分两步走准备手机端再准备控制端。2.1 第一步让你的手机“准备好被控制”首先你需要一部安卓手机系统7.0以上或者一个安卓模拟器。这里我为了演示方便使用了Android Studio自带的模拟器。关键操作有三步缺一不可开启“开发者模式”在手机的“设置”里找到“关于手机”或“系统信息”。连续点击“版本号”7-10次直到出现“您已处于开发者模式”的提示。开启“USB调试”返回设置现在你应该能看到新出现的“开发者选项”。进入后找到并开启“USB调试”。这个选项允许电脑通过ADB向手机发送指令。安装并启用“ADB键盘”这是关键一步AI需要通过这个特殊的输入法来向App里输入文字。下载ADBKeyboard.apk并安装到手机。在“设置”-“系统”-“语言与输入法”-“虚拟键盘”中将“默认键盘”切换为“ADB Keyboard”。验证连接用USB线连接手机和电脑打开电脑的命令行CMD或终端输入adb devices如果看到一串设备ID后面跟着device字样恭喜你第一步成功了2.2 第二步在电脑上部署控制中心Open-AutoGLM现在我们来配置指挥AI的“控制中心”。确保你的电脑已安装Python3.10或以上版本。打开命令行依次执行以下命令# 1. 下载智谱官方的开源代码 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 安装项目所需的所有Python工具包 pip install -r requirements.txt # 3. 以“可编辑”模式安装方便后续自己修改代码 pip install -e .这几行命令会帮你把AI控制程序“请”到电脑上。安装过程可能会花几分钟取决于你的网速。3. 实战演练让AI自动搜索美团火锅店环境准备好了激动人心的时刻到了给AI下命令这里有两种主流的模型调用方式我推荐第一种对新手更友好。3.1 方案一使用智谱官方API最简单推荐新手这种方式无需自己部署复杂的AI模型直接使用智谱AI提供的云端服务。获取通行证API Key访问智谱AI开放平台官网注册并登录。在控制台页面创建一个新的API Key并妥善保存。下达指令 在刚才的Open-AutoGLM项目目录下打开命令行输入以下命令请替换你的真实API Keypython main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model autoglm-phone \ --apikey 你的-API-Key-粘贴在这里 \ 打开美团搜索附近的火锅店并按评分排序发生了什么当你按下回车神奇的事情开始了AI首先会“看到”你的手机锁屏界面然后执行“向上滑动解锁”操作。解锁后它开始“环顾”桌面寻找“美团”的图标。找到后点击打开。进入美团后它会识别出顶部的搜索框点击然后通过ADB键盘输入“火锅店”。搜索完成后它可能会尝试寻找“排序”筛选按钮并点击“评分最高”。任务完成你的手机上已经展示出了评分最高的火锅店列表。整个过程完全自动你只需要泡杯茶看着就行。3.2 方案二本地部署模型更自由适合进阶如果你担心数据隐私或者想深入研究可以选择在本地或自己的云服务器上部署模型。这需要一台性能不错的、带GPU的Linux服务器。核心步骤是使用vLLM这类工具来启动模型服务# 在服务器上启动AI模型服务 python -m vllm.entrypoints.openai.api_server \ --model ZhipuAI/autoglm-phone-9b \ --served-model-name autoglm-phone-9b \ --max-model-len 8192 \ --gpu-memory-utilization 0.9然后在你的电脑上将命令中的--base-url指向你自己的服务器地址python main.py \ --device-id 你的设备ID \ --base-url http://你的服务器IP:8000/v1 \ --model autoglm-phone-9b \ 打开美团搜索火锅店4. 实测效果与深度体验我让AI执行了“美团搜火锅店”这个任务并观察了整个过程。以下是真实的体验报告令人惊喜的亮点理解能力不错它能准确识别美团App的图标、搜索框、按钮等常见UI元素。规划逻辑清晰任务拆解步骤符合人类直觉解锁→找App→打开→搜索。自动化程度高从开始到出结果中间无需任何人工干预。遇到的实际挑战与解决思路在测试中我也遇到了一些“翻车”瞬间这恰恰是深入理解它的好机会找不到App怎么办如果手机桌面上没有美团AI会陷入“疯狂找图标”的循环。解决方案可以在代码中为PhoneAgent类增加一个简单的超时或失败计数逻辑超过一定次数后自动停止避免浪费资源。# 示例在agent.py的run方法中增加保护逻辑 max_fail_attempts 5 fail_count 0 while not task_finished and fail_count max_fail_attempts: # ... AI执行步骤 ... if action_failed: fail_count 1卡在登录页面怎么办如果美团需要登录AI目前可能会卡住。框架设计了人工接管机制此时它会暂停并提示用户手动操作完成后AI再继续。操作不够精准怎么办有时点击的位置会略有偏差。这可以通过优化屏幕截图的分辨率或微调模型的视觉理解能力来改善。它最适合做什么自动化重复任务每天打开某个App签到、批量执行某些固定操作。无障碍辅助为视障或行动不便的用户提供语音控制手机的能力。应用测试自动遍历测试App的各个功能点。5. 总结这是未来人机交互的惊鸿一瞥实测完Open-AutoGLM-Phone我的感受是复杂的。它绝不是一个完美的产品在复杂场景、非常规UI面前还会犯错。但它的方向和展示的可能性令人无比兴奋。我们正在从“告诉AI是什么”ChatGPT的时代走向“让AI去做什么”Agent的时代。这个框架就像给大模型装上了“眼睛”和“手”虽然现在这套“感官”和“肢体”还略显笨拙但第一步已经迈出。对于开发者而言这是一个绝佳的学习和实验平台。你可以看到多模态理解、任务规划、工具调用这些前沿技术如何在一个具体项目中落地。对于普通用户它则预告了一个未来或许不久后我们真的可以用一句话就让AI帮我们处理好手机上所有繁琐的操作。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。