Field Manual / 2026-03-29

安卓手机自动化,真正能落地的 Agent 方案不是单框架,而是分层体系。

这套文档把 Android UI 自动化底座、研究型手机 Agent、产品化执行层、购物 App 自动化链路、开放平台替代路径和合规边界全部压到同一个可交付文档站里。

推荐主线Agent Planner + Midscene / OpenClaw + UiAutomator2 + Device Farm
购物 MVP搜索、比价、加购、领券、到确认页,人审后支付
落地原则先可观测、再可恢复、最后再追求全自动

Core Recommendations

三条先定死的设计原则

R1

编排层用 Agent,执行层保留确定性工具

OpenClaw / Midscene / 自定义 LLM 编排适合做规划、观察、失败恢复,但真正落点击、输入、滚动、返回时,需要 UiAutomator2 / ADB / Appium 这种可回放执行器兜底。

R2

购物场景先做到“到提交页”,支付保留人工确认

淘宝、1688、京东、拼多多都存在登录、验证码、券规则、地址校验、风控和支付验证。无人值守自动支付风险高,MVP 应停在待确认/待支付节点。

R3

商家能力优先走开放平台 API,而不是全靠 UI 点点点

当业务拥有商家账号、店铺系统或采购权限时,应优先接京东/淘宝/1688/拼多多开放平台。UI Agent 只处理非标准表单、运营后台、人审流程和补录动作。

Tracks

文档分区

查看完整目录

Featured Reading

优先阅读

方案全景总览

文档地图与推荐阅读顺序

这套文档的核心结论是:安卓手机自动化要分成编排层、执行层、设备层三段设计;购物场景要优先做到“搜索、比价、加购、领券、到提交页”,而不是一开始就追求无人值守自动支付。

更新于 2026-03-29
方案全景框架比较

安卓自动化框架全景

截至 2026 年 3 月 29 日,Android 自动化生态可以明确分成“底座执行器”“视觉/脚本自动化”“Agent 编排层”“研究 benchmark / 模拟环境”四类;把它们混成一个概念,会直接导致架构选型错误。

更新于 2026-03-29
方案全景策略判断

Agent 编排层与执行层技术栈

手机自动化里的 Agent,不应该直接拥有“看到页面就决定支付”的绝对权限;它更应该是一个被策略引擎、状态机、确定性执行器和审计系统包住的规划器。

更新于 2026-03-29
方案全景策略判断

购物 App 自动执行蓝图

淘宝、1688、京东、拼多多这类购物 App 的自动化,不应该被定义成“自动点击到付款”,而应该被定义成“在严格边界内完成可审计的购物任务状态流转”。

更新于 2026-03-29
执行摘要结论摘要

执行摘要:推荐落地方案

如果目标是做一套“安卓手机自动化调用 Agent”的可交付框架,并且未来能覆盖淘宝、1688、京东、拼多多,那么最合理的产品形态不是纯脚本工具,也不是纯视觉 Agent,而是“Agent 编排 + 确定性执行 + 购物状态机 + 人工确认”的组合。

更新于 2026-03-29