方案全景总览2026-03-29

文档地图与推荐阅读顺序

这套文档的核心结论是:安卓手机自动化要分成编排层、执行层、设备层三段设计;购物场景要优先做到“搜索、比价、加购、领券、到提交页”,而不是一开始就追求无人值守自动支付。

标签:阅读顺序 / 推荐架构 / 购物 Agent

这套文档的核心结论是:安卓手机自动化要分成编排层、执行层、设备层三段设计;购物场景要优先做到“搜索、比价、加购、领券、到提交页”,而不是一开始就追求无人值守自动支付。

一句话结论

推荐主线不是“只选一个框架”,而是下面这条组合:

推荐选型作用
Agent 编排层OpenClaw / Midscene / 自定义 LLM Tool Agent规划、多步推理、状态恢复、跨页面理解
确定性执行层UiAutomator2 / ADB / 必要时 Appium点击、输入、滚动、截图、前后台切换、元素读取
视觉层OCR / grounded UI parser / 截图比对处理无稳定 selector 的页面、弹窗、图文混排
设备层真机池 / 云机 / Android Emulator隔离账号、并发回放、录屏、审计
业务层购物状态机 + 风控栅栏 + 人工确认保证自动化动作受控,而不是完全放飞

先读哪几篇

阅读顺序文档用途
1执行摘要先看推荐结论、投入顺序、MVP 边界
2安卓自动化框架全景先分清底座框架和 Agent 框架不是一回事
3Agent 编排层与执行层技术栈决定 OpenClaw / Midscene / 自建 Orchestrator 怎么选
4购物 App 自动执行蓝图落到淘宝、1688、京东、拼多多的业务动作
5合规、风控与不可碰边界提前把不能做的事锁死
6系统架构蓝图交给研发团队开工
7实施路线图与验收标准划分 P0/P1/P2 与验收口径
8主要官方来源与仓库索引回看一手来源

方案应该怎么分层判断

1. 底座自动化框架

这类工具解决的是“怎么稳定控制 Android”:

它们的共同点是:动作更确定、可回放、可写脚本。缺点是复杂业务适应性弱,跨页面推理和异常恢复能力有限。

2. Agent 编排框架

这类工具解决的是“怎么让模型像操作员一样做规划”:

它们更擅长理解屏幕、决定下一步、遇错回退,但如果没有确定性执行器和状态机,很容易在真实购物流程里抖动。

3. 业务执行框架

真正面向购物场景,还要额外补三样东西:

  • 任务状态机:搜索、筛选、详情页、加购、券、确认页、支付前停机
  • 合规栅栏:禁止绕过登录、验证码、OTP、支付风控
  • 审计链路:录屏、截图、动作日志、订单截图、失败归因

最终推荐的三种落地模式

模式 A:消费者助理型

适合个人或小团队内部使用,目标是提效而不是无人值守。

  • 自动搜索商品
  • 自动比价与对比 SKU
  • 自动加购、选券、到确认页
  • 由人确认地址、金额、支付方式后再继续

这是最稳的起步模式。

模式 B:商家后台协同型

适合你本身有店铺、采购、ERP 或开放平台账号的场景。

  • 标准订单链路走开放平台 API
  • 只有非标准后台、运营动作、人工审核页面才交给手机 Agent
  • UI Agent 从“主路径执行器”降级为“补位执行器”

这是长期最值得投入的模式。

模式 C:研究验证型

适合做 benchmark、POC、demo。

  • 用 Emulator 或测试号
  • 关注任务完成率、步数、失败类型
  • 不碰真实支付

这是训练/调参用,不是直接上生产。

这轮调研最重要的判断

判断 1

公开研究最强的不是“真机购物自动支付”,而是“Agent + 模拟环境 + 多 App 通用控制”。

这是一个重要信号。说明业内公开成果还主要集中在可复现实验环境,而不是淘宝、京东、拼多多这类真实高风控购物闭环。

判断 2

如果目标是“能上线、能扩、能审计”,最现实路线是:

  1. Agent 做规划和观察。
  2. UiAutomator2 / ADB 做原子动作。
  3. 状态机和风控栅栏保证边界。
  4. 支付前设置人工确认。

判断 3

如果你能拿到平台开放能力,UI 自动化不应承担主交易链路。

京东、淘宝、1688、拼多多都有官方开放平台入口:

业务上最优的组合通常是 API 主链路 + 手机 Agent 补位

当前不推荐的做法

  • 只靠视觉 Agent 直接跑真实购物下单,不做 selector / 状态机兜底
  • 把 Accessibility 自主决策 Agent 打包上 Google Play
  • 无人值守自动支付
  • 用单一账号同时跑多台设备
  • 不做录屏、截图、动作日志就直接试产

下一步怎么落地

如果你要直接开工,按这个顺序推进:

  1. 先看 执行摘要
  2. 再看 购物 App 自动执行蓝图
  3. 然后按 系统架构蓝图 拆服务
  4. 最后对照 实施路线图与验收标准 分阶段上线