架构蓝图实施路线2026-03-29

实施路线图与验收标准

这套项目不适合一次性做成“大而全自动购物平台”;正确的节奏是先把设备控制、日志、状态机、审批链路做稳,再逐步把 Agent 的权限放大。

标签:里程碑 / 测试矩阵 / 验收

这套项目不适合一次性做成“大而全自动购物平台”;正确的节奏是先把设备控制、日志、状态机、审批链路做稳,再逐步把 Agent 的权限放大。

Phase 0:控制层打底

目标:不用 Agent,也能稳定把手机控制起来。

交付物

  • 设备注册与健康检查
  • 截图、录屏、前后台切换
  • tap / input / back / scroll / dump_ui
  • 单任务日志与工件归档

验收

  • 能稳定启动指定 App
  • 能稳定完成搜索框输入
  • 能稳定进入详情页并返回
  • 所有步骤都有截图和日志

Phase 1:规则式购物流程

目标:先不用大模型,先跑通确定性购物流程。

覆盖范围

  • 淘宝 / 1688 / 京东 / 拼多多 四选一先做
  • 搜索
  • 筛选
  • 详情页提取
  • SKU 选择
  • 加购

验收

  • 在 20 个预设任务里,到达加购或确认页成功率 >= 80%
  • 所有失败都能归因为页面未加载、弹窗、登录失效、规则不匹配之一

Phase 2:接入 Agent Planner

目标:让系统能处理更复杂、更开放的表达。

交付物

  • LLM planner
  • 结构化 action schema
  • 失败恢复策略
  • 屏幕描述与状态联合判定

验收

  • 自然语言任务可被解析成结构化目标
  • Planner 不得直接越过 policy engine 执行动作
  • 关键步骤失败后支持至少一次恢复

Phase 3:购物状态机与审批流

目标:让系统从“能跑”变成“可控”。

交付物

  • 统一状态机
  • approval_required 节点
  • 账号/设备绑定
  • 风控拦截器

验收

  • 命中支付页时必须阻断
  • 命中验证码时必须阻断
  • 人工审批后可继续执行
  • 审批历史可追溯

Phase 4:平台化与多设备

目标:从 demo 变成系统。

交付物

  • 设备池调度
  • 任务队列
  • 运维控制台
  • 指标与告警

验收

  • 10 台设备并发任务时日志不串线
  • 单设备故障不会拖垮全队列
  • 任务可以重试、暂停、终止、迁移

测试矩阵

类型重点
冒烟测试App 拉起、搜索、返回、截图
回归测试常用商品路径、固定关键词、固定 SKU
变体测试不同分辨率、不同系统版本、不同语言
风控测试登录失效、验证码、优惠券弹窗、支付页
恢复测试页面超时、闪退、网络抖动、误点
审计测试日志、录屏、截图、审批记录完整性

指标目标

业务指标

  • 到确认页成功率
  • 平均准备订单耗时
  • 人工接管次数

系统指标

  • 单步失败率
  • 平均恢复耗时
  • 设备可用率
  • 账号异常率

版本边界建议

V1

  • 单平台
  • 单账号
  • 单设备
  • 到确认页停机

V2

  • 双平台
  • 审批后可提交订单但不支付
  • 多设备调度

V3

  • API + UI 混合链路
  • 后台运营任务和采购任务分层
  • 多租户隔离

实施建议

研发拆分

  • 设备网关
  • planner / policy
  • 任务编排与审计后台
  • 购物业务状态机

先后顺序

  1. 设备网关
  2. 任务日志与工件
  3. 规则式流程
  4. Agent planner
  5. 审批与多设备

完成定义

这个项目的“完成”不是“模型能自己下单”,而是:

  • 能稳定完成订单准备流程
  • 敏感动作前一定停机
  • 所有动作可解释、可回放、可审计
  • 页面改版时能快速定位是规则问题还是模型问题

做到这四点,才算真正有工程价值。