架构蓝图实施路线2026-03-29

实施路线图与验收标准

这套项目不适合一次性做成“大而全自动购物平台”；正确的节奏是先把设备控制、日志、状态机、审批链路做稳，再逐步把 Agent 的权限放大。

标签：里程碑 / 测试矩阵 / 验收

这套项目不适合一次性做成“大而全自动购物平台”；正确的节奏是先把设备控制、日志、状态机、审批链路做稳，再逐步把 Agent 的权限放大。

Phase 0：控制层打底

目标：不用 Agent，也能稳定把手机控制起来。

交付物

设备注册与健康检查
截图、录屏、前后台切换
tap / input / back / scroll / dump_ui
单任务日志与工件归档

验收

能稳定启动指定 App
能稳定完成搜索框输入
能稳定进入详情页并返回
所有步骤都有截图和日志

Phase 1：规则式购物流程

目标：先不用大模型，先跑通确定性购物流程。

覆盖范围

淘宝 / 1688 / 京东 / 拼多多四选一先做
搜索
筛选
详情页提取
SKU 选择
加购

验收

在 20 个预设任务里，到达加购或确认页成功率 >= 80%
所有失败都能归因为页面未加载、弹窗、登录失效、规则不匹配之一

Phase 2：接入 Agent Planner

目标：让系统能处理更复杂、更开放的表达。

交付物

LLM planner
结构化 action schema
失败恢复策略
屏幕描述与状态联合判定

验收

自然语言任务可被解析成结构化目标
Planner 不得直接越过 policy engine 执行动作
关键步骤失败后支持至少一次恢复

Phase 3：购物状态机与审批流

目标：让系统从“能跑”变成“可控”。

交付物

统一状态机
approval_required 节点
账号/设备绑定
风控拦截器

验收

命中支付页时必须阻断
命中验证码时必须阻断
人工审批后可继续执行
审批历史可追溯

Phase 4：平台化与多设备

目标：从 demo 变成系统。

交付物

设备池调度
任务队列
运维控制台
指标与告警

验收

10 台设备并发任务时日志不串线
单设备故障不会拖垮全队列
任务可以重试、暂停、终止、迁移

测试矩阵

类型	重点
冒烟测试	App 拉起、搜索、返回、截图
回归测试	常用商品路径、固定关键词、固定 SKU
变体测试	不同分辨率、不同系统版本、不同语言
风控测试	登录失效、验证码、优惠券弹窗、支付页
恢复测试	页面超时、闪退、网络抖动、误点
审计测试	日志、录屏、截图、审批记录完整性

指标目标

业务指标

到确认页成功率
平均准备订单耗时
人工接管次数

系统指标

单步失败率
平均恢复耗时
设备可用率
账号异常率

版本边界建议

V1

单平台
单账号
单设备
到确认页停机

V2

双平台
审批后可提交订单但不支付
多设备调度

V3

API + UI 混合链路
后台运营任务和采购任务分层
多租户隔离

实施建议

研发拆分

设备网关
planner / policy
任务编排与审计后台
购物业务状态机

先后顺序

设备网关
任务日志与工件
规则式流程
Agent planner
审批与多设备

完成定义

这个项目的“完成”不是“模型能自己下单”，而是：

能稳定完成订单准备流程
敏感动作前一定停机
所有动作可解释、可回放、可审计
页面改版时能快速定位是规则问题还是模型问题

做到这四点，才算真正有工程价值。