OpenClaw 如何控制浏览器:三种模式、CDP 协议与自动化完全指南
神马中转API
国内直连企业级中转,600+全模型支持

OpenClaw 是一个快速崛起的 AI 浏览器自动化平台。截至 2026 年,该项目在 GitHub 已获得超过 68,000 Star,并以 MIT 开源许可发布。OpenClaw 的核心能力之一,就是通过 Chrome DevTools Protocol(CDP) 精确控制浏览器,从而实现稳定、可扩展的 Web 自动化。
与传统基于截图或视觉识别的自动化工具不同,OpenClaw 直接在 浏览器协议层进行操作。这意味着自动化任务不再依赖屏幕像素、按钮位置或 UI 布局,而是通过 DOM、事件和浏览器内部接口执行操作。
本文将系统讲解:
✔ OpenClaw 浏览器控制的底层原理
✔ 三种浏览器控制模式(Extension Relay / Managed / Remote CDP)
✔ 快照与元素引用系统(ref)
✔ 实际自动化工作流
✔ 安全最佳实践与常见故障排查
✔ 生产环境配置建议
OpenClaw 浏览器控制原理:基于 CDP 协议
OpenClaw 的浏览器控制能力基于 Chrome DevTools Protocol(CDP)。
CDP 是 Chromium 浏览器提供的 开发者调试通信协议,同样也是
Google Chrome 开发者工具使用的底层通道。
CDP 的特点:
1️⃣ WebSocket 双向通信
2️⃣实时事件流
3️⃣ 直接控制浏览器内部模块
OpenClaw 与浏览器之间建立一个 持久 WebSocket 连接,然后发送 CDP 命令。
例如:browser click 12
这与视觉自动化工具形成鲜明对比:
| 自动化方式 | 工作方式 | 稳定性 |
|---|---|---|
| 视觉自动化 | 截图 + 识别 + 点击 | 容易失效 |
| CDP 控制 | DOM + 浏览器协议 | 高稳定性 |
即使网页 UI 位置变化,CDP 自动化也不会受到影响。
CDP 能控制什么?
CDP 暴露了 约 300 个 API 命令,分布在多个模块中:
| 模块 | 功能 |
|---|---|
| Page | 页面导航与生命周期 |
| DOM | DOM 结构访问 |
| Runtime | JavaScript 执行 |
| Network | 网络请求拦截 |
| Input | 鼠标键盘事件 |
| Log | 控制台日志 |
OpenClaw 会将 AI 指令转换为这些 CDP 调用。
例如:
browser navigate
browser click
browser type
browser wait
这些命令最终都通过 CDP 发送到浏览器。
OpenClaw 的三种浏览器控制模式
OpenClaw 提供 三种浏览器控制模式:
1️⃣ Extension Relay
2️⃣ Managed Browser
3️⃣ Remote CDP
每种模式适合不同场景。
Extension Relay 模式(保留登录会话)
默认端口:18792
Extension Relay 使用 Chrome 扩展作为 CDP 中继。
结构如下:
OpenClaw
↓
Chrome Extension
↓
Chrome Browser
优势:
-
使用 现有浏览器
-
保留 登录状态
-
可操作 已打开标签页
适合:
-
Gmail 自动化
-
Notion 操作
-
企业内部系统
-
需要 SSO 的网站
典型流程:
openclaw browser tabs
openclaw browser tab select 3
openclaw browser snapshot
然后 AI 可以直接操作该页面。
⚠️ 安全建议
必须使用 专用 Chrome Profile
不要使用个人浏览器。
Managed Browser 模式(隔离自动化)
端口范围:18800 – 18899
Managed 模式会启动一个 独立 Chromium 实例。
结构:
↓
Managed Chromium
特点:
-
完全隔离
-
无共享 Cookie
-
无浏览历史
-
无个人数据
适合:
-
爬虫
-
自动测试
-
表单自动化
-
数据抓取
示例:
- openclaw browser start –profile scraper
- openclaw browser navigate “https://example.com”
- openclaw browser snapshot
Managed 模式支持:
-
Headless 浏览器
-
地理位置模拟
-
User-Agent 修改
-
HTTP header 定制
-
网络离线模拟
这是 最推荐的自动化模式。
Remote CDP(云浏览器)
Remote CDP 用于连接 远程浏览器实例。
例如:
↓
CDP Endpoint
↓
OpenClaw
常见场景:
-
云端自动化
-
CI/CD 流水线
-
Browser cluster
-
SaaS 自动化
Remote CDP 配置:
remoteCdpUrl
remoteCdpToken
remoteCdpTimeoutMs
安全建议:
-
使用 HTTPS
-
启用 token
-
定期轮换密钥
三种模式对比
| 标准 | Extension Relay | Managed | Remote CDP |
|---|---|---|---|
| 访问登录会话 | ✔ | ✘ | 可配置 |
| 需要扩展 | ✔ | ✘ | ✘ |
| 数据隔离 | ✘ | ✔ | ✔ |
| 本地运行 | ✔ | ✔ | ✘ |
| 云端部署 | ✘ | 可 | ✔ |
| 复杂度 | 中 | 低 | 高 |
推荐规则:
-
需要登录 → Relay
-
自动化任务 → Managed
-
云端规模化 → Remote CDP
快照与元素引用系统(ref)
OpenClaw 不使用 CSS Selector。
它使用 Snapshot + Ref 引用系统。
执行:openclaw browser snapshot
12 button “Submit”
15 textbox “Search”
18 link “Next page”
每个元素都有一个 ref。
操作示例:
browser click 12
两种 Snapshot 模式
1.AI Mode Snapshot
依赖 Playwright
生成:12、34、56
2.Role Snapshot
无需 Playwright
生成:e12、e15、e18
基于:getByRole()
优点:轻量、安装简单
缺点:精度较低
Ref 生命周期
最重要规则:ref 在页面变化后会失效
以下情况会导致失效:页面导航、AJAX DOM 更新、页面刷新
正确工作流:
snapshot
interact
snapshot
interact
每次页面变化必须重新 snapshot。
典型自动化工作流
工作流 1:认证会话自动化
使用 Extension Relay
场景:导出 BI 报表、自动提交表单、内网系统操作
流程:
openclaw browser tab select
openclaw browser snapshot
browser click
browser type
无需重新登录。
工作流 2:网页抓取
使用 Managed 模式。
openclaw browser navigate https://site.com
openclaw browser wait
openclaw browser snapshot
AI 可以:
-
提取文本
-
翻页
-
解析表格
-
滚动加载
工作流 3:网站监控
定期检查页面变化:
browser snapshot
如果出现目标文本:
-
发送 Slack
-
发送 Telegram
-
发送 Discord
OpenClaw 支持这些通知渠道。
安全最佳实践
浏览器自动化存在潜在安全风险。
建议采取以下措施。
使用专用 Chrome Profile
不要使用个人浏览器数据。
Extension Relay 可以访问:Cookie、LocalStorage、登录状态
限制端口访问
OpenClaw 默认端口:
18800+ Managed
这些端口必须:仅绑定 localhost、禁止公网访问
Remote CDP 使用 Token
配置:remoteCdpToken
SSRF 防护
限制浏览器访问:内网 IP、私有服务
避免浏览器成为攻击跳板。
常见错误与解决方法
错误 1:无法连接浏览器控制服务
检查:openclaw gateway status
错误 2:端口冲突
检查:lsof -i:18791或netstat -ano
错误 3:Ref Not Found
原因:页面已经导航。
解决:重新 snapshot。
错误 4:Playwright 未安装
安装:
高级配置:多浏览器并行
OpenClaw 支持多个浏览器实例:
openclaw browser start –profile job2
openclaw browser start –profile job3
端口分配:
job2 → 18801
job3 → 18802
每个实例拥有独立:Cookie、Storage、会话
适合:并行爬虫、多用户测试、批量任务
性能与 Token 成本
Snapshot 会消耗 AI Token。
影响因素:页面复杂度、DOM 数量、可交互元素数量
优化建议:
1️⃣减少 snapshot 频率
2️⃣ 使用 Role Snapshot
3️⃣ 拆分工作流
OpenClaw 提供了一套完整的 AI 浏览器自动化体系。
核心能力包括:
✔ 基于 Chrome DevTools Protocol 的 协议级控制
✔ 三种浏览器模式(Relay / Managed / Remote)
✔ Snapshot + ref 元素交互系统
✔ AI 自动化工作流
