计算机使用
Codex 的计算机操作功能
概述
计算机使用功能允许 Codex 与你的计算机交互,执行图形界面操作。
功能说明
能力范围
Codex 可以:
- 查看屏幕内容
- 移动鼠标
- 点击按钮
- 键盘输入
- 窗口操作
使用场景
- GUI 自动化测试
- 重复任务自动化
- 跨应用工作流
安全控制
权限管理
设置 → 计算机使用 → 权限
☐ 允许查看屏幕
☐ 允许鼠标控制
☐ 允许键盘输入
☐ 允许窗口操作审批模式
每次操作前确认:
[Codex 想要点击按钮]
[批准] [拒绝] [始终批准此操作]配置选项
基础配置
json
{
"computerUse": {
"enabled": true,
"requireApproval": true,
"screenshotInterval": 1000
}
}安全限制
json
{
"computerUse": {
"blockedApps": ["系统设置"],
"allowedRegions": ["工作区"],
"maxClicksPerMinute": 60
}
}使用示例
示例 1: 填写表单
用户:帮我填写这个注册表单
Codex:
1. 点击姓名字段
2. 输入姓名
3. 点击邮箱字段
4. 输入邮箱
5. 点击提交按钮示例 2: 数据导出
用户:导出这个表格为 Excel
Codex:
1. 点击导出按钮
2. 选择 Excel 格式
3. 选择保存位置
4. 确认保存示例 3: 截图任务
用户:截取所有页面的截图
Codex:
1. 打开页面列表
2. 逐个打开页面
3. 截图保存
4. 整理截图视觉理解
屏幕识别
Codex 可以识别:
- 按钮位置
- 文本字段
- 下拉菜单
- 表格数据
OCR 功能
读取屏幕文字:
识别界面文本
读取错误信息
提取表格数据自动化脚本
创建脚本
yaml
name: 日报生成
description: 自动生成日报
steps:
- open: "https://jira.example.com"
- click: "#create-worklog"
- type: "今天完成了..."
- click: "#submit"脚本库
脚本库/
├── 日常报告.yml
├── 数据导出.yml
└── 批量操作.yml错误处理
异常检测
当操作失败时:
- 截图记录
- 重试机制
- 通知用户恢复机制
如果失败:
1. 返回上一步
2. 尝试替代方案
3. 请求用户帮助审计日志
操作记录
时间戳 | 操作 | 目标 | 状态
-------|------|------|------
10:00 | click | #submit | success
10:01 | type | #name | success截图存档
自动保存操作截图
保留时间:7 天
位置:~/.codex/screenshots/最佳实践
1. 明确指令
好:点击左上角的保存按钮
不好:保存一下2. 分步执行
复杂任务分解为多个步骤
每步确认后继续3. 设置检查点
关键操作前创建检查点
便于回滚限制
当前限制
- 仅支持主流操作系统
- 复杂图形识别有限
- 需要明确权限
不支持
- 游戏操作
- 高频交易
- 安全风险操作