Skip to content

计算机使用

Codex 的计算机操作功能

概述

计算机使用功能允许 Codex 与你的计算机交互,执行图形界面操作。

功能说明

能力范围

Codex 可以:

  • 查看屏幕内容
  • 移动鼠标
  • 点击按钮
  • 键盘输入
  • 窗口操作

使用场景

  • GUI 自动化测试
  • 重复任务自动化
  • 跨应用工作流

安全控制

权限管理

设置 → 计算机使用 → 权限

☐ 允许查看屏幕
☐ 允许鼠标控制
☐ 允许键盘输入
☐ 允许窗口操作

审批模式

每次操作前确认:
[Codex 想要点击按钮]
[批准] [拒绝] [始终批准此操作]

配置选项

基础配置

json
{
  "computerUse": {
    "enabled": true,
    "requireApproval": true,
    "screenshotInterval": 1000
  }
}

安全限制

json
{
  "computerUse": {
    "blockedApps": ["系统设置"],
    "allowedRegions": ["工作区"],
    "maxClicksPerMinute": 60
  }
}

使用示例

示例 1: 填写表单

用户:帮我填写这个注册表单

Codex:
1. 点击姓名字段
2. 输入姓名
3. 点击邮箱字段
4. 输入邮箱
5. 点击提交按钮

示例 2: 数据导出

用户:导出这个表格为 Excel

Codex:
1. 点击导出按钮
2. 选择 Excel 格式
3. 选择保存位置
4. 确认保存

示例 3: 截图任务

用户:截取所有页面的截图

Codex:
1. 打开页面列表
2. 逐个打开页面
3. 截图保存
4. 整理截图

视觉理解

屏幕识别

Codex 可以识别:

  • 按钮位置
  • 文本字段
  • 下拉菜单
  • 表格数据

OCR 功能

读取屏幕文字:

识别界面文本
读取错误信息
提取表格数据

自动化脚本

创建脚本

yaml
name: 日报生成
description: 自动生成日报

steps:
  - open: "https://jira.example.com"
  - click: "#create-worklog"
  - type: "今天完成了..."
  - click: "#submit"

脚本库

脚本库/
├── 日常报告.yml
├── 数据导出.yml
└── 批量操作.yml

错误处理

异常检测

当操作失败时:
- 截图记录
- 重试机制
- 通知用户

恢复机制

如果失败:
1. 返回上一步
2. 尝试替代方案
3. 请求用户帮助

审计日志

操作记录

时间戳 | 操作 | 目标 | 状态
-------|------|------|------
10:00 | click | #submit | success
10:01 | type | #name | success

截图存档

自动保存操作截图
保留时间:7 天
位置:~/.codex/screenshots/

最佳实践

1. 明确指令

好:点击左上角的保存按钮
不好:保存一下

2. 分步执行

复杂任务分解为多个步骤
每步确认后继续

3. 设置检查点

关键操作前创建检查点
便于回滚

限制

当前限制

  • 仅支持主流操作系统
  • 复杂图形识别有限
  • 需要明确权限

不支持

  • 游戏操作
  • 高频交易
  • 安全风险操作

下一步

基于 OpenAI Codex 官方文档翻译