简介
Open Interpreter 的 OS Mode 把自然语言 CLI 扩展成完整的电脑控制。agent 截屏看屏幕、用点击、键盘、shell 命令驱动任何 GUI 应用。适合接触你写不了脚本的 GUI 应用(Photoshop、Excel 宏、Zoom、第三方桌面工具)的研究 / 实验 / 一次性自动化。兼容 macOS / Windows / Linux。装机时间 5 分钟。
装 + 启动
pip install open-interpreter
interpreter --os首次运行要你的 LLM API key(默认 OpenAI;用 --model claude-3-5-sonnet-20241022 接 Claude)。
示例会话
> Open Photoshop, create a new 1200x630 document, fill it with a navy-to-orange
gradient, and add the text "Q3 Report" centered in white.
[OS Mode 截屏,识别 Dock,点 Photoshop]
[等应用启动…]
[点 File > New,输入尺寸,创建文档]
[选渐变工具,挑颜色,从左上拖到右下]
[加文字图层,输入 "Q3 Report",居中对齐]
> Done. Want me to save the file?安全提示
OS Mode 在破坏性动作前会请求确认:
About to: Empty Trash (irreversible). Confirm? [y/N]可以预设白名单工具自动批准:
interpreter --os --auto_run --safe_mode highsafe_mode high 拒绝文件删除、对未知主机的网络请求、含 rm / dd 的 shell 命令。
什么时候不该用 OS Mode
- 生产自动化 —— 用 Browser Use(仅浏览器)或平台 API
- 时间敏感 —— OS Mode 每次点击约 5-15s 延迟
- 任何敏感内容 —— 截屏会离开你的机器到 LLM
OS Mode 适合一次性、探索性、「我宁愿描述也不想学 GUI」的任务。
FAQ
Q: Open Interpreter 免费吗? A: 免费 —— Apache-2.0 开源。用自己的 LLM API key(OpenAI / Anthropic / 本地)。推理成本看模型和任务视觉密度(视觉模型更贵)。
Q: 跟 Browser Use 啥区别? A: Browser Use 只在浏览器里(Chrome 内点击)。OS Mode 是全 OS(任何 GUI app、终端、Dock)。爬网用 Browser Use;桌面应用自动化用 OS Mode。延迟和可靠性都不一样。
Q: 远程服务器能用吗?
A: 受限 —— OS Mode 需要屏幕和输入设备。无头 / 服务器场景用 Open Interpreter 标准模式(不加 --os),shell-only,任何 Linux 机器都能跑。