去年我还在手动整理Excel表格,现在我的AI助手已经能自己打开浏览器、查资料、写报告了。这不是科幻,是2025年正在发生的事。
OpenAI的Operator、Anthropic的Computer Use、智谱的AutoGLM——这些名字背后是一个共同趋势:AI不再只是回答问题,而是开始动手做事。
回想一下,我们和AI的交互方式经历了三个阶段:
第一阶段是问答模式。你输入问题,AI给答案。ChatGPT刚出来时就是这样,像个知识渊博的图书管理员,有问必答,但从不主动。
第二阶段是辅助创作。AI帮你写邮件、改代码、做PPT。这时候它开始理解上下文,能完成相对复杂的任务,但每一步都需要你指挥。
现在到了第三阶段:自主执行。你给AI一个目标,它自己规划步骤、调用工具、完成任务。你让它"帮我订一张下周去上海的机票,要上午的航班,价格别超过800块",它真的能打开订票网站、筛选条件、完成预订。
让AI操作电脑听起来简单,实际很难。计算机界面是为人类设计的——按钮、菜单、滚动条,这些对AI来说全是视觉谜题。
突破来自两个方向。一是多模态大模型,让AI能"看懂"屏幕。GPT-4V、Claude 3.5 Sonnet这些模型可以分析截图,识别界面元素的位置和功能。
二是强化学习。Anthropic用了一种叫"课程学习"的方法:先让AI在简单任务上训练,比如点击按钮、输入文字,再逐步增加难度。就像教小孩先用筷子夹大块的菜,再练夹花生米。
结果是AI学会了像人类一样操作图形界面。它能看到"搜索"按钮,知道要点它;看到下拉菜单,知道要先展开。不需要专门的API,不需要写代码,直接用眼睛和手(鼠标键盘)跟电脑交互。
别光听概念,看看实际案例。
有个做电商的朋友,以前每天要花两小时处理订单:看库存、改价格、回复客户咨询。现在他用AI智能体,设置好规则后,AI自动监控库存变化,低于阈值就调价,客户问常见问题也能自动回复。他每天只需要处理AI标记出来的异常订单,时间压缩到20分钟。
另一个例子是数据分析。做市场研究的人经常需要从十几个网站抓取信息,整理成报告。以前这是体力活,现在AI能自己打开网页、提取数据、生成图表。一个原本需要两天的工作,现在两小时搞定。
更极端的例子是编程。Devin这个AI软件工程师能自己接需求、写代码、调试、部署。虽然还不能完全替代人类程序员,但处理中小型项目已经相当流畅。
AI智能体不是新概念,以前也有RPA(机器人流程自动化)工具。但RPA需要人工录制每一步操作,界面一变就失效,维护成本很高。
现在的AI智能体不同。它通过"看"来理解界面,不依赖固定的坐标或选择器。按钮位置变了?没关系,AI能重新找到它。网站改版了?只要界面逻辑没变,AI照样能用。
更重要的是,大模型的推理能力让AI能处理意外情况。以前的自动化工具遇到弹窗就会卡住,现在AI能判断"这是个验证码,我需要等用户输入"或者"这是个广告,关掉它继续"。
说这么多好处,也得泼点冷水。
首先是可靠性问题。AI操作电脑时会犯错,点错按钮、填错信息都有可能。涉及金钱的操作——比如转账、购物——目前还不适合完全放手。
其次是速度。AI操作电脑比人类慢,它需要先截图、分析、决策、执行,每一步都有延迟。简单任务可能还不如自己做快,复杂任务才能体现价值。
最大的问题是安全。AI有你的账号密码,能登录各种服务。如果被劫持或出错,后果很严重。目前主流方案是"人在回路"——关键步骤需要人类确认,或者给AI设置严格的权限边界。
你可能觉得这是程序员或企业的事,跟自己没关系。但想想看:
如果你能让AI自动整理发票、填报销单,省下的时间值多少钱?
如果你能让AI每天帮你监控机票价格,降价就提醒,能省多少钱?
如果你能让AI自动回复工作邮件里的常见问题,能减少多少重复劳动?
这些场景不需要你是技术专家。现在的AI智能体产品越来越易用,设置过程就像教新员工:演示一遍,AI就学会了。
我的判断是三个方向:
第一,专业化。通用AI智能体会分化出垂直领域的专家——专门处理财务的、专门做客服的、专门搞数据分析的。它们在自己的领域会比通用模型更可靠。
第二,协作化。单个AI智能体的能力有限,但多个AI可以协作。一个负责收集信息,一个负责分析,一个负责生成报告。这种多智能体系统会处理更复杂的任务。
第三,普及化。操作系统层面会集成AI智能体能力。Windows、macOS、iOS、Android都会内置类似功能,不需要额外安装软件,开箱即用。
如果你还没用过AI智能体,建议从简单的开始。试试Claude的Computer Use(需要申请),或者国内的AutoGLM。让它们帮你完成一个具体任务,比如整理桌面文件、搜索并汇总某个话题的资料。
重点是体验" delegation "(委托)的感觉——不是一步步指挥AI,而是告诉它目标,让它自己想办法。这种交互方式需要适应,但习惯之后效率提升很明显。
对于企业,建议梳理内部重复性高的流程,评估哪些可以用AI智能体自动化。不是说要大规模替换人力,而是让AI处理繁琐的部分,人类专注于需要判断和创造的工作。
AI智能体不是未来科技,是正在发生的现在。它不会一夜之间改变世界,但会一点点渗透到日常工作中,直到某天你突然发现:以前花半天的事,现在点一下按钮就完成了。
那个"某天",可能比你想的更近。
版权声明:本文由只有云知道发布,如需转载请注明出处。
