IOSG:当你的浏览器成为代理

2025-08-19 23:34:19

撰文:Mario Chow & Figo @IOSG

引言

过去 12 个月,网页浏览器与自动化的关系发生了剧烈变化。几乎所有大型科技公司都在争相构建自主的浏览器代理(browser agent)。从 2024 年底开始这一趋势愈发明显:OpenAI 在 1 月推出了 Agent 模式,Anthropic 为 Claude 模型发布了「电脑使用」功能,Google DeepMind 推出了 Project Mariner,Opera 宣布了代理型浏览器 Neon,而 Perplexity AI 则推出了 Comet 浏览器。信号十分明确:AI 的未来在于能够自主导航网页的代理。

这一趋势并不仅仅是给浏览器加上更聪明的聊天机器人,而是机器与数字环境交互方式的根本转变。浏览器代理是一类能够「看」网页并采取行动的 AI 系统:点击链接、填写表单、滚动页面、输入文字:就像人类用户一样。这种模式承诺将释放巨大的生产力和经济价值,因为它能自动化那些目前仍需要人工操作,或传统脚本过于复杂而无法完成的任务。

▲ GIF 演示:AI 浏览器代理的实际操作:遵循指令,导航到目标数据集页面,自动截图并提取所需数据。

谁将赢得 AI 浏览器之战?

几乎所有大型科技公司(以及一些初创公司)都在开发各自的浏览器 AI 代理方案。以下是最具代表性的几个项目:

OpenAI – Agent 模式

OpenAI 的 Agent 模式(前身名为 Operator,2025 年 1 月推出)是一种自带浏览器的 AI 代理。Operator 能够处理各种重复性的在线任务:例如填写网页表单、订购杂货、安排会议:全部通过人类常用的标准网页界面完成。

▲ AI 代理像专业助理一样安排会议:检查日历、寻找可用时间段、创建活动、发送确认,并为你生成.ics 文件。

Anthropic – Claude 的「Computer Use」

2024 年底,Anthropic 为 Claude 3.5 引入了全新的 「Computer Use(电脑使用)」 功能,赋予了其像人一样操作电脑和浏览器的能力。Claude 可以看屏幕、移动光标、点击按钮、输入文字。这是首个同类的大模型代理工具进入公开测试版,开发者可以让 Claude 自动导航网站和应用程序。Anthropic 将其定位为一种实验性功能,主要目标是实现网页上的多步骤工作流自动化。

Perplexity – Comet

AI 初创公司 Perplexity(以问答引擎闻名)在 2025 年中期推出了 Comet 浏览器,作为 Chrome 的 AI 驱动替代品。Comet 的核心是内置在地址栏(omnibox)中的对话式 AI 搜索引擎,能够提供即时问答和摘要,而不是传统的搜索链接。#p#分页标题#e#

此外,Comet 还内置 Comet Assistant,这是一个驻留在侧边栏的代理,可以跨网站自动执行日常任务。例如,它可以总结你打开的邮件、安排会议、管理浏览器标签页,或代表你浏览并抓取网页信息。

通过侧边栏接口让代理能够感知当前网页内容,Comet 旨在将浏览与 AI 助手无缝融合。

浏览器代理的真实应用场景

在前文中,我们已经回顾了各大科技公司(OpenAI、Anthropic、Perplexity 等)如何通过不同的产品形态为浏览器代理(browser agents)注入功能。为了更直观地理解它们的价值,我们可以进一步看看在真实场景中,这些能力如何被应用到日常生活和企业工作流程中。

日常网页自动化

#电商与个人购物

一个非常实用的场景是将购物与预订任务委托给代理。代理可以根据固定清单自动填充你的线上购物车并下单,也可以在多个零售商之间寻找最低价,并代你完成结账流程。

对于旅行,你可以让 AI 执行这样的任务:「帮我预订下个月去东京的航班(票价低于 800 美元),再订一家有免费 Wi-Fi 的酒店。」代理会处理整个流程:搜索航班、比较选项、填写乘客信息、完成酒店预订,全部通过航空公司与酒店网站完成。这种自动化水平远远超越了现有的旅

声明:投资有风险,入市须谨慎。本资讯不作为投资建议。
本文链接: - 链补手