OpenAI GPT-5 发布:模型能力全面「屠榜」,构建「超级智能」的第一步

2025-08-10 23:47:40

作者:张勇毅

经历过无数次「跳票」之后,GPT-5 终于来了。

北京时间 8 月 8 日凌晨一点,颇有新一代「科技春晚」架势的 OpenAI 夏季发布会拉开帷幕。

与此前 OpenAI 速通式的发布会明显不同,这次 OpenAI 准备了时长超过一个小时的发布会直播几波人马轮番上阵,你方唱罢我登场,从各种角度展示 GPT-5 的强悍性能。

先说重点:GPT-5 在多个领域的表现都迎来了全面提升,在文本、WebDev 和视觉感知能力领域排名第一;在硬提示、编码、数学、创造力、长查询等方面排名第一 GPT-5,在代号为「峰会」的测试下,目前保持着截至目前最高的 Arena 分数,可以说是字面意义上的「屠榜」了。

Sam Altman 表示,GPT-4o 就像中学生,而 GPT-5 就像大学生,甚至形容 GPT-5 是第一部配备视网膜显示屏的 iPhone——「你问它一个问题,也许能得到正确答案,也许会得到一些疯狂的东西。GPT-4 则感觉像在和一名大学生对话。而 GPT-5,是第一次让我真正感觉像在与一位博士级别的专家交谈。」Sam Altman 这样介绍 GPT-5 的能力提升。

尽管 ChatGPT 的周活跃用户已接近 7 亿,但 OpenAI 过去一段时间实际上并未拥有行业领先的前沿模型。现在,OpenAI 相信 GPT-5 将使其稳稳地重回排行榜榜首。

Altman 甚至直接在发布会中断言:「这是世界上编码能力最强的模型,是世界上写作能力最强的模型,也是世界上在医疗保健领域最强的模型」

同时 OpenAI 也在发布会上宣称,除了代码能力爆表,GPT-5 的写作功底和回答健康相关问题的准确性也更上一层楼。同时 GPT-5 不仅在智能上实现了「巨大飞跃」,还大幅减少了「一本正经胡说八道」的幻觉问题。它在理解和遵循指令方面表现更出色,拍马屁的倾向也大大降低了。

01 告别「幻觉」,AI 更可靠了

首先是本次更新的模型阵容,GPT-5 系列一共有 GPT-5, mini, nano, chat 四个版本,其中 Chat 版本对应的是实现更自然、更智能的响应的体验——你甚至可以用它来学习一门新的语言。

另外,现在当你打开 ChatGPT 网页之后,首先会注意到 GPT-5 被呈现为一个单一模型,而不是一个常规模型外加一个独立的推理模型。

这背后其实是 OpenAI 开发的一个路由系统(router),它会自动为更复杂的查询切换到推理能力更强的版本,或者在你告诉它努力思考时也会这样做。(Altman 称之前的模型选择界面是「一个非常混乱的烂摊子」。)#p#分页标题#e#

「AI 幻觉」一直是大家吐槽的重灾区。好消息是,GPT-5 在这方面下了大功夫,官方宣称其产生幻觉的可能性「显著降低」。具体来说:

  • 在联网搜索时,GPT-5 的回答出现事实错误的概率比 GPT-4o 低了 45%。

  • 在独立思考时,其回答出错的概率更是比 OpenAI o3 低了 80%

GPT-5 也在新的 ARC-AGI-2 上进行了测试。除 Grok 4(思考)外,它的表现优于所有主要模型。

此外,GPT-5 还成了一个「老实人」。它不太会再对用户撒谎,吹嘘自己能完成办不到的任务。当遇到不可能完成、指令不明确或缺少关键工具的任务时,它会更诚实地沟通自己的局限。

这次更新最有趣的一点,莫过于引入了四种全新的「人格」模式,用户可以自由选择。它们分别是:

  • 犬儒 (Cynic)

  • 机器人 (Robot)

  • 倾听者 (Listener)

  • 学霸 (Nerd)

这些模式是可选的,你可以根据自己的喜好,设定 ChatGPT 与你互动和回答问题的方式。想让它跟你抬杠,还是像个耐

声明:投资有风险,入市须谨慎。本资讯不作为投资建议。
本文链接: - 链补手