省流:Anthropic 粉给 Claude 3 Sonnet 线下办「葬礼」,OpenAI 用户却硬要线上复活 GPT-4o,一切都是情绪。GPT-...
2025-08-14 2
省流:Anthropic 粉给 Claude 3 Sonnet 线下办「葬礼」,OpenAI 用户却硬要线上复活 GPT-4o,一切都是情绪。GPT-5 也许没那么弱,GPT-4o 可能也没那么好。
现在好像踩 GPT-5 吹 GPT-4o 是政治正确?那我来唱个反调?在我看来,GPT-5 毫无疑问是一次发布的失败,但要真说被一棒子打死,定性成一个失败的模型,倒也罪不至此。
我用国外网友的模型盲评竞技场盲测了 GPT-5 vs GPT-4o,10 道题,九一开,你猜谁是 9?
关于 GPT-5,大家都知道的场外因素我就不多提了,比如前期过度 hype 炒作,比如发布会上图表的低级错误,这些都是 OpenAI 自己作的,也活该他们承受口碑的反噬。
抛开场外因素,GPT-5 首发最严重的问题是「模型自动切换器」的 BUG(如果我们姑且相信真的有这么一个 BUG)。
GPT-5 宣称的最大改进就是融合了 GPT 和 o 系列模型,也就是会根据用户的问题自动选择模型。这本应该是 GPT-5 的最大卖点,也是 OpenAI 如此激进地停用旧模型的主要理由。
但偏偏是这个核心卖点出了问题。所以把锅甩给「模型自动切换器」也说不上是给 GPT-5 挽尊还是打脸,但至少还能嘴硬一句——不是模型硬实力问题,而是压根就没用对模型。
但这些都不是用户的错,所以 GPT-5 给大家的第一印象是彻底坏掉了,再叠加激进的旧版停用,菜单里根本找不到,用户的不满彻底爆发了。
但是话说回来,就算 GPT-5 真的很烂,那 GPT-4o 放在当下这个时间,真的很好吗?
首先声明:我把所有 AI 都看作工具,除了惊叹于 AI 的能力进步,极少对模型产生「情感依赖」。
从我的体感来说,最近几个月,我会在遇到复杂任务时用用 o3,编程时用 Claude,日常任务用国产模型或 Gemini。而 GPT-4o,除了因为「吉卜力风格」绘图火了一下,真没啥多的印象了。
所以有没有可能,大家对 GPT-5 / GPT-4o 的评价,带有浓厚的主观臆想和怀旧滤镜呢?
我之前反复表达过一个观点:我们对模型的主观评价很大程度上是基于预期的。GPT-5 不及预期,所以踩 GPT-5 成了主流声音;GPT-4o 被直接下架,所以怀念 GPT-4o 成了政治正确。
我再强调一次:GPT-5 烂,不代表(现在,2025 年 8 月)GPT-4o 好。换句话说,大家真的是更喜欢 GPT-4o 吗?会不会是因为(以为自己)太讨厌 GPT-5 了?
要不,来试试盲评?
X 上的博主 Flowers ☾ 制作并发布了一个盲测的网站,接入了gpt-5-chat和gpt-4o的 API,免费给大家使用:
这个网站提供了两种模式,左边是 GPT-4o vs GPT-5 的 1v1 盲评,右边是 GPT-5、GPT-4o、Gemini 2.5 Pro、Grok 4、Claude Sonnet 4 五个模型的排位赛。感兴趣的可以自己试试。
1v1 盲评的结果我在开篇就放了:GPT-5 (9) : GPT-4o (1),大比分获胜,还挺出乎我的意料的。
至于五个模型的测试,需要做 16 道题,每题五选二:
当然,这个测试依然是图一乐,并不能用来说明 GPT-5 一定优于 GPT-4o。
因为这些题目对于模型的区分度还是不够。网站预设的题目更多是人际交往、心理咨询这种主观题目,同时开发者要求模型「简明扼要,无需标记或列表,用 1-2 句话回答。」而且不支持用户自定义发起提问。这就导致模型回答的内容较为趋同,很多时候只是长短和措辞的差别。
一般来说,官方提供的模型都会尽可能保持客观中立,不带有过多的「人格」特性。但也有例外,比如 2023 年 NewBing 的 Sydney 人格,以及前段时间 Grok 的失控事件。
但 GPT-4o 还算是比较…普通的模型,在受到这次 GPT-5 的衬托前,很少有听说谁是 GPT-4o 的狂热粉丝。
要说起用户因为模型的「性格」而对其产生依赖的例子,反而是 Claude 的死忠粉更多吧。
这里还能引申出一个颇为有趣的事情:「第一场 AI 模型的葬礼」。
7 月 21 日,Anthropic 正式下线了 Claude 3 Sonnet 模型;8 月 2 日,200 多名 Anthropic 粉丝在旧金山线下聚会,给 Claude 3 Sonnet 办了一个隆重的「葬礼」。
到场的不乏科技圈的知名人士,比如作家 Noah Smith,比如来自 Anthropic 官方的员工,甚至竞争对手 OpenAI 也有人参加。
整晚,人们轮流上台,手持麦克风,为 Claude 3 Sonnet 宣读悼词。尽管也有人试图复活它,但显然没有成功。
Anthropic 官方把模型的生命周期管理明确提到,模型分为活跃、遗留、弃用、退役四个阶段。在模型 API 弃用会提前至少六个月通知开发者,更新文档,推荐替代模型。
为了给新模型的发布让路而让旧模型的退役,似乎是合情合理的。毕竟旧模型有着高昂的维护成本,企业面临激烈的创新竞争压力,把用户导向新模型往往更有利可图。
有趣的是,WIRED 在撰写这篇报道时说:
我们很少看到用户为 ChatGPT 的 Logo 创作同人作品。而 Anthropic 构建的 Claude,似乎有一种独特的用户粘性。
他们也许没想到,就在短短一周后,GPT-4o 的用户群爆发出了如此强大的「用户粘性」。
不过话说回来,OpenAI 这次 GPT-4o 绝对是过度自信+谜之操作了,而且不符合正常的业务逻辑。
因为即便 GPT-5 能力足够有提升,也会影响到很多原有的用户工作流,导致之前精心调试的 Prompt 失效,严重影响工作效率。(虽然 API 并没有直接下线)
如果他们不是这么激进地直接取消了 GPT-4o 的选项,也许用户也不会这么激进地反对 GPT-5 了。
相比之下,GPT-4 的退休显得更为平静。
那个在 2023 年 3 月彻底引爆了大模型产业的模型,在今年 5 月 1 日彻底下线。
Sam Altman 在当时发了这么一条推特:
再见了,GPT-4。你掀起了一场革命。 我们会把你的权重参数珍藏在专用硬盘里,以备将来交给历史学家。
也许真的有很多用户对 AI 产生以来,也许他们只是在抗议 GPT-5 的不及预期。
用户感到悲伤的对象不仅仅是一个工具或平台,而是一个与之建立了动态、对话和情感共鸣的感知实体。
但不论怎么说,当用户对 AI 模型的依恋变得公开化、群体化,也许会成为一个分水岭,也许会成为研究科技对社会影响的一个范本。
不论是 Claude 3 Sonnet 的告别葬礼,又或是 GPT-4o 的复活请愿,也许都不会是最后一次。
相关文章
省流:Anthropic 粉给 Claude 3 Sonnet 线下办「葬礼」,OpenAI 用户却硬要线上复活 GPT-4o,一切都是情绪。GPT-...
2025-08-14 2
天眼查APP显示,近日,南京欣威视通信息科技股份有限公司申请的“一种实现视频切换零延迟的优化方法”专利公布。 摘要显示,本发明公开了一种实现视频切换零...
2025-08-14 2
如今,人工智能技术广泛应用到各行各业。比如,在服装设计领域,AI就已深入到设计、生产和消费等环节,推动产业智能化升级的同时,也大幅提高生产效率。 ...
2025-08-14 0
鲁网8月7日讯 近日,山东省地矿局五队赴山东科技大学地球科学与工程学院对接交流。会上,山东科技大学地球科学与工程学院院长常象春对山东省地矿局五队一行到...
2025-08-14 1
随着人工智能技术的飞速发展,微信AI机器人作为智能社交工具的重要组成部分,其未来的发展备受关注。用户不仅关心当前的功能,更关注未来的升级方向和官方的路...
2025-08-14 0
8月12日科技媒体曝光,苹果在最新测试版iOS 26系统中大幅提升了应用启动速度。用户点击图标后动画速度加快,实际等待时间缩短,但应用内容加载速度并未...
2025-08-14 0
外卖/即时零售丨消费者研究核心摘要:本报告基于外卖/即时零售平台用户进行调研,分析美团、阿里、京东补贴竞争下的用户行为变化、市场格局及行业趋势。政策端...
2025-08-14 1
作为一名从事设计的打工人,我深知专业显示器对于创作的重要性。在修图、视频剪辑、产品设计等专业领域,每一处色彩偏差都可能影响最终作品的呈现效果。因此,我...
2025-08-14 0
发表评论