OpenAI GDPval测试：AI逼近专家水准，知识工作者迎挑战

今日新闻 2025年10月02日 15:10 1 admin

2025年9月30号，人工智能学家平台发了条消息，OpenAI刚发布的GDPval基准测试，测出来现在最顶尖的AI模型，干有经济价值的专业活儿，已经快赶上人类专家了。

这事跟以前AI在实验室里解数学题可不一样，它意味着AI真的要从“纸上谈兵”走进职场，给知识工作者带来的变化，可能比咱们想的还要近。

GDPval测试：不考“做题”考“干活”，AI这次玩真的

以前评价AI行不行，总爱考它解数学题、写代码，这些东西跟实际工作差得远。

但这次GDPval不一样，它专门测AI在真实职场里的本事。

覆盖的行业都是美国经济的“顶梁柱”，像医疗保健、金融服务、制造业这些，加起来差不多占了美国GDP的四分之三还多，里面包含44个专精职业的1320项具体任务。

这些任务不是随便编的，全是平均有14年工作经验的老从业者设计、审查的。

比如律师要写的法律简报、工程师画的工程蓝图、护士定的护理计划，每个任务都给了参考资料和交付要求，跟真上班干的活儿没区别。

更靠谱的是评估方式，用了双盲法，评的专家不知道成果是AI做的还是人做的，这样比出来的结果，说服力确实强。

说实话，我一开始以为AI也就在机械性的活儿上还行，没想到测试结果挺意外。

Claude Opus 4.1在公开的220项任务里，差不多一半的输出能达到专家水平，尤其在文档格式化、演示文稿设计这种要点审美感的活儿上，表现特别突出。

而GPT-5更擅长需要精准专业知识的任务，比如解读法律条款、分析金融数据。

本来想，AI在“美”和“准”这两方面总得偏一个，现在看来，顶尖模型已经能兼顾了。

光看能力够不够还不够，企业更关心AI干活的效能和成本。

毕竟再厉害的技术，不能省钱、不能省时间，也很难真用起来。

从测试里算的账来看，前沿AI模型干GDPval里的任务，速度比行业专家快差不多100倍，成本也低100倍。

当然，这个数没算上实际用的时候，人得盯着改改、跟其他工作整合的成本，但就算把这些加上，AI的效能优势还是很明显。

老实讲，我身边有做律所助理的朋友，以前天天核对合同里的基础条款，费时间还容易错。

要是真用上这种AI，他们就能腾出时间整理更复杂的案例，不用再陷在重复劳动里。

这大概就是AI最实际的价值，把人从“耗时间”的活儿里解放出来，而不是直接替代人。

AI抢专家活？知识工作者的“饭碗”得重新定义了

从GPT-4o到GPT-5，也就一年左右的时间，AI在经济价值任务上的表现居然提升了两倍多，而且是稳步往上走的线性趋势。

这速度比很多专家预测的快多了，以前说AI每18个月能进步一倍，现在看来，在实用领域，AI进步得更快。

GDPval选的那些职业也很有讲究，不是随便挑的。

得满足两个条件：所属行业贡献美国GDP超5%，而且职业本身薪酬在行业里排前5，最重要的是，60%以上的任务不用干体力活，像软件工程师、律师、会计师、注册护士这些都在里面。

OpenAI说，这些职业里的常规、要求明确的任务，AI已经能接了，人可以专心做更需要创造性、更需要判断的事。

如此看来，AI不是来“抢饭碗”的，是来“换饭碗”的。

比如以前设计师得自己画基础的演示文稿模板，现在AI能搞定，设计师就能把精力放在怎么让内容更有创意、更贴合客户需求上；医生不用再花时间整理病人的基础病历，能多花点时间跟病人沟通病情。

这种转变，其实是把知识工作者的核心竞争力，从“会不会做”变成了“能不能做得更有深度”。

当然，现在的AI也不是万能的，测试里也暴露了不少局限。

比如GDPval是一次性评估，没法模拟实际工作里“改稿子”的流程，咱们上班写报告，谁不得根据领导、客户的反馈改个三五遍？AI现在还没法像人一样，根据反馈不断调整。

而且遇到需求模糊的情况，比如客户只说“想要个靠谱的金融规划”，没说清楚风险承受能力、理财目标，AI也没法像人一样，一点点问明白、捋清楚。

搞不清为啥测试没把这些“模糊”“迭代”的场景加进去，毕竟真实工作里，这种情况才是常态。

所以现在的AI，更适合干“目标明确、流程固定”的活儿，遇到“没谱”的、需要灵活调整的活儿，还是得靠人来牵头。

面对这种变化，光靠个人调整肯定不够，得靠政策、企业、教育机构一起发力。

政策得定好规矩，比如AI出了错谁负责，怎么保护用户数据；企业得琢磨怎么让人跟AI配合好，不是简单把活儿丢给AI，而是让人跟AI形成互补；学校也得改改教学内容，现在LinkedIn上很多招聘都要求会用AI辅助工具，以后不会跟AI协作，找工作可能都要吃亏。

毫无疑问，GDPval测试是个重要的信号，AI已经从“技术上能行”走到了“经济上能用”，知识经济要变天了。

对知识工作者来说，不用怕AI会替代自己，更该担心的是自己能不能跟上AI的节奏，学会用AI把自己的专业能力发挥得更好。

未来的知识工作者，核心竞争力不再是“掌握多少知识”，而是“怎么用AI把知识用得更巧”。

这既是挑战，也是让自己变得更有价值的机会。

17对17，小米要将苹果“斩于马下”？

如何看待余承东担任华为IRB主任？

发表评论

OpenAI GDPval测试：AI逼近专家水准，知识工作者迎挑战

GDPval测试：不考“做题”考“干活”，AI这次玩真的

AI抢专家活？知识工作者的“饭碗”得重新定义了

17对17，小米要将苹果“斩于马下”？

如何看待余承东担任华为IRB主任？

热门文章

最新文章