首页 今日新闻文章正文

OpenAI GDPval测试:AI逼近专家水准,知识工作者迎挑战

今日新闻 2025年10月02日 15:10 1 admin

2025年9月30号,人工智能学家平台发了条消息,OpenAI刚发布的GDPval基准测试,测出来现在最顶尖的AI模型,干有经济价值的专业活儿,已经快赶上人类专家了。

OpenAI GDPval测试:AI逼近专家水准,知识工作者迎挑战

这事跟以前AI在实验室里解数学题可不一样,它意味着AI真的要从“纸上谈兵”走进职场,给知识工作者带来的变化,可能比咱们想的还要近。

GDPval测试:不考“做题”考“干活”,AI这次玩真的

以前评价AI行不行,总爱考它解数学题、写代码,这些东西跟实际工作差得远。

但这次GDPval不一样,它专门测AI在真实职场里的本事。

OpenAI GDPval测试:AI逼近专家水准,知识工作者迎挑战

覆盖的行业都是美国经济的“顶梁柱”,像医疗保健、金融服务、制造业这些,加起来差不多占了美国GDP的四分之三还多,里面包含44个专精职业的1320项具体任务。

这些任务不是随便编的,全是平均有14年工作经验的老从业者设计、审查的。

比如律师要写的法律简报、工程师画的工程蓝图、护士定的护理计划,每个任务都给了参考资料和交付要求,跟真上班干的活儿没区别。

OpenAI GDPval测试:AI逼近专家水准,知识工作者迎挑战

更靠谱的是评估方式,用了双盲法,评的专家不知道成果是AI做的还是人做的,这样比出来的结果,说服力确实强。

说实话,我一开始以为AI也就在机械性的活儿上还行,没想到测试结果挺意外。

Claude Opus 4.1在公开的220项任务里,差不多一半的输出能达到专家水平,尤其在文档格式化、演示文稿设计这种要点审美感的活儿上,表现特别突出。

OpenAI GDPval测试:AI逼近专家水准,知识工作者迎挑战

而GPT-5更擅长需要精准专业知识的任务,比如解读法律条款、分析金融数据。

本来想,AI在“美”和“准”这两方面总得偏一个,现在看来,顶尖模型已经能兼顾了。

光看能力够不够还不够,企业更关心AI干活的效能和成本。

毕竟再厉害的技术,不能省钱、不能省时间,也很难真用起来。

OpenAI GDPval测试:AI逼近专家水准,知识工作者迎挑战

从测试里算的账来看,前沿AI模型干GDPval里的任务,速度比行业专家快差不多100倍,成本也低100倍。

当然,这个数没算上实际用的时候,人得盯着改改、跟其他工作整合的成本,但就算把这些加上,AI的效能优势还是很明显。

老实讲,我身边有做律所助理的朋友,以前天天核对合同里的基础条款,费时间还容易错。

OpenAI GDPval测试:AI逼近专家水准,知识工作者迎挑战

要是真用上这种AI,他们就能腾出时间整理更复杂的案例,不用再陷在重复劳动里。

这大概就是AI最实际的价值,把人从“耗时间”的活儿里解放出来,而不是直接替代人。

AI抢专家活?知识工作者的“饭碗”得重新定义了

从GPT-4o到GPT-5,也就一年左右的时间,AI在经济价值任务上的表现居然提升了两倍多,而且是稳步往上走的线性趋势。

OpenAI GDPval测试:AI逼近专家水准,知识工作者迎挑战

这速度比很多专家预测的快多了,以前说AI每18个月能进步一倍,现在看来,在实用领域,AI进步得更快。

GDPval选的那些职业也很有讲究,不是随便挑的。

得满足两个条件:所属行业贡献美国GDP超5%,而且职业本身薪酬在行业里排前5,最重要的是,60%以上的任务不用干体力活,像软件工程师、律师、会计师、注册护士这些都在里面。

OpenAI GDPval测试:AI逼近专家水准,知识工作者迎挑战

OpenAI说,这些职业里的常规、要求明确的任务,AI已经能接了,人可以专心做更需要创造性、更需要判断的事。

如此看来,AI不是来“抢饭碗”的,是来“换饭碗”的。

比如以前设计师得自己画基础的演示文稿模板,现在AI能搞定,设计师就能把精力放在怎么让内容更有创意、更贴合客户需求上;医生不用再花时间整理病人的基础病历,能多花点时间跟病人沟通病情。

OpenAI GDPval测试:AI逼近专家水准,知识工作者迎挑战

这种转变,其实是把知识工作者的核心竞争力,从“会不会做”变成了“能不能做得更有深度”。

当然,现在的AI也不是万能的,测试里也暴露了不少局限。

比如GDPval是一次性评估,没法模拟实际工作里“改稿子”的流程,咱们上班写报告,谁不得根据领导、客户的反馈改个三五遍?AI现在还没法像人一样,根据反馈不断调整。

而且遇到需求模糊的情况,比如客户只说“想要个靠谱的金融规划”,没说清楚风险承受能力、理财目标,AI也没法像人一样,一点点问明白、捋清楚。

OpenAI GDPval测试:AI逼近专家水准,知识工作者迎挑战

搞不清为啥测试没把这些“模糊”“迭代”的场景加进去,毕竟真实工作里,这种情况才是常态。

所以现在的AI,更适合干“目标明确、流程固定”的活儿,遇到“没谱”的、需要灵活调整的活儿,还是得靠人来牵头。

面对这种变化,光靠个人调整肯定不够,得靠政策、企业、教育机构一起发力。

政策得定好规矩,比如AI出了错谁负责,怎么保护用户数据;企业得琢磨怎么让人跟AI配合好,不是简单把活儿丢给AI,而是让人跟AI形成互补;学校也得改改教学内容,现在LinkedIn上很多招聘都要求会用AI辅助工具,以后不会跟AI协作,找工作可能都要吃亏。

OpenAI GDPval测试:AI逼近专家水准,知识工作者迎挑战

毫无疑问,GDPval测试是个重要的信号,AI已经从“技术上能行”走到了“经济上能用”,知识经济要变天了。

对知识工作者来说,不用怕AI会替代自己,更该担心的是自己能不能跟上AI的节奏,学会用AI把自己的专业能力发挥得更好。

未来的知识工作者,核心竞争力不再是“掌握多少知识”,而是“怎么用AI把知识用得更巧”。

这既是挑战,也是让自己变得更有价值的机会。

发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved.  sitemap