2025年9月30号,人工智能学家平台发了条消息,OpenAI刚发布的GDPval基准测试,测出来现在最顶尖的AI模型,干有经济价值的专业活儿,已经快...
2025-10-02 1
2025年9月30号,人工智能学家平台发了条消息,OpenAI刚发布的GDPval基准测试,测出来现在最顶尖的AI模型,干有经济价值的专业活儿,已经快赶上人类专家了。
这事跟以前AI在实验室里解数学题可不一样,它意味着AI真的要从“纸上谈兵”走进职场,给知识工作者带来的变化,可能比咱们想的还要近。
以前评价AI行不行,总爱考它解数学题、写代码,这些东西跟实际工作差得远。
但这次GDPval不一样,它专门测AI在真实职场里的本事。
覆盖的行业都是美国经济的“顶梁柱”,像医疗保健、金融服务、制造业这些,加起来差不多占了美国GDP的四分之三还多,里面包含44个专精职业的1320项具体任务。
这些任务不是随便编的,全是平均有14年工作经验的老从业者设计、审查的。
比如律师要写的法律简报、工程师画的工程蓝图、护士定的护理计划,每个任务都给了参考资料和交付要求,跟真上班干的活儿没区别。
更靠谱的是评估方式,用了双盲法,评的专家不知道成果是AI做的还是人做的,这样比出来的结果,说服力确实强。
说实话,我一开始以为AI也就在机械性的活儿上还行,没想到测试结果挺意外。
Claude Opus 4.1在公开的220项任务里,差不多一半的输出能达到专家水平,尤其在文档格式化、演示文稿设计这种要点审美感的活儿上,表现特别突出。
而GPT-5更擅长需要精准专业知识的任务,比如解读法律条款、分析金融数据。
本来想,AI在“美”和“准”这两方面总得偏一个,现在看来,顶尖模型已经能兼顾了。
光看能力够不够还不够,企业更关心AI干活的效能和成本。
毕竟再厉害的技术,不能省钱、不能省时间,也很难真用起来。
从测试里算的账来看,前沿AI模型干GDPval里的任务,速度比行业专家快差不多100倍,成本也低100倍。
当然,这个数没算上实际用的时候,人得盯着改改、跟其他工作整合的成本,但就算把这些加上,AI的效能优势还是很明显。
老实讲,我身边有做律所助理的朋友,以前天天核对合同里的基础条款,费时间还容易错。
要是真用上这种AI,他们就能腾出时间整理更复杂的案例,不用再陷在重复劳动里。
这大概就是AI最实际的价值,把人从“耗时间”的活儿里解放出来,而不是直接替代人。
从GPT-4o到GPT-5,也就一年左右的时间,AI在经济价值任务上的表现居然提升了两倍多,而且是稳步往上走的线性趋势。
这速度比很多专家预测的快多了,以前说AI每18个月能进步一倍,现在看来,在实用领域,AI进步得更快。
GDPval选的那些职业也很有讲究,不是随便挑的。
得满足两个条件:所属行业贡献美国GDP超5%,而且职业本身薪酬在行业里排前5,最重要的是,60%以上的任务不用干体力活,像软件工程师、律师、会计师、注册护士这些都在里面。
OpenAI说,这些职业里的常规、要求明确的任务,AI已经能接了,人可以专心做更需要创造性、更需要判断的事。
如此看来,AI不是来“抢饭碗”的,是来“换饭碗”的。
比如以前设计师得自己画基础的演示文稿模板,现在AI能搞定,设计师就能把精力放在怎么让内容更有创意、更贴合客户需求上;医生不用再花时间整理病人的基础病历,能多花点时间跟病人沟通病情。
这种转变,其实是把知识工作者的核心竞争力,从“会不会做”变成了“能不能做得更有深度”。
当然,现在的AI也不是万能的,测试里也暴露了不少局限。
比如GDPval是一次性评估,没法模拟实际工作里“改稿子”的流程,咱们上班写报告,谁不得根据领导、客户的反馈改个三五遍?AI现在还没法像人一样,根据反馈不断调整。
而且遇到需求模糊的情况,比如客户只说“想要个靠谱的金融规划”,没说清楚风险承受能力、理财目标,AI也没法像人一样,一点点问明白、捋清楚。
搞不清为啥测试没把这些“模糊”“迭代”的场景加进去,毕竟真实工作里,这种情况才是常态。
所以现在的AI,更适合干“目标明确、流程固定”的活儿,遇到“没谱”的、需要灵活调整的活儿,还是得靠人来牵头。
面对这种变化,光靠个人调整肯定不够,得靠政策、企业、教育机构一起发力。
政策得定好规矩,比如AI出了错谁负责,怎么保护用户数据;企业得琢磨怎么让人跟AI配合好,不是简单把活儿丢给AI,而是让人跟AI形成互补;学校也得改改教学内容,现在LinkedIn上很多招聘都要求会用AI辅助工具,以后不会跟AI协作,找工作可能都要吃亏。
毫无疑问,GDPval测试是个重要的信号,AI已经从“技术上能行”走到了“经济上能用”,知识经济要变天了。
对知识工作者来说,不用怕AI会替代自己,更该担心的是自己能不能跟上AI的节奏,学会用AI把自己的专业能力发挥得更好。
未来的知识工作者,核心竞争力不再是“掌握多少知识”,而是“怎么用AI把知识用得更巧”。
这既是挑战,也是让自己变得更有价值的机会。
相关文章
2025年9月30号,人工智能学家平台发了条消息,OpenAI刚发布的GDPval基准测试,测出来现在最顶尖的AI模型,干有经济价值的专业活儿,已经快...
2025-10-02 1
即热式饮水机在市场上越来越受欢迎,可它真的像宣传中说的那么好用吗?不少报道曝光了用劣质胶水拼接的产品,将甲醛释放到水中,开放式的水路还会被爬虫与细菌污...
2025-10-02 1
10月1日,记者从北海市交通运输局获悉,日前北海市低空飞行服务中心投入运行,该中心系广西首个设区市级低空飞行服务中心,标志着广西首个“区市共建”低空飞...
2025-10-02 1
IT之家 10 月 2 日消息,罗技 Logitech 此前在推出新一代旗舰“生产力”鼠标 MX Master 4 的同时还将上一代 MX Maste...
2025-10-02 2
英伟达回归遇阻,谁能替代H20?2025年9月刚入秋,英伟达想回中国市场的事儿就卡壳了。俩月前还是仲夏,创始人黄仁勋穿着标志性的皮衣落地北京,兴冲冲带...
2025-10-02 2
中国氮化镓芯片突围,她全球第一。一款比指甲盖还要小的芯片,正在给中国的AI未来注入巨大的能量。英伟达公司在2025年夏天公布的800伏直流电源架构供应...
2025-10-02 2
今天已经是10月2号了,那么国庆期间建议大家千万别着急买手机,因为后面有两个关键时间节点,更重要的是,新一轮以旧换新补贴要来了。首先,根据中新网消息,...
2025-10-02 2
前言2020年,北斗三号系统宣布全球组网完成,听起来像是中国卫星导航的“封神时刻”。技术先进,全球覆盖,定位精准,连联合国都点赞。可现实却有点尴尬:国...
2025-10-02 2
发表评论